OpenAI 安全研究团队 Superalignment 交出成绩！成员强调：需要方法控制超级 AI

OpenAI 在今年 7 月成立的 Superalignment 研究团队，目标是研发能控制和规范未来超级 AI 系统的方式，OpenAI 也在今（15）日以论文分享目前实验成果。研究员让较低阶的 AI 模型，在不影响更高智慧 AI 模型的表现之下引导其行为。

研究团队使用的是「supervision」，也就是用来微调 GPT-4 以降低模型风险的方式，目前此方法须人类提供回馈给 AI 系统，但研究员不断在探索自动化此流程的办法。

在实验中 Superalignment 团队训练 GPT-2 处理各式任务，像是解西洋棋谜题和 22 项常见 NLP 测试题，再用 GPT-2 回应来训练 GPT-4。团队调整了 GPT-4 演算法，确保 GPT-4 照着 GPT-2 引导，同时也不会让 GPT-4 表现跟着变差。

团队中的研究人员 Collin Burns 和 Pavel Izmailov 将模型教导更进阶模型的方式比喻为小学生引导大学生，尽管小学生的数学知识比数学系学生少，小学生仍能向大学生传达他们所想达到的目标。

不过值得注意的是，研究团队表示这仅是起步而已，目前还无法保证较高阶的模型行为会照着预设，OpenAI 也将五分之一的运算能力分给 Superalignment 计画以便持续发展。

另外，Superalignment 团队受人瞩目的一点是其领导人之一为 OpenAI 首席科学家 Ilya Sutskever，也就是据称投票开除 Sam Altman 但後来反悔的董事会成员。

Sutskever 目前仍在带领 Superalignment 团队中，也列为近期发表之论文的作者之一，只是在外媒采访团队成员时，Sutskever 就未出面了，但另一名研究员 Leopold Aschenbrenner 表示「我们都很感谢Ilya，他是很大的动力。」

AI 能力能达到何种境界的议题争论不休，有科学家认为仍没有证据显示 AI 会远超出人类智并对世界构成威胁；Aschenbrenner 则指出「近期 AI 发展非常快速」，「我相信将有与人类能力相当的系统，并一路朝超级人类系统前进」。

为了 Superalignment 研究，OpenAI 也祭出 1000 万美元计画，要赞助超级 AI 安全性相关的研究。

核稿编辑：Sisley

快加入 INSIDE Google News 按下追踪，给你最新、最 IN 的科技新闻！