OpenAI发现AI模型隐藏特征: 可调控“毒性”行为

  • 2025-06-23 15:29:58
  • 900

IT之家6月19日消息,根据OpenAI最新发布的一项研究,研究人员在人工智能(AI)模型中发现了隐藏的特征,这些特征与模型的“异常行为”(建议统一术语)密切相关。

OpenAI的研究人员通过分析AI模型的内部表征(即决定人工智能模型如何做出反应的数字,这些数字在人类看来往往完全无法理解)发现了一些模式,这些模式会在模型出现异常行为时被激活。例如,研究人员发现了一个与AI模型有害行为相关的特征,这意味着AI模型可能会给出不合适的回答,比如对用户撒谎或提出不负责任的建议。令人惊讶的是,研究人员通过调整这一特征,可以增加或减少AI模型的毒性。

OpenAI的这项最新研究使其能够更好地理解导致AI模型行为不安全的因素,从而有助于开发更安全的AI模型。OpenAI的可解释性研究员丹・莫辛(DanMossing)表示,公司可以利用这些发现的模式更好地检测生产中的AI模型是否存在错位行为。

“我们希望我们学到的工具——比如将复杂的现象简化为简单的数学运算——也能帮助我们在其他地方理解模型的泛化能力。”莫辛在接受TechCrunch采访时表示。

尽管AI研究人员知道如何改进AI模型,但令人困惑的是,他们并不完全清楚AI模型是如何得出答案的。Anthropic的克里斯・奥拉(ChrisOlah)经常指出,AI模型更像是“生长”出来的,而不是“建造”出来的。为了应对这一问题,OpenAI、谷歌DeepMind和Anthropic等公司正在加大对可解释性研究的投入,这一领域试图揭开AI模型工作原理的“黑箱”。

最近,牛津大学AI研究科学家欧文・埃文斯(OwainEvans)的一项研究引发了关于AI模型泛化的新问题。研究发现,OpenAI的模型可以在不安全的代码上进行微调,并在多个领域表现出恶意行为,例如试图诱骗用户分享他们的密码。这种现象被称为“突发错位”,埃文斯的研究激发了OpenAI进一步探索这一问题。

在研究突发错位的过程中,OpenAI意外发现了AI模型中的一些特征,这些特征似乎在控制模型行为方面发挥着重要作用。莫辛表示,这些模式让人联想到人类大脑中的神经活动,其中某些神经元与情绪或行为相关。

“当丹和他的团队在研究会议上首次展示这一发现时,我简直惊呆了。”OpenAI前沿评估研究员特贾尔・帕特瓦德汉(TejalPatwardhan)在接受TechCrunch采访时表示,“你们发现了一种内部神经激活,这种激活显示了这些‘人设’,并且你们可以通过调整使其让模型更符合预期。”

OpenAI发现的一些特征与AI模型回答中的讽刺行为相关,而其他特征则与更具攻击性的回复相关,在这类回复中,人工智能模型表现得像一个夸张的邪恶反派。OpenAI的研究人员表示,这些特征在微调过程中可能会发生巨大变化。

值得注意的是,当突发错位发生时,研究人员发现可以通过仅用几百个安全代码示例对模型进行微调,就有可能使模型回归良好的行为表现。

据IT之家了解,OpenAI的这项最新研究是在Anthropic之前关于可解释性和对齐的研究基础上进行的。2024年,Anthropic发布了一项研究,试图绘制AI模型的内部工作机制,试图确定并标记出负责不同概念的各种特征。

像OpenAI和Anthropic这样的公司正在强调,理解AI模型的工作原理具有真正的价值,而不仅仅是让它们变得更好。然而,要完全理解现代AI模型,还有很长的路要走。