欧易新闻
ChatGPT能力退化:研究揭示相关结果

斯坦福大学和加州大学伯克利分校的研究人员对OpenAI的AI聊天机器人ChatGPT进行了一项研究,发现其最新模型在几个月内的准确性有所下降。研究比较了ChatGPT-3.5和ChatGPT-4在解决数学问题、回答敏感问题、编写代码以及执行空间推理任务方面的表现。令人惊讶的是,ChatGPT-4在识别质数的准确率从3月份的97.6%大幅下降至6月份的2.4%。

相比之下,早期版本的GPT-3.5模型在同一时期识别质数的能力有所提高。此外,两种ChatGPT模型在3月至6月期间生成新代码的能力也显著下降。研究人员还观察到,聊天机器人在处理敏感问题时的回答方式发生了变化,最新模型对拒绝回答的处理变得更加简洁,其中一些例子涉及种族和性别问题。

研究人员强调,需要对AI模型的质量进行持续监测,因为“相同”大型语言模型服务的行为在相对较短的时间内可能会发生显著变化。为确保聊天机器人保持最新状态,研究建议对用户和依赖AI服务的公司实施监控分析,将其作为工作流程的一部分。OpenAI最近宣布计划组建一个团队,专门负责管理与超级智能AI系统相关的风险,该团队预计将在未来十年内建立。