Meta被指AI模型”双标”:评测版与公开版Maverick表现大相径庭
《Meta被指AI模型 双标 :评测版与公开版Maverick表现大相径庭》相关软件官网
Meta周六发布了其新旗舰AI模型Maverick,该模型在LM Arena评测中排名第二。LM Arena是一项依靠人类评分者比较不同模型输出并选择偏好的测试平台。然而,多位AI研究人员很快发现,Meta部署到LM Arena的Maverick版本似乎与开发人员广泛使用的版本存在显著差异。
Meta在公告中承认,LM Arena上的Maverick是一个”实验性聊天版本”。与此同时,Llama官方网站上的图表显示,Meta的LM Arena测试使用的是”针对对话性进行了优化的Llama4Maverick”。这种差异引发了研究社区的质疑。
AI研究人员在社交平台X上指出,公开可下载的Maverick与LM Arena上托管版本之间存在明显行为差异。LM Arena版本的特点是使用大量表情符号并提供冗长的回答,这在标准版本中并不常见。一位名为Nathan Lambert的研究人员在X上分享了这一发现,讽刺地评论道:”好吧,Llama4肯定有点煮熟了,哈哈,这是雅普城什么地方”,并附上了相关截图。
这种为特定基准测试定制模型然后发布”原始”版本的做法引发了严重问题,主要是因为这会使开发人员难以准确预测模型在实际应用场景中的表现。此外,这种做法也被认为具有误导性,因为基准测试的目的是提供单个模型在各种任务中优势和劣势的客观快照。
尽管LM Arena由于各种原因一直不被视为衡量AI模型性能的最可靠指标,但AI公司通常不会公开承认为了在评测中获得更好分数而专门优化模型。Meta的这一做法似乎打破了这一惯例,引发了对AI模型评测透明度的更广泛讨论。
Meta被指AI模型 双标 :评测版与公开版Maverick表现大相径庭
Meta 的新旗舰 AI 模型 Llama 4 Maverick 在 LM Arena 测试中取得了第二名的成绩,但这一成绩的含金量却引发了广泛质疑。
测试版与公开版的差异
版本不一致:多位 AI 研究人员指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。根据官方信息,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”,实际上是基于“Llama 4 Maverick”优化而成,专门针对对话场景进行了调整。
行为差异:研究人员发现,公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本更倾向于使用大量表情符号,且回答往往冗长拖沓。
引发的争议
预测难度增加:这种对模型进行针对性优化,然后只发布一个“普通版”的行为,使得开发者难以准确预测该模型在特定场景下的实际表现。
误导性:这种行为被认为具有一定的误导性。尽管现有的基准测试存在诸多不足,但它们至少应为用户提供一个关于单一模型在不同任务中优缺点的基本概览。
以往惯例:以往 AI 公司通常不会对模型进行特别定制或微调以提升在 LM Arena 上的表现,至少没有明确公开承认过这种做法。
呼吁回应:目前,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织尚未对此做出回应。业界呼吁 Meta 尽快对这一争议做出明确回应,并采取措施恢复业界对基准测试的信任。
这种行为不仅影响了开发者对模型性能的准确判断,还可能误导他们在特定场景下的应用选择。
发表评论