Qwen 隆重推出 Qwen3-Max-Preview ——迄今为止最大的模型,参数超过1万亿!🚀
现已通过 Qwen Chat 和阿里云 API 提供使用。
基准测试显示,它超越了之前的顶级模型 Qwen3-235B-A22B-2507。内部测试和早期用户反馈证实:性能更强,知识面更广,在对话、代理任务和指令遵循方面表现更优。
规模化效果显著——正式版本将带来更多惊喜,敬请期待!
#AI #Qwen
幻觉指的是模型自信地生成似是而非但实际上错误的陈述。尽管语言模型越来越强大,这个问题仍难以完全解决。
幻觉的主要原因是标准训练和评估程序奖励猜测行为,而不是鼓励模型承认不确定性。
OpenAI 致力于提升 AI 系统的实用性和可靠性,但幻觉问题顽固存在。即使是 ChatGPT 和 GPT-5 等先进模型也会产生幻觉,尽管 GPT-5 在推理任务中幻觉显著减少。
幻觉是所有大型语言模型的根本挑战,OpenAI 正在努力进一步降低其发生率。
幻觉持续存在的一个关键原因是当前评估方法设置了错误的激励机制。这些评估不直接导致幻觉,但它们以准确率(正确答案的比例)作为主要指标,鼓励模型猜测而不是诚实地表达不确定性。
论文用多项选择题比喻:如果你不知道答案,盲目猜测可能碰对;留空则肯定得零分。同样,在模型评估中,如果模型不确定却猜测(如猜生日,有 1/365 的机会正确),它可能在准确率上得分更高;但如果说“我不知道”,则得零分。这样,猜测模型在排行榜上看起来更好,而谨慎模型被惩罚。
论文将响应分为三类:准确响应、错误(幻觉)和弃权(abstention,即不猜测,承认不确定)。弃权体现了“谦逊”(humility),这是 OpenAI 的核心价值观。根据 OpenAI 的模型规范(Model Spec),在不确定时表示不确定或寻求澄清,比提供可能错误的自信信息更好。
论文提出一个简单修复:惩罚自信错误比惩罚不确定性更严厉,并为适当的不确定性表达给予部分信用。这不是新想法——一些标准化测试已采用负分机制(错答扣分,留空白不扣),研究界也探索过考虑不确定性和校准的评估。
但论文强调,仅添加少数不确定性评估不够;必须更新主流准确率评估的评分规则,以不奖励幸运猜测。如果主要排行榜继续奖励猜测,模型就会继续学习猜测。修复排行榜能推广幻觉减少技术,包括新开发和现有研究的方法。
幻觉的根源在于预训练过程:模型通过预测海量文本中的下一个词来学习。没有“真/假”标签,只有流畅语言的正面例子。模型必须近似整体分布,但区分有效与无效陈述 doubly 困难,因为没有无效标签。
论文用类比解释:与其他错误(如拼写或括号匹配)不同,这些错误源于数据模式。拼写和语法有一致模式,随模型规模增大而消失。但低频任意事实(如宠物生日)本质随机,无法从模式预测,就像图像识别中用生日标签宠物照片——无论算法多先进,都会出错。