登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
专栏 人工智能

当AI开始“一本正经地胡说八道”:全球大模型竞逐中的隐性风险

蒋镇辉:大语言模型的“幻觉”正迅速成为全球技术竞赛的新焦点,“幻觉”并非无关紧要的技术小瑕疵,而是AI真正走向专业化、产业化应用的关键阻力。

大语言模型如今正日益渗透到知识生产、商业分析、法律咨询与医疗决策等核心领域,一个过去常被视为技术性缺陷的问题,正迅速成为全球技术竞赛的新焦点:大语言模型的“幻觉”(Hallucination)——即模型在缺乏事实依据时,仍然以极高“信心”给出流畅、却虚假的答案。从中美科技巨头到全球初创企业,过去几年大模型的竞争主要围绕参数规模、运行速度与通用能力展开;而今,一个更具决定性的维度正在浮现:谁能更系统、更有效地控制幻觉,谁就将率先迈向“可信赖AI”(Trustworthy AI)的时代。

“幻觉”并非无关紧要的技术小瑕疵,而是AI真正走向专业化、产业化应用的关键阻力。在现实世界中,学生论文中无中生有的文献引用,金融分析中被编造的并购事件、法律咨询中一个子虚乌有的判例、医学报告中混淆的症状描述,都可能引发严重的经济或生命后果。

系统性风险揭示:香港大学 AIEL 测评洞察

为了更系统地了解这一隐性风险,香港大学人工智能评估实验室(AIEL)近期针对37个中美主流大模型进行了大规模测评,覆盖通用、推理、自动化系统等多种模型类型。测评结果不仅揭示了头部模型在可靠性上的新格局,也暴露了当前技术发展中仍未解决的根本性挑战。

幻觉的两个核心维度

本次测评将大模型的“幻觉”风险主要划分为两大类:

事实性幻觉(Factual Hallucination):模型“说得像真的,但其实是假的”

这是大模型机制带来的天然风险。当模型面对不确定信息时,它往往倾向于“编造”一个逻辑完整的回应,而非回答“我不知道”。这类幻觉包括:生成不存在的学术文献;无依据地描述历史事件;对未知概念作出看似逻辑完整却错误的解释等。由于其机制根源,事实性幻觉被视为最难真正消除的幻觉类型。

忠实性幻觉(Fidelity Hallucination):模型“却未完全按照指令完成任务”

这包括模型未能按要求控制格式、遗漏了指令中的关键信息、或擅自引入了文本外的信息等。尽管随着模型能力的提升,这类幻觉整体有所下降,但它仍是AI进入医疗、司法等强监管、高规范行业的主要障碍。

测评结果揭示,目前领先大模型在忠实性幻觉控制上已相当不错。例如,GPT-5系列在忠实性维度均取得满分,显示出卓越的任务遵循能力。然而,事实性准确度方面(GPT-5思考模式得分小于75分)仍有提升空间。这反映出大模型普遍存在“严守指令但易虚构事实”的倾向——事实可靠性依然是全球大模型的共同短板。

此外,我们还发现推理模型的幻觉控制能力表现较好。例如,通义千问3(思考模式)和Claude 4 Opus(思考模式)等推理模型的幻觉控制能力,均优于同系列通用版本。这表明,让模型进行深度的、多步骤的“思考”是当前控制幻觉最有效的技术手段之一。

AI的下一场革命不是生成,而是可靠

随着大模型向多模态与专业化方向纵深发展,“幻觉风险”已从学术议题演变为产业落地的红线。在医疗诊断或金融风控中,稳定、一致、可验证的答案远比“像人类的表达”更具商业价值。当大模型被引入公共治理与生命健康等高风险领域,衡量其价值的标尺已不仅再是“它能否回答”,而是:它的回答能否被托付给真实世界。

幻觉控制,这一曾被低估的能力,正在成为全球大模型竞争中的关键分水岭。下一阶段的技术分化,或许不在于生成得多快、多像人,而在于:何时,它值得被真正相信。

注:浏览香港大学人工智能评估实验室《大語言模型幻覺控制能力深度測評報告》全文:https://www.hkubs.hku.hk/aimodelrankings/leaderboards/hallucination.html

(作者系港大经管学院创新及资讯管理学教授、夏利莱伉俪基金教授 (战略信息管理学)。本文仅代表作者观点。责任编辑邮箱:tao.feng@ftchinese.com)

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

读者评论

用户名:
FT中文网欢迎读者发表评论,部分评论会被选进《读者有话说》栏目。我们保留编辑与出版的权利。
用户名
密码

明德商论

本双周专栏是由港大经管学院的专家教授撰写,将为读者提供对商业、金融、经济和科技领域最新趋势和创新的独特见解。港大经管学院致力于培养一流的商业领袖和推动学术和相关研究,在亚洲导向经济发展的世界大潮流之下,为香港、中国乃至世界各国的发展提供不可或缺的动力。

相关文章

相关话题

地图的误导:特朗普对格陵兰岛的执念源于一种幻象

谁敢告诉这位美国总统:他觊觎的那座北极岛屿,其实并没有看起来那么大?

Lex专栏:新兴市场比黄金更能准确反映投资者情绪

新兴市场走势强劲表明,至少部分投资者认为,美国在处理自身制造的种种戏剧性冲突时不至于让全球经济崩盘。

马斯克和WiFi都不能帮助提振瑞安航空

Lex专栏:飞行时间越长,对机上联网的需求越强,这削弱了低成本航空公司引入机上WiFi的理由。

派拉蒙要拿出“现金杀手锏”才能锁定华纳

Lex专栏:如果反复强调你的报价优于对手仍无效,那就只剩下一个选项:出更高的价。

特朗普对美联储的抨击或能激励共和党

斯特兰:特朗普对鲍威尔的调查,应该成为那些一直回避批评特朗普的参议院共和党人的最后一根稻草。

欧洲的AI雄心正遭遇市场“管道”难题

欧盟地区缺乏足够的长期投资资本,为AI发展所需能源基础设施提供融资。
设置字号×
最小
较小
默认
较大
最大
分享×