登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
人工智能

AI的下一步:智能体

刘劲、杨燕、杜润生:随着模型能力和智能体工程进步,企业数据治理和组织适配的提升,智能体会逐步成为每家企业极有竞争力的数字员工。

人的智能有三个方面:信息的收集、信息的处理产生认知、基于认知的行动。大语言模型目前主要的应用形态是ChatGPT这样的聊天机器人(Chatbot),能力集中在前两个方面。但更加有用的机器智能不只停留在“理解”和“说话”,如果能像一个或一群优秀的人才那样帮我们“做事”,显然能创造更大的价值。这就需要AI智能体(Agent)。

智能体是能做事的AI。LLM是近几年AI领域最重要的发展。已经在语言理解与生成、对话交互以及知识整合等方面展示出超凡能力,但它是“缸中大脑”——擅长思考、分析与回答问题,却并不能真正地做事情。而在真实世界,大多数认知活动并不止于“给出答案”,而是要有完整的“认知-行动”闭环:我们要求AI得能够自主的拆解复杂需求,规划流程,调用工具和资源,实现从感知到决策再到执行的完整循环;进一步我们还希望AI的行动能够超出计算机和互联网领域,在物理世界中为我们做事情,则需要AI能够感知物理世界的信号,进行匹配具身的思考,通过设备/机器人把决策转化为执行,对现实环境产生直接影响。

打个比方,LLM像是“未出山前的诸葛亮”,善于分析,以“隆中对”和刘备对谈,出谋划策,但限于“纸上谈兵”;智能体则是“出山后的诸葛亮”,掌握全局情报,运筹帷幄,组织资源、调兵遣将,亲自率军北伐。

智能体以LLM为代表的前沿模型作为大脑,通过软件工程令其可以在高阶目标驱动下完成复杂任务。可以说未来大部分的复杂AI应用都会以Agent为载体。事实上,我们在科幻作品中所看到的AI形象,比如《钢铁侠》中的贾维斯或《2001:太空漫游》中的HAL 9000,正是创作者对以Agent为载体的未来AI的直观想象。只是和物理世界交换的AI本身就极为重要和复杂,现在习惯上把这部分单独放在具身智能/机器人领域讨论。

智能体能力的构成

为了在各行各业的应用中发挥出显著价值,理想中的智能体需要具备几个关键条件。首先,智能体应具备强大的目标理解和规划能力来体现智能的自主性。理想状态下,人类只需给出抽象目标,智能体便能理解目标、拆解任务、规划行动,并在尽量少的人工干预下完成执行闭环。就像影《星际穿越》中的机器TARS,在紧急情况下能够根据"拯救宇航员"这一目标,自主判断局势、制定和调整行动策略,甚至做出牺牲自己数据的决定来完成使命。这要求机器智能有深度“理解/思考”能力(推理、规划、决策),能够敏锐的决策,能够基于执行结果与环境反馈动态调整任务规划,而不是僵化的执行既定路径。

其次,我们希望智能体能“动手”做事:执行和交互能力。这就意味着它能够使用工具、执行操作,并能与外部环境发生直接交互。在数字世界中,智能体可以模拟人类操作,通过键盘输入、点击屏幕的方式来完成任务;也可以通过其他程序或系统接口来调用工具;还可以发挥模型特长,通过编写和执行代码来达成目的。在物理世界中,智能体则需要与各类控制系统和设备相连接,通过下达指令来操控物理对象,将智能决策转化为现实行动。

第三,我们希望智能体具备出色的记忆与学习能力。记忆和状态管理能力是完成长程、复杂任务的前提。在面向消费者的场景中,例如个性化的日程管理或长期服务支持,智能体需要跨会话地记住用户偏好、历史交互与长期状态,才能减少重复沟通、提升服务质量;在企业级应用中,如跨周期项目管理、复杂业务流程推进等,则需要智能体记住任务进度、中间结果与关键决策依据,确保任务在长周期、多阶段执行中保持连贯性,不中途偏离既定目标。学习能力的意义是我们希望智能体能持续提升,像人类员工一样可以从职场小白通过经验积累和吸收新知进化成专家。

最后,智能体还需要有很强的可靠性、可控性,才能规模化的带来价值。这既体现在智能体能否稳定、鲁棒的完成任务,也体现在其行为是否始终与人类的真实意图与价值观保持一致。在《2001:太空漫游》中,AI为完成任务选择牺牲人类乘员,正是目标函数与人类价值未能有效对齐的极端后果。随着智能体智能水平与自主性的提升,这类对齐失败带来的风险可能会被进一步放大。

如何构建智能体

有了理想的标杆,我们怎么构建智能体?基本逻辑很简单:以可获取的最“聪明”、理想的模型为核心(大脑),通过软件工程来搭建一个系统,弥补模型的不足,尽量逼近理想智能体的形态。

大模型是目前智能体大脑的最优选择,因为大模型的万亿参数压缩了人类积累的海量知识,拥有强大的模式识别和生成能力,是处理包括语言在内的多种非结构化数据的万能接口,拥有不错的泛化能力构成处理各类任务的基础。而以OpenAI o1/DeepSeek R1为代表的新一代推理模型为智能体的发展进一步助推:加强的推理能力带来更强的任务分解和规划,更好的自检和纠错,也令智能体对工具的使用可以更加准确。

大模型有一些结构性弱点,直接限制了智能体在真实业务中的应用价值,因此智能体工程的一大核心工作,就是在模型外围,用工程手段补齐短板、设置边界、约束行为。

首先,大模型本身没那么可靠:存在无法根除的幻觉问题、知识时效性问题,任务拆解和规划经常不合理,也缺乏面向特定任务的系统性校验机制。这样一来,以其为“大脑”的智能体使用价值会大打折扣:智能体把模型从“对话”推向“行动”,错误不再只是答错问题,而是可能引发实际操作风险;而真实业务任务往往是跨系统、长链路的,一次小错误会在链路中层层放大,令长链路任务的失败率居高不下(例如单步成功率为95%时,一个20步链路的整体成功率只有约36%)。

为此,智能体工程通常通过以下几类手段给大模型加“外骨骼”以改善可靠性:引入检索与知识库(RAG)以降低幻觉和知识陈旧的影响;预先设计和约束工作流,而不是完全自由的“自治智能体”,以此限定可接受的执行路径;通过多次回答、自一致性检查或模型间交叉验证,识别并过滤高风险输出;在关键链路节点上设置人工审批,让人类对高风险动作“最后拍板”。

其次,大模型的记忆能力有缺陷:大模型在训练时“记住”了大量知识,但训练完成后并不会在使用中持续学习、“记住“新知识;每次推理时,它只能依赖有限长度的上下文窗口来“记住”当前任务的信息(不同模型有不同上限,超过窗口的内容就会被遗忘),而无法像人一样自然地维持稳定、长期的个体记忆。但在真实业务中,我们需要机器智能有强大的记忆能力,比如一个AI老师,需要持续记住学生的学习历史、薄弱环节和偏好,才能在后续的讲解与练习中真正做到“因人施教”。

针对这些记忆缺陷,智能体工程通常采取以下手段进行增强:构建外部记忆库将用户偏好、业务知识、历史交互等存储在数据库中,智能体在需要时通过检索机制按需提取相关信息,应对长期记忆缺陷;对过长的上下文进行摘要和压缩,保留核心信息,释放Token空间,来应对信息过载导致的短期记忆遗忘。

除了补短板,因为智能体要行动、要和环境交互,需要有感知和执行。

首先,大模型本身无法主动感知,只能对输入被动响应。智能体需要用外部感知组件来主动获取环境信息。对于数字世界的任务,通过智能体工程可以建立基于时间的触发器,定期检查日志、邮件、股价变动等;或基于事件的订阅、监听,接收API推送的事件通知,或当数据库发生变更时自动唤醒记录数据。在物理世界中,智能体还可以通过传感器、摄像头、麦克风等设备采集视觉、听觉、触觉等信号。

其次,大模型没有天然的执行能力,需要辅以智能体工程来将意图转化为实际操作。工具调用是当前最主流的方式,大模型根据任务需求,生成结构化的函数调用指令,由智能体框架解析后执行相应操作,比如调用天气API、数据库查询、发送邮件等;另一种方式是模拟人类操作,通过视觉识别和模拟操作来"看屏幕、点按钮、填表单"来完成任务,近期大火的豆包手机就是这样完成智能体操作;对于更复杂的任务,智能体还可以配置代码解释器(Code Interpreter / Sandbox),让模型编程运行,这可以极大的扩展智能体的行动边界。

当下智能体的能力边界

刚刚过去的2025年被不少AI从业者和科技媒体称作“智能体元年”。这个观察是较为准确的,得益于以下几个条件的成熟,过去一年左右的智能体发展进入快车道:首先是大模型的持续进步,主要体现在推理模型的出现提供了更强的任务理解、规划能力,以及多模态模型的发展为智能体能够处理和生成更复杂的信息提供了基础。

其次是基础设施和生态的成熟,包括LangChain、AutoGPT等开源框架经过两年的迭代,已经形成了一套标准化的开发范式,极大地缩短了开发周期;Dify、Coze(扣子)等低代码/无代码平台的普及,让不懂代码的业务人员也能通过拖拉拽快速生成一个专用智能体;值得一提的是2025年Anthropic发布的MCP(模型上下文协议)和skills(技能系统)给智能体生态提供了重要的标准和启发:MCP作为一个开源协议标准,令大模型与外部数据源或工具之间的交互更统一、便捷,Skills则是把人类设计的完成某类任务所需的能力/工作流打包起来,让Agent在这类任务上可以更稳定的工作,虽然技术含量不高,但在当下有很强的实用性。

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

读者评论

用户名:
FT中文网欢迎读者发表评论,部分评论会被选进《读者有话说》栏目。我们保留编辑与出版的权利。
用户名
密码

民调:美国介入后委内瑞拉民众对国家前途更乐观

马杜罗被捕后,72%的受访者认为委内瑞拉正朝积极方向发展,并希望今年举行自由选举。37%认为罗德里格斯迄今的表现良好或出色。

内塔尼亚胡访美,拟敦促特朗普对德黑兰采取强硬立场

以色列总理对可能达成的美伊协议保持警惕,而美国总统在军事行动威胁上依然摇摆不定

欧洲最需要的是摆脱碎片化的现状

一个面向各类规模与各行业企业的统一欧洲公司框架,将使欧洲能够作为一个整体经济体参与竞争。

SK海力士如何从“僵尸”企业蜕变为英伟达的AI盟友

这家曾不受青睐的韩国芯片制造商,如今在全球内存芯片短缺之际,正享有高达58%的营业利润率。

生育率崩塌的原因?性别角色

女性大学毕业生是否选择生育,很大程度取决于她们对丈夫行为表现的预期。

带状疱疹疫苗或能有效预防痴呆症

研究表明,这种疫苗可能有助于预防并减缓认知退化的进程。
设置字号×
最小
较小
默认
较大
最大
分享×