2025年开年以来,AI领域发展势头迅猛,DeepSeek R1、OpenAI CUA、Manus等一系列重要创新成果不断涌现,令人目不暇接。
接下来,我将总结近一个月的思考,对2025年AI的发展趋势做出几点预判。
(1)Manus:Agent元年的抢先发力
Manus推出后,我们第一时间获取了体验账号并进行了全面的体验测评。
结论是:尽管Manus目前存在一些不足,但它的产品设计思路充满创意,值得充分肯定。
Manus的核心架构采用“虚拟机 + 多Agent协同”模式,通过整合多个底层大模型(如GPT – 4、Claude 3等)的API,实现任务的动态分配和模型调用。
它突破了传统AI助手仅生成建议的局限,实现了从“需求输入”到“成果交付”的端到端闭环。
Manus提出“Less Structure, More Intelligence”的交互理念,借助无代码化的自然语言接口降低了用户的使用门槛。
此外,Manus利用一个外置的markdown文件管理Agent的任务规划,并将阶段性工作成果存储为独立文件,这是一个十分有趣的创新点。
(2)Manus的不足与缺陷
Manus在MultiAgent领域提供了独特的思路,但仍存在一些明显不足。
首先是“幻觉累加”问题。
Agent本质上是多次大模型问答的串并联。若单次大模型问答准确率为90%,串联10次后,最终Agent回答准确的概率仅为0.9^10,约为1/3。
在一个案例中,Manus的任务是对某上市公司进行财务数据分析。它聪明地导入了data_api模块,准备从雅虎接口调取财务数据。但在process_financial_data函数中,竟将revenue、gross_profit等数据直接“硬编码”到代码中,且部分数据经验证是错误的。若原始数据出错,后续的深入分析和精美图表都将失去意义。
Manus的第二个问题是可供大模型调用的工具不足。
例如,在撰写关于“小米Su7”的市场分析报告PPT任务中,Manus完美拆分任务并检索了大量新闻,但因无法调用Office软件,最终无法生成PPT。目前Manus输出内容多为纯文本或网页,难以与人类工作流完美融合。
Manus面临的第三个挑战是互联网生态的限制。
互联网上许多优质信息被限制访问。比如让Manus分析市面上所有AI智能眼镜的性价比时,它找到了对应商品的淘宝网页,但在打开具体产品页面获取详细信息时,被淘宝判定为机器人而拒绝访问。
同样,让Manus为非上市公司出具商业分析报告时,它为获取公司最新融资进展访问CrunchBase数据库,也被判定为机器人而拒绝。互联网看似开放,实则存在诸多限制,优质信息难以获取,这严重影响了Manus的工作效果。
尽管存在诸多问题,Manus仍展现了MultiAgent的巨大前景,打响了Agent元年的第一枪,值得肯定。
当Manus备受关注时,海外AI大厂有哪些技术储备呢?
(3)OpenAI CUA:能自主操作电脑的Agent
今年1月底,OpenAI发布了由新模型CUA(Computer – Using Agent)驱动的AI智能体Operator。
CUA模型融合了GPT – 4o的视觉能力和强化学习实现的高级推理能力,能将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正。
简单来说,CUA是一个会操作电脑的Agent,其运作原理直观简洁,如下图所示。
首先,CUA同时接受文本指令和屏幕截图两种模态的输入。它会处理这两种信息,生成一系列动作指令,如“点击屏幕上坐标为(300,200)的点,输入XXX,按回车”。电脑执行指令后,将新的屏幕截图和任务指令返回给CUA,如此循环,直至获得最终答案。
那么,CUA目前操作电脑的能力如何呢?
根据OpenAI官方测评,CUA在操作电脑和浏览器方面,相比上一代SOTA有了显著性能提升,但与人类操作水平仍有较大差距。也就是说,目前顶级的Agent还无法像成年人一样熟练操作电脑,但我相信今年内这种情况会有质的改变。
(4)Anthropic MCP:AI时代的TCP/IP协议
前面分析Manus缺陷时提到了“工具不足”问题,Anthropic显然意识到了这一点,并在去年年底推出MCP从根源上解决该问题。
MCP全称是Model Context Protocol,它定义了应用程序和AI模型之间交换上下文信息的方式,使开发者能以统一方式将各种数据源、工具和功能连接到AI模型。
MCP对于AI的重要性,类似于TCP/IP对于互联网。
MCP有三个重要特点:
标准协议:将AI与所有工具层的交互接口统一为标准。
动态发现:AI能按需寻找并调用完成指定任务的工具或服务。
双向通信:AI与工具之间双向、有状态通信,既能获取数据,也能发送指令。
目前,越来越多的工具和服务接入MCP,如Google Maps、PGSQL、ClickHouse(OLAP数据库)、Atlassian、Stripe等。
在Smithery平台上可轻松查找不同功能对应的工具和服务。随着更多Server接入MCP协议,未来AI可直接调用的工具将呈指数级增长,从根本上提升Agent的能力。
(5)2025年AI发展新趋势:后训练、RL、MultiAgent
结合近几个月的观察和思考,我总结了2025年AI发展的几个重要趋势。
第一,预训练即将结束,后训练成为重点。
这已成为行业共识。去年年底,Ilya在NeurIPS大会上提出:数据是AI时代的化石燃料,因为人类只有一个互联网。同时,今年DeepSeek R1的论文指出,后训练将成为大模型训练管线的重要组成部分。
第二,针对后训练,强化学习将成主流,监督学习的重要性逐渐降低。
DeepSeek R1带来的重要启示是:纯粹的RL可能是通向AGI的正确路径。随着TTS增加,大模型会自发涌现复杂推理行为。从右图可见,横轴为大模型RL迭代步数,纵轴为单次问答的token长度。随着迭代步数增加,大模型从“快思考”变为“慢思考”,每次回答的token数从100增加到接近10000。
DeepSeek团队将此现象称为“self – evolution”,认为这是“the emergence of sophisticated behaviors”。具体涌现的复杂行为包括self – verfication、reflection等。这一发现引发了我们的思考:未来监督学习在AI训练中应扮演什么角色?它是否会限制AI解决问题的能力?是否应让AI发展出更原生的智能,而非模仿人类思维方式?这些问题有待整个AI行业通过实践解答。
第三,MultiAgent是必然的大趋势。
若将AI与人脑类比,大模型如同人脑中的“前额叶”。前额叶负责高级认知功能,如注意力分配、思考推理、决策等。但仅有前额叶,大脑无法处理复杂任务,还需颞叶解析听觉信号、顶叶进行阅读和算术、小脑协调运动、海马体进行记忆索引。
MultiAgent的定义是让多个不同模型相互协调,从单一的“前额叶”发展为“完整的大脑”,以处理更复杂的现实任务。在这个过程中,MCP起到了协调统一大模型与各工具之间数据通信接口的重要作用。
(6)结语:抓好扶手,未来已来!
2025年是AI Agent元年,Manus的出现拉开了序幕。OpenAI的CUA和Anthropic的MCP都指向同一个未来,未来两年AI的发展将极为迅速。
抓好扶手,未来已来!
2 本站部分内容来源于网络,仅供学习与参考,如有侵权,请联系网站管理员删除
3 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
4 精准获客感谢您的访问!希望本站内容对您有所帮助!
暂无评论内容