图片-精准获客

深入剖析 Manus AI Agent

近期,AI 圈发展迅猛,我们的学习速度有些跟不上。这两天,身边技术圈和 AI 圈的高手都在讨论 Manus,我觉得有必要深入了解其产品和技术原理。所以今天先快速分享关于 Manus 的内容,后续也会把过去一个月对 Deepseek 的学习成果分享给大家。

为快速弄清楚 Manus 是什么,我花一天时间阅读大量文献,并从产品经理视角做了系统梳理总结。相比 Deepseek,Manus 更容易理解,在研究助手支持下,今天就完成了这篇近 8000 字的文章。我将从应用视角、技术实现以及对 Agent 探索等角度,深度剖析这个产品。

一、从应用视角理解 Manus AI

1. Manus AI 是什么?

简单来说,Manus AI 是具备“多智能体”能力的应用产品。它技能丰富,能自动规划并一次性组合多种技能,解决复杂应用场景问题。与以 ChatGPT 为主的产品相比,Manus AI 能更具体地解决通用场景问题,输出结果更贴合用户需求。例如,根据官网示例,它能执行“爬取特斯拉股票数据,生成带图表的分析报告,创建数据面板并部署成可查看网站”等包含爬虫收集数据、图表可视化、创建分析报告、编写代码、部署网站等多复杂任务的指令。下面详细介绍 Manus AI 的核心信息:

  • Manus AI 是应用,非大模型:它只是 AI 应用产品,并非大模型,和 DeepSeek 完全不同,只能算出色的超级产品工程。别将其与大模型混淆,更别提“下一个 DeepSeek”这种外行观点,它和 DeepSeek 影响力不在同一水平,有必要纠正部分人的误解。
  • 具备自动规划和任务拆解能力:Manus 能基于用户指令理解意图,自动规划并拆解任务。如用户输入“帮我生成一篇特斯拉的报告”,Manus 会将指令拆解为“创建 Python 文件 – 爬取数据 – 生成图表 – 创作分析报告 – 编写 HTML 代码 – 部署网站”。其规划能力与大模型规划能力有所不同,后续会详细讲解。
  • 具备更多技能,可完成复杂任务:以特斯拉案例为例,完成整个过程需具备编写爬虫代码、对接金融数据 API、对接数据可视化 API、生成分析报告、代码编程、对接网站部署 API 等能力。Manus 提前具备这些技能,需用时自动调用解决问题,“技能库”是其重要能力,后面会详述。
  • 可解决更多通用性应用场景问题:通过 Manus,用户能更大胆提出应用场景问题。如特斯拉案例,以往用 ChatGPT 等产品,无法让其写代码并部署网站,而 Manus 做到了,这是它令人惊艳之处。

总结来看,从应用层角度,Manus 是技能超群、能灵活解决用户复杂应用场景问题的工具。未来,很多复杂工作流任务或许能通过 Manus 这类产品得到很好解决。

图片[1]-深入剖析 Manus AI Agent-精准获客

2. Manus AI 究竟有没有那么神?

近日,不少营销媒体过度吹捧 Manus,这并不客观。很多人没真实体验过该产品,也没搞清就开始吹捧。

不过,从当前 AI 应用角度看,Manus 定义的应用实现方式和效果确实惊艳。这评价并非个人观点,而是来自业界权威的 GAIA 测试结果。GAIA 由 Meta、HuggingFace 和 AutoGPT 的专家共同完成,模拟真实世界复杂问题,要求 AI 展现推理、多模态处理、网页浏览和工具使用等多维能力。此前 GPT – 4 + 工具调用在测试中仅获 15% 成绩,而 Manus AI 超越了之前的各种 Agent 以及 OpenAI 的 DeepResearch,非常了不起。但它是否真能一步到位解决用户问题、达到炸裂效果,还需看实际产品在应用场景中的表现。

图片[2]-深入剖析 Manus AI Agent-精准获客

3. Manus AI 和 ChatGPT 等产品的区别?

Manus AI 和 ChatGPT 都属 AI 应用,二者有何区别?为何 Manus 让科技圈觉得与众不同?我认为差别主要如下:

图片[3]-深入剖析 Manus AI Agent-精准获客

1. 产品形态和能力边界:ChatGPT 本质是以大模型为主的生成式 AI 应用,只能解决内容生成相关问题,无法处理自动化任务或跨平台执行任务,如部署网站、订餐等。而 Manus AI 像自主规划并执行任务的机器人,生成式 AI 只是其部分能力,它还能自主执行自动化任务或跨端执行任务。现实中,用户不仅有 AI 生成需求,还有自动化任务需求,这是很多用户认可 Manus 的原因。

2. 用户体验:ChatGPT 执行任务时,需用户写清提示词、提供清晰指示,在用户引导下完成任务。而 Manus 支持用户简单输入指令,自动理解需求、拆解任务并完成。解决具体任务问题时,ChatGPT 常只提供建议和操作指引,不帮用户完成任务。如问 ChatGPT 如何部署网站,它会告知过程,但需用户自己动手。Manus 不同,它既能规划又能动手完成任务,呼应了“Manus”中文“手脑并用”的含义。所以,ChatGPT 像只指挥不干活的老板,Manus 是动脑又做事的优秀员工,这也是用户更喜欢 Manus 的原因。

3. 技能水平:ChatGPT 除大模型服务外,支持联网搜索等技能,但整体技能和工具较少,目前多是官方引进的生成相关技能。而 Manus 有大量内置技能,如搜索引擎、浏览器、本地文件处理、代码编程等,还具备调用多种数据 API 及跨端操作等技能。

4. 技术实现方式:ChatGPT 主要依托大模型技术,Manus 技术底座采用多代理虚拟机架构,融合规划代理(任务拆解)、执行代理(工具调用)、验证代理(结果校验)等多层代理,形成具备“模型调度 + 工具链整合 + 环境交互(如跨端交互)”三重能力的应用。

实际上,OpenAI 推出的产品中,与 Manus 直接对标或许是 Operator,但 Operator 推出时未引起轰动,主要因只有 200 美元/月的 PRO 用户才可使用。或许其能力不比 Manus 差,但因使用用户少,不具备市场效应。

图片[4]-深入剖析 Manus AI Agent-精准获客

4. Manus AI 执行任务的过程

大致了解 Manus 应用相关问题后,以官网“特斯拉股票分析和投资见解”应用场景为例,分析其执行任务过程。用户仅输入需求指令,Manus 最终输出特斯拉股票分析报告,将数据固定为数据看板并开发部署成可打开网站。整个过程原理通过脑图概括如下:

图片[5]-深入剖析 Manus AI Agent-精准获客

具体步骤如下:

1. 用户输入需求指令,要求对特斯拉股票做全面分析并提供需求细节。

图片[6]-深入剖析 Manus AI Agent-精准获客

2. 连接数据源获取分析数据:获得指令后,Manus 先调用金融数据 API 获取特斯拉企业信息、财务数据等,此过程调用了获取数据的 API。

图片[7]-深入剖析 Manus AI Agent-精准获客

3. 规划和任务拆解:Manus 基于用户需求制定规划,将需求拆解为收集公司概况、财务分析、分析市场情绪、技术分析、竞争对手分析、内在价值分析、制定投资理论、撰写报告等多个任务。

图片[8]-深入剖析 Manus AI Agent-精准获客

4. 任务工作流梳理和执行:开始逐步执行任务,以收集财务数据任务为例,流程包括撰写 Python 爬虫代码、运行爬虫获取数据、调用数据可视化组件整理成图表。Manus 调用大模型能力撰写 Python 文件、运行爬虫程序、调用可视化图表 API 完成转换。

图片[9]-深入剖析 Manus AI Agent-精准获客

图片[10]-深入剖析 Manus AI Agent-精准获客

5. 最终输出分析报告:调用大模型生成能力输出股票分析报告。客观讲,案例中报告达不到专业水平,但完成度不错,基本满足用户需求,有数据和洞察,但未达 ChatGPT DeepResearch 水准。

图片[11]-深入剖析 Manus AI Agent-精准获客

6. 制作仪表板:用户发送制作仪表板指令,Manus 重复规划、任务拆解、执行过程,完成交互式仪表板创作。

图片[12]-深入剖析 Manus AI Agent-精准获客

7. 将仪表板发布为网站:用户指令将仪表板部署到公共 URL,Manus 完成应用程序编程并自动部署到公网,支持用户访问。仅一个指令就开发并部署网页,这是 ChatGPT 等产品无法做到的。

图片[13]-深入剖析 Manus AI Agent-精准获客

图片[14]-深入剖析 Manus AI Agent-精准获客

5. Manus 未来更适合能解决哪些应用场景的问题?

Manus 核心能力主要是任务规划和拆解、调用工具。其应用场景围绕这两个能力,基于任务规划和拆解能力,未来工作流漫长复杂的应用场景可能得到很好解决;基于调用工具能力,需要跨端、跨系统操作或组合多种 API 工具的应用场景,或许能通过 Manus 更好解决。目前 Manus 调用的工具库以浏览器操作、文件操作、编程等为主,API 以数据获取等为主,未来应用场景也围绕其技能范围。以下应用场景可能在 Manus 中得到更好满足:

图片[15]-深入剖析 Manus AI Agent-精准获客

6. Manus AI 的能力边界和局限性

Manus 更适合解决满足以下条件的应用场景问题,对于任务流程个性化、缺乏公开工具和 API、专业性强的应用场景,它仍无法很好满足。

  • 任务和工作流可标准化或结构化拆解的应用场景:若任务拆解个性化强、流程难标准化,如创意发掘、用户需求洞察等,很难进行标准化设计和规划。
  • 存在可开放 API 和工具的场景:若无开放工具和 API,场景无法实现,如复杂的依赖私密信息的金融投研、企业战略决策等。目前 Manus 跨端操作仅支持浏览器,对于电脑操作系统层级软件的跨端操作存在局限。
  • 专业性强的场景:从案例看,虽 Manus 自动化执行出色,但未完全解决专业性问题。如它不一定清楚专业股票分析报告的样子,可能需用户提供信息或进一步探索,自动规划和工具调用无法解决此问题,定义好的回答和专业结果的诀窍仍是壁垒。

二、从技术实现的视角理解 Manus AI

1. 从产品实现的角度看,Manus 和以往 AI Agent 设计的思路有什么区别?

作为 AI 应用产品经理,了解 Manus 实现逻辑和技术原理后,能明显感觉到它带来了另一种 Agent 实现方式。相比之前的 AI Agent 搭建方式,Manus 有以下不同:

  • 自动的任务规划和拆解:Manus 能自动规划和拆解任务,无需人工介入。以往开发 Agent 时,规划和拆解由产品经理人工完成。
  • 从工具库调用工具:Manus 有内置工具库,包含浏览器、文件处理、代码编辑器等工具,支持调用多种 API 完成特定任务,还可通过 computer use 方式跨端操作,工具调用能力出色。以往 AI Agent 开发时,每个环节工具能力需对接具体 API 或使用具体工具,接入过程繁琐。
  • 通用性:因技能限制,以前的 Agent 只能解决特定场景问题,难以解决通用场景应用。而 Manus 在众多技能支持下,可成为通用 AI Agent,灵活解决很多问题。

2. Manus AI 背后的技术架构和原理

从特斯拉案例可知,Manus 解决问题时,先规划和拆解任务,再执行子任务,最后输出结果。其底层采用多代理虚拟机架构,包括规划代理、执行代理、验证代理三层,每个代理都能动态调用工具库和 API,协同完成任务处理,工作流程如下:

1. 用户输入具体指令需求。

2. 规划代理完成任务规划和拆解。

3. 执行代理完成具体指定任务的执行。

4. 验证代理验证操作结果并输出结果。

图片[16]-深入剖析 Manus AI Agent-精准获客

3. Manus 的规划任务拆解和大模型的规划能力有什么区别?

Manus 核心能力之一是自主规划和任务拆解,有人会疑惑大模型也有规划拆解能力,为何 Manus 采用多代理虚拟机架构。主要原因是大模型规划和任务拆解基于“文本生成逻辑”,结果停留在文本层面,缺乏实际可行操作。如用户要求“生成特斯拉股票分析报告”,大模型可能输出步骤建议,但缺乏具体工具调用路径,规划不到可落地层面。另外,复杂任务需根据中间结果动态调整策略,Manus 的规划代理能实时监控执行进度并重新规划子任务,单一模型难以实现闭环反馈,这就是二者规划能力的区别。

4. Manus 是如何解决工具的获取和调用的问题?

Manus 具备自动调用工具和 API 的能力,工具来源如下:

1. 内置工具库:包含浏览器、文件处理器、代码编辑器、图表生成工具等公开工具组件。官方整合后放入工具库,基于 Claude 在 2024 年 6 月 20 日发布的 Artifacts,Manus 能在对话中

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容