近期,AI 圈发展迅猛,我们的学习速度有些跟不上。这两天,身边技术圈和 AI 圈的高手都在讨论 Manus,我觉得有必要深入了解其产品和技术原理。所以今天先快速分享关于 Manus 的内容,后续也会把过去一个月对 Deepseek 的学习成果分享给大家。
为快速弄清楚 Manus 是什么,我花一天时间阅读大量文献,并从产品经理视角做了系统梳理总结。相比 Deepseek,Manus 更容易理解,在研究助手支持下,今天就完成了这篇近 8000 字的文章。我将从应用视角、技术实现以及对 Agent 探索等角度,深度剖析这个产品。
一、从应用视角理解 Manus AI
1. Manus AI 是什么?
简单来说,Manus AI 是具备“多智能体”能力的应用产品。它技能丰富,能自动规划并一次性组合多种技能,解决复杂应用场景问题。与以 ChatGPT 为主的产品相比,Manus AI 能更具体地解决通用场景问题,输出结果更贴合用户需求。例如,根据官网示例,它能执行“爬取特斯拉股票数据,生成带图表的分析报告,创建数据面板并部署成可查看网站”等包含爬虫收集数据、图表可视化、创建分析报告、编写代码、部署网站等多复杂任务的指令。下面详细介绍 Manus AI 的核心信息:
- Manus AI 是应用,非大模型:它只是 AI 应用产品,并非大模型,和 DeepSeek 完全不同,只能算出色的超级产品工程。别将其与大模型混淆,更别提“下一个 DeepSeek”这种外行观点,它和 DeepSeek 影响力不在同一水平,有必要纠正部分人的误解。
- 具备自动规划和任务拆解能力:Manus 能基于用户指令理解意图,自动规划并拆解任务。如用户输入“帮我生成一篇特斯拉的报告”,Manus 会将指令拆解为“创建 Python 文件 – 爬取数据 – 生成图表 – 创作分析报告 – 编写 HTML 代码 – 部署网站”。其规划能力与大模型规划能力有所不同,后续会详细讲解。
- 具备更多技能,可完成复杂任务:以特斯拉案例为例,完成整个过程需具备编写爬虫代码、对接金融数据 API、对接数据可视化 API、生成分析报告、代码编程、对接网站部署 API 等能力。Manus 提前具备这些技能,需用时自动调用解决问题,“技能库”是其重要能力,后面会详述。
- 可解决更多通用性应用场景问题:通过 Manus,用户能更大胆提出应用场景问题。如特斯拉案例,以往用 ChatGPT 等产品,无法让其写代码并部署网站,而 Manus 做到了,这是它令人惊艳之处。
总结来看,从应用层角度,Manus 是技能超群、能灵活解决用户复杂应用场景问题的工具。未来,很多复杂工作流任务或许能通过 Manus 这类产品得到很好解决。
2. Manus AI 究竟有没有那么神?
近日,不少营销媒体过度吹捧 Manus,这并不客观。很多人没真实体验过该产品,也没搞清就开始吹捧。
不过,从当前 AI 应用角度看,Manus 定义的应用实现方式和效果确实惊艳。这评价并非个人观点,而是来自业界权威的 GAIA 测试结果。GAIA 由 Meta、HuggingFace 和 AutoGPT 的专家共同完成,模拟真实世界复杂问题,要求 AI 展现推理、多模态处理、网页浏览和工具使用等多维能力。此前 GPT – 4 + 工具调用在测试中仅获 15% 成绩,而 Manus AI 超越了之前的各种 Agent 以及 OpenAI 的 DeepResearch,非常了不起。但它是否真能一步到位解决用户问题、达到炸裂效果,还需看实际产品在应用场景中的表现。
3. Manus AI 和 ChatGPT 等产品的区别?
Manus AI 和 ChatGPT 都属 AI 应用,二者有何区别?为何 Manus 让科技圈觉得与众不同?我认为差别主要如下:
1. 产品形态和能力边界:ChatGPT 本质是以大模型为主的生成式 AI 应用,只能解决内容生成相关问题,无法处理自动化任务或跨平台执行任务,如部署网站、订餐等。而 Manus AI 像自主规划并执行任务的机器人,生成式 AI 只是其部分能力,它还能自主执行自动化任务或跨端执行任务。现实中,用户不仅有 AI 生成需求,还有自动化任务需求,这是很多用户认可 Manus 的原因。
2. 用户体验:ChatGPT 执行任务时,需用户写清提示词、提供清晰指示,在用户引导下完成任务。而 Manus 支持用户简单输入指令,自动理解需求、拆解任务并完成。解决具体任务问题时,ChatGPT 常只提供建议和操作指引,不帮用户完成任务。如问 ChatGPT 如何部署网站,它会告知过程,但需用户自己动手。Manus 不同,它既能规划又能动手完成任务,呼应了“Manus”中文“手脑并用”的含义。所以,ChatGPT 像只指挥不干活的老板,Manus 是动脑又做事的优秀员工,这也是用户更喜欢 Manus 的原因。
3. 技能水平:ChatGPT 除大模型服务外,支持联网搜索等技能,但整体技能和工具较少,目前多是官方引进的生成相关技能。而 Manus 有大量内置技能,如搜索引擎、浏览器、本地文件处理、代码编程等,还具备调用多种数据 API 及跨端操作等技能。
4. 技术实现方式:ChatGPT 主要依托大模型技术,Manus 技术底座采用多代理虚拟机架构,融合规划代理(任务拆解)、执行代理(工具调用)、验证代理(结果校验)等多层代理,形成具备“模型调度 + 工具链整合 + 环境交互(如跨端交互)”三重能力的应用。
实际上,OpenAI 推出的产品中,与 Manus 直接对标或许是 Operator,但 Operator 推出时未引起轰动,主要因只有 200 美元/月的 PRO 用户才可使用。或许其能力不比 Manus 差,但因使用用户少,不具备市场效应。
4. Manus AI 执行任务的过程
大致了解 Manus 应用相关问题后,以官网“特斯拉股票分析和投资见解”应用场景为例,分析其执行任务过程。用户仅输入需求指令,Manus 最终输出特斯拉股票分析报告,将数据固定为数据看板并开发部署成可打开网站。整个过程原理通过脑图概括如下:
具体步骤如下:
1. 用户输入需求指令,要求对特斯拉股票做全面分析并提供需求细节。
2. 连接数据源获取分析数据:获得指令后,Manus 先调用金融数据 API 获取特斯拉企业信息、财务数据等,此过程调用了获取数据的 API。
3. 规划和任务拆解:Manus 基于用户需求制定规划,将需求拆解为收集公司概况、财务分析、分析市场情绪、技术分析、竞争对手分析、内在价值分析、制定投资理论、撰写报告等多个任务。
4. 任务工作流梳理和执行:开始逐步执行任务,以收集财务数据任务为例,流程包括撰写 Python 爬虫代码、运行爬虫获取数据、调用数据可视化组件整理成图表。Manus 调用大模型能力撰写 Python 文件、运行爬虫程序、调用可视化图表 API 完成转换。
5. 最终输出分析报告:调用大模型生成能力输出股票分析报告。客观讲,案例中报告达不到专业水平,但完成度不错,基本满足用户需求,有数据和洞察,但未达 ChatGPT DeepResearch 水准。
6. 制作仪表板:用户发送制作仪表板指令,Manus 重复规划、任务拆解、执行过程,完成交互式仪表板创作。
7. 将仪表板发布为网站:用户指令将仪表板部署到公共 URL,Manus 完成应用程序编程并自动部署到公网,支持用户访问。仅一个指令就开发并部署网页,这是 ChatGPT 等产品无法做到的。
5. Manus 未来更适合能解决哪些应用场景的问题?
Manus 核心能力主要是任务规划和拆解、调用工具。其应用场景围绕这两个能力,基于任务规划和拆解能力,未来工作流漫长复杂的应用场景可能得到很好解决;基于调用工具能力,需要跨端、跨系统操作或组合多种 API 工具的应用场景,或许能通过 Manus 更好解决。目前 Manus 调用的工具库以浏览器操作、文件操作、编程等为主,API 以数据获取等为主,未来应用场景也围绕其技能范围。以下应用场景可能在 Manus 中得到更好满足:
6. Manus AI 的能力边界和局限性
Manus 更适合解决满足以下条件的应用场景问题,对于任务流程个性化、缺乏公开工具和 API、专业性强的应用场景,它仍无法很好满足。
- 任务和工作流可标准化或结构化拆解的应用场景:若任务拆解个性化强、流程难标准化,如创意发掘、用户需求洞察等,很难进行标准化设计和规划。
- 存在可开放 API 和工具的场景:若无开放工具和 API,场景无法实现,如复杂的依赖私密信息的金融投研、企业战略决策等。目前 Manus 跨端操作仅支持浏览器,对于电脑操作系统层级软件的跨端操作存在局限。
- 专业性强的场景:从案例看,虽 Manus 自动化执行出色,但未完全解决专业性问题。如它不一定清楚专业股票分析报告的样子,可能需用户提供信息或进一步探索,自动规划和工具调用无法解决此问题,定义好的回答和专业结果的诀窍仍是壁垒。
二、从技术实现的视角理解 Manus AI
1. 从产品实现的角度看,Manus 和以往 AI Agent 设计的思路有什么区别?
作为 AI 应用产品经理,了解 Manus 实现逻辑和技术原理后,能明显感觉到它带来了另一种 Agent 实现方式。相比之前的 AI Agent 搭建方式,Manus 有以下不同:
- 自动的任务规划和拆解:Manus 能自动规划和拆解任务,无需人工介入。以往开发 Agent 时,规划和拆解由产品经理人工完成。
- 从工具库调用工具:Manus 有内置工具库,包含浏览器、文件处理、代码编辑器等工具,支持调用多种 API 完成特定任务,还可通过 computer use 方式跨端操作,工具调用能力出色。以往 AI Agent 开发时,每个环节工具能力需对接具体 API 或使用具体工具,接入过程繁琐。
- 通用性:因技能限制,以前的 Agent 只能解决特定场景问题,难以解决通用场景应用。而 Manus 在众多技能支持下,可成为通用 AI Agent,灵活解决很多问题。
2. Manus AI 背后的技术架构和原理
从特斯拉案例可知,Manus 解决问题时,先规划和拆解任务,再执行子任务,最后输出结果。其底层采用多代理虚拟机架构,包括规划代理、执行代理、验证代理三层,每个代理都能动态调用工具库和 API,协同完成任务处理,工作流程如下:
1. 用户输入具体指令需求。
2. 规划代理完成任务规划和拆解。
3. 执行代理完成具体指定任务的执行。
4. 验证代理验证操作结果并输出结果。
3. Manus 的规划任务拆解和大模型的规划能力有什么区别?
Manus 核心能力之一是自主规划和任务拆解,有人会疑惑大模型也有规划拆解能力,为何 Manus 采用多代理虚拟机架构。主要原因是大模型规划和任务拆解基于“文本生成逻辑”,结果停留在文本层面,缺乏实际可行操作。如用户要求“生成特斯拉股票分析报告”,大模型可能输出步骤建议,但缺乏具体工具调用路径,规划不到可落地层面。另外,复杂任务需根据中间结果动态调整策略,Manus 的规划代理能实时监控执行进度并重新规划子任务,单一模型难以实现闭环反馈,这就是二者规划能力的区别。
4. Manus 是如何解决工具的获取和调用的问题?
Manus 具备自动调用工具和 API 的能力,工具来源如下:
1. 内置工具库:包含浏览器、文件处理器、代码编辑器、图表生成工具等公开工具组件。官方整合后放入工具库,基于 Claude 在 2024 年 6 月 20 日发布的 Artifacts,Manus 能在对话中
2 本站部分内容来源于网络,仅供学习与参考,如有侵权,请联系网站管理员删除
3 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
4 精准获客感谢您的访问!希望本站内容对您有所帮助!
暂无评论内容