从“看懂世界”到“改造世界”：AI发展的四个阶段你了解了吗？

扫恢怯 · 2025-6-19 20:50:52

过去几年，人工智能一路狂飙，从识图识声，到能写能画，再到能干活做决策，甚至走上现实生活的“物理战场”。你是否也曾困惑，AI到底发展到哪个阶段了？又有哪些能力正在悄悄进化？
Nvidia的创始人黄仁勋（Jensen Huang）在 GTC 2025 提出了AI 发展的四个阶段。
今天，我们就来具体聊聊 AI 发展的 四个阶段：

Perception AI → Generative AI → Agentic AI → Physical AI

每一阶段，都是一次技术跃迁。看完本文，你将秒懂它们的本质区别与商业机会。
️ 第一阶段：Perception AI（感知型AI）

让 AI 看得见、听得懂、读得清

这是 AI 的“眼睛”和“耳朵”，它让机器第一次具备了“理解世界”的能力。
代表能力：

图像识别（CV）：人脸识别、目标检测、安防监控
语音识别（ASR）：语音助手、电话客服
文本识别（OCR）：发票识别、合同解析
情感分析、实体识别、关键词抽取

编者注：
聚焦感知能力：让 AI “看懂”（CV：图像识别）、“听懂”（ASR：语音识别）、“读懂”（OCR）等基本任务，是 AI 的起点。
英文缩写词解释：
CV（Computer Vision）= 计算机视觉，它是人工智能（AI）领域的一个重要分支，研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。
ASR（Automatic Speech Recognition）= 自动语音识别，让机器听懂人说话，转成文本。
OCR（Optical Character Recognition）= 光学字符识别，让机器看懂文字，从图片中读出文字，本质是CV（计算机视觉）的细分任务。

商业价值：

金融风控：票据识别、影像审核
医疗影像：病灶检测、报告辅助
智能硬件：智能安防摄像头、车载感知系统

这阶段的AI虽然智能，但只能“看见”世界，无法“改变”世界。

✍️ 第二阶段：Generative AI（生成型AI）

让 AI 能“表达”“创作”，第一次具备了创意和内容输出能力

这一波的主角你一定熟：ChatGPT、Midjourney、Suno（音乐生成）、Sora（视频生成）……
代表能力：

生成文本：聊天、文章、摘要、代码
生成图像：海报设计、产品图、插画
生成音频/音乐：AI歌手、播报配音
多模态融合：文字转视频、图像转语音

商业价值：

内容创作工具：AI 写作、AI 配图、AI 视频
营销自动化：文案生成、广告素材组合
编程助手：GitHub Copilot、APEX AI Assistant

这一阶段的 AI 就像“有创造力的秘书”，大大提高了内容产业的效率。

编者注：
像本文这样的科普文章，笔者也是充分用到生成型AI的能力，先提出具体要求让它帮我生成初稿，然后再反复校对修改，确保符合自己最初的意图，相比以前的从零开始模式，效率上要提升很多。

第三阶段：Agentic AI（智能体AI）

真正能“自己干活”的 AI 时代来了

如果说 ChatGPT 是“聪明的对话者”，那么 Agentic AI 就是“你可以托付任务的数字员工”。
它不仅能理解你的需求，还能自己想办法完成任务，比如：

自动拆解步骤（先查资料 → 再写报告 → 最后发邮件）
主动调用各种工具（查天气、调用 API、执行 SQL、调用搜索引擎）
多轮思考 + 状态追踪（记住你前面说的话、当前进度）

它具备哪些关键能力？

任务理解 + 拆解 + 执行
调用外部工具（API/数据库/搜索等）
多轮执行 + 上下文记忆
多个智能体协作，完成复杂任务

举几个典型案例：

LangChain / AutoGen 智能体：它们是开发者用来构建“能自主执行任务”的 AI 系统框架。
比如让 AI 自动查找资料 → 汇总成报告 → 发送通知，甚至可以自己生成代码并测试运行。
企业 AI Copilot：如 Microsoft 365 Copilot，自动总结会议纪要、发邮件、安排日程
流程自动化增强：AI 自动登录 OA 系统 → 审批报销 → 通知员工，像一个自动办公机器人

商业价值：

数字化办公助理：帮你整理文件、写文案、收集信息
智能客服和运营：根据用户对话自动查询订单、推荐商品
业务流程自动化：用 AI 替代重复点击和操作，提高效率

这阶段的 AI 不再只是工具，而是真正“可托付任务的虚拟员工”。

编者注：
这一阶段就有些厉害了，也就是说每个智能体都可以自主决策做实际的事情了，不需要我们人工干预就能获取比较好的结果。因为智能体通常要涉及到多次的工具调用，多次的LLM模型交互，所以等待的时间肯定要比直接的生成式AI要久，但是在很多场景下这都不是问题，人们通常是可以接受多花一些时间得到更靠谱更符合自己预期的结果。

第四阶段：Physical AI（实体型AI）

AI 开始“动手”，从数字世界走向现实世界！

这是AI能力在现实物理世界中的终极体现——有眼（感知）、有脑（决策）、有身体（执行），能直接行动改变物理世界！

注意：不是所有机器人都叫 Physical AI！

许多传统设备（如老式扫地机器人、机械臂）只是“预设程序驱动”的自动化产物。
而真正的 Physical AI，必须具备：

感知：能看到环境（如识别宠物/人）
决策：能自主判断、规划任务（如动态避障）
表达：能用语音、图像反馈清扫状态
执行：能越障、能动态适配环境

只有像 Tesla FSD、Atlas、Dyson AI 扫地旗舰款这类设备，才刚刚具备「感知→决策→执行」的闭环。
我们正处在从 Agentic AI 向 Physical AI 过渡的早期阶段。
商业价值：

仓储自动化、柔性生产
生活服务机器人（陪护/清洁/配送）
实体场景劳动力替代：物流/酒店/医疗操作

这一阶段的 AI，不仅能想，还能做，甚至能替代人类“物理劳动力”。
编者注：
这一阶段就更加神奇且令人神往了，需要注意的是，即便是这里提到的所谓新一代扫地机器人等代表形态，也只是纯粹为了让大家更好理解，勉强算是Physical AI前期尝试的一个例子/雏形而已，真正的Physical AI 时代，机器不但可以在物理世界行动，还能够深入理解环境中摩擦、惯性、因果关系、物体恒存等，甚至在未来，可能要比人类理解的更加深入和透彻，届时会出现各种各样的机器人等实体应用。

总结：AI 四阶段的能力演进图

阶段关键词核心能力典型设备商业价值Perception AI感知理解识别图像/语音/文本监控摄像头安防监控、医疗影像辅助Generative AI表达创作生成文本/图像/音频ChatGPT内容创作、营销自动化Agentic AI自主执行拆任务/调工具/记状态AI办公助手智能流程自动化Physical AI实体行动控制物理设备与环境AI机器人智能制造、无人服务终端为什么要了解这个框架？

产品经理 → 定位产品阶段，定义能力边界与商业模式
技术专家 → 理解LLM+多模态+Agent+机器人融合路径
行业用户 → 预判哪些“智能能力”将重塑生产力

最后一问：你准备好迎接 Agentic 和 Physical AI 时代了吗？

未来 5 年，最有潜力的 AI 创新，正处于 第 3 阶段（Agentic）向第 4 阶段（Physical）迈进的临界点。具身智能、机器人基础模型、人形机器人等突破正加速到来！

让我们一起站上智能新时代的浪尖！
如果这篇框架解析对你有启发，欢迎点赞、转发，传播真正“穿透AI迷雾的认知坐标”。

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

从“看懂世界”到“改造世界”：AI发展的四个阶段你了解了吗？

浏览过的版块

签约作者