CSDN热搜
Perception AI → Generative AI → Agentic AI → Physical AI
让 AI 看得见、听得懂、读得清
编者注: 聚焦感知能力:让 AI “看懂”(CV:图像识别)、“听懂”(ASR:语音识别)、“读懂”(OCR)等基本任务,是 AI 的起点。 英文缩写词解释: CV(Computer Vision)= 计算机视觉,它是人工智能(AI)领域的一个重要分支,研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。 ASR(Automatic Speech Recognition)= 自动语音识别,让机器听懂人说话,转成文本。 OCR(Optical Character Recognition)= 光学字符识别,让机器看懂文字,从图片中读出文字,本质是CV(计算机视觉)的细分任务。
这阶段的AI虽然智能,但只能“看见”世界,无法“改变”世界。
让 AI 能“表达”“创作”,第一次具备了创意和内容输出能力
这一阶段的 AI 就像“有创造力的秘书”,大大提高了内容产业的效率。
编者注: 像本文这样的科普文章,笔者也是充分用到生成型AI的能力,先提出具体要求让它帮我生成初稿,然后再反复校对修改,确保符合自己最初的意图,相比以前的从零开始模式,效率上要提升很多。
真正能“自己干活”的 AI 时代来了
这阶段的 AI 不再只是工具,而是真正“可托付任务的虚拟员工”。
编者注: 这一阶段就有些厉害了,也就是说每个智能体都可以自主决策做实际的事情了,不需要我们人工干预就能获取比较好的结果。因为智能体通常要涉及到多次的工具调用,多次的LLM模型交互,所以等待的时间肯定要比直接的生成式AI要久,但是在很多场景下这都不是问题,人们通常是可以接受多花一些时间得到更靠谱更符合自己预期的结果。
AI 开始“动手”,从数字世界走向现实世界!
注意:不是所有机器人都叫 Physical AI!
这一阶段的 AI,不仅能想,还能做,甚至能替代人类“物理劳动力”。 编者注: 这一阶段就更加神奇且令人神往了,需要注意的是,即便是这里提到的所谓新一代扫地机器人等代表形态,也只是纯粹为了让大家更好理解,勉强算是Physical AI前期尝试的一个例子/雏形而已,真正的Physical AI 时代,机器不但可以在物理世界行动,还能够深入理解环境中摩擦、惯性、因果关系、物体恒存等,甚至在未来,可能要比人类理解的更加深入和透彻,届时会出现各种各样的机器人等实体应用。
让我们一起站上智能新时代的浪尖! 如果这篇框架解析对你有启发,欢迎点赞、转发,传播真正“穿透AI迷雾的认知坐标”。
使用道具 举报
本版积分规则 回帖并转播 回帖后跳转到最后一页
程序园优秀签约作者
0
粉丝关注
19
主题发布