涅牵 发表于 前天 09:30

GitHub 悄悄起飞的开源项目,想让 AI 接管你的电脑

https://img2024.cnblogs.com/blog/759200/202603/759200-20260319110720153-1127759093.png
随着 OpenClaw 的爆火,一种名为 Computer-use-Agent(CUA)的技术正在 GitHub 上悄然崛起。它让 AI 能够像人一样,操作浏览器和各类应用程序,从而让 AI 完成更多类型的任务。
尽管目前市面上已有一些令人惊艳的技术尝试,但对于大多数开发者和企业而言,在实际应用中依然面临着两难的选择:

[*]要么是核心技术处于“闭源”状态,难以深度定制
[*]要么是许多开源项目仍停留在“跑通一次 Demo”的实验阶段
今天 HelloGitHub 带来了一款让 AI 大模型像人类一样,看电脑屏幕+动手操作的开源工具——TuriX。仅需简单的自然语言指令,就能自动化操作浏览器和各类应用程序。
https://img2024.cnblogs.com/blog/759200/202603/759200-20260319110733307-857131789.png
GitHub 地址:github.com/TurixAI/TuriX-CUA
一、TuriX 介绍

TuriX 是一款由人工智能驱动的数字助手,能让你在各种应用程序和系统中实现任务自动化,适用于 Windows、Linux 和 macOS 系统。它不同于传统 RPA 和基于 API 的操作方式,只要人能点到的地方 TuriX 也能点,实现真正的跨应用自动化。
https://img2024.cnblogs.com/blog/759200/202603/759200-20260319110747254-2069134278.gif
用户只需通过自然语言描述任务,TuriX 就能让 AI 自动规划并执行,即便目标应用不提供 API 也没事儿。
TuriX 不仅提供开箱即用的桌面应用,还有专门的 skill 技能包,可以方便集成到 OpenClaw 或 Claude Code。
https://img2024.cnblogs.com/blog/759200/202603/759200-20260319110805876-591569479.png
ClawHub 地址:clawhub.ai/Tongyu-Yan/turix-cua
TuriX 专注于桌面环境的自动化操作,在 Mac 上可以操作浏览器、文档类应用、邮件/聊天应用、进行系统设置等。在 Windows 上支持 GUI 自动化、浏览器操作,比如自动搜索 YouTube 视频并点赞。
https://img2024.cnblogs.com/blog/759200/202603/759200-20260319110821286-1403721087.gif
二、快速上手

2.1 桌面应用

目前 TuriX 提供了 macOS 和 Windows 桌面应用,通过官网(turix.ai)即可下载。
https://img2024.cnblogs.com/blog/759200/202603/759200-20260319110914557-1104100416.png
2.2 接入 OpenClaw

https://img2024.cnblogs.com/blog/759200/202603/759200-20260319110947554-427780850.png
TuriX 官网还提供了 skill 安装包,下载解压后可以查看 skill 所有文件:
turix-cua/├── SKILL.md├── agents/├── assets/├── references/└── scripts/└── bin/├── turix-cua-darwin-arm64└── turix-cua-windows-amd64.exe接下来只需将解压后的 turix-cua 放到 OpenClaw 指定目录:
# macOS / Linuxmkdir -p ~/.openclaw/workspace/skillscp -R turix-cua ~/.openclaw/workspace/skills/# Windows PowerShellmkdir "$HOME\.openclaw\workspace\skills"Copy-Item -Path ".\turix-cua" -Destination"$env:USERPROFILE\.openclaw\workspace\skills" -Recurse -Force目的就是将 skill 放到 ~/.openclaw/workspace/skills/turix-cua/SKILL.md。
通常安装好 skill 后,OpenClaw 并不会立即加载。需要前往 Web 页面,点击“New session”新建一个对话窗口,这样通常就能够加载该技能。但如果仍然没有加载,可以执行 openclaw gateway restart 重启命令。
想确认是否安装成功?直接问 OpenClaw:“我当前有哪些技能”,OpenClaw 会回复你当前的技能库。
https://img2024.cnblogs.com/blog/759200/202603/759200-20260319111000162-902688269.png
回答中如果包含 turix-cua 技能,就代表 OpenClaw 已成功安装该技能。
需要注意 turix-cua skill 不是纯前端插件,它依赖本机已有 TuriX 客户端环境。使用前需要确认:

[*]本机已安装 TuriX 客户端
[*]本机已登录 TuriX 客户端且客户端且处于运行状态
2.3 Python 脚本使用方式

除了上面两种开箱即用的使用方式外,TuriX 还专为开发者提供了 Python 脚本调用的方式。
conda create -n turix_env python=3.12conda activate turix_envpip install -r requirements.txt通过这种方式,不仅可以自定义 LLM API,还可以定制开发出更加顺手的自动化操作电脑的工具。
if provider == "name_you_want":    return ChatOpenAI(      model="gpt-4.1-mini", api_key=api_key, temperature=0.3    )三、技术解读

TuriX 本质上是一个基于 VLM 的 Agent 框架,通过模仿人类的 GUI 交互行为执行桌面操作。它为了解决大模型上下文等问题,采用了 TuriX Parallelum 的四角色协同架构。
https://img2024.cnblogs.com/blog/759200/202603/759200-20260319111011216-135796426.png

[*]规划者:将用户的指令拆解为可循序渐进的执行计划,帮助执行者更好地理解用户的意图。
[*]执行者:理解步骤计划,并基于当前屏幕截图等信息,执行精确的桌面操作。
[*]评估者:通过对比执行操作前后的屏幕截图,判断执行是否成功,如果失败则指挥执行者重试。
[*]监督者:当评估者检测到操作多次失败时,监督者会分析所有屏幕截图、状态和历史并重新规划,防止死循环。
除了角色分工,TuriX 还通过并行执行流水线的方式,即执行者假设前一步成功的基础上去执行第 n 步操作时,评估者同时对第 n-1 步进行评估,在保证执行率成功率的同时不降低执行效率。
在提高执行准确率方面,TuriX 基于 macOS 的 AXUIElement 框架,将屏幕上的组件、边框位置等信息转成结构化文本数据,与截图一同输入给大模型,从而能够输出准确率更高的节点索引。
https://img2024.cnblogs.com/blog/759200/202603/759200-20260319111021281-680928014.jpg
在持续打磨并追求高执行成功率的过程中,TuriX 团队发现现在多数的 VLM 模型无法达到像素级的 GUI 操作,所以他们选择基于 Qwen2.5-VL-72B 模型进行微调,微调后的模型在桌面自动化任务测试中表现更加出色。
四、最后


除了 TuriX 在易用性、准确率,以及提升 OpenClaw 操作应用效果上带来的惊喜,在 Issues 和社交媒体上逛了一圈我发现 TuriX 作为一个开源项目,他们的“听劝”(倾听用户的声音)也给我留下了深刻的印象。每一条 Issue 他们都会认真对待并及时回复,你可以去提个 issue 感受下他们的热情~(TuriX 的开发同学不要打我
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页: [1]
查看完整版本: GitHub 悄悄起飞的开源项目,想让 AI 接管你的电脑