做个小工具用说话的方式让 Mac 执行操作。比如「帮我在 YouTube 搜个 Python 教程」,它会自己打开浏览器、找到搜索框、输入、点击,不用你一步步告诉它怎么做。 原理是让大模型看屏幕截图(默认是 OCR/还有一些其他模型支持),然后决定下一步操作。做错了会自己调整。 挂个链接: https://www.bilibili.com/video/BV1NVBbBDE5K/?vd_source=c91cfe290c1aabe743bd9b89791e23cf
我做了个用自然语言控制 Mac Demo
内容版权声明:除非注明,否则皆为本站原创文章。