VoxSight - 用语音操控网页的 Chrome 扩展,基于 Gemini 多模态视觉

各位 V 友好,分享一个最近做的 Chrome 扩展。 VoxSight -- 用语音操控网页的 Chrome 扩展 说话就能操作网页。比如"点击搜索按钮""描述这个页面""向下滚动",VoxSight 截屏后交给 Gemini 的多模态视觉模型分析,然后在页面上精确执行操作。 工作流程: Alt+V 打开侧边栏 按住麦克风按钮说话(或按空格键) VoxSight 截屏发给 Gemini Live API 分析 页面上执行操作,操作位置高亮显示 自动截屏验证结果 特点: 中英文语音命令,自动语言检测 基于截图分析,任何网站都能用,不需要网站做适配 高风险操作(提交、支付、删除)需要二次确认 W...

手机版钉钉支持 markdown 下的表格语法啦!

使用钉钉很多年,一直使用着空格符号来手动排版对齐,只能说勉强能用,所以也一直吐槽钉钉为啥不能完整支持 markdown 下的表格语法。(注:在 PC 版是支持的。) 今天发现手机版也能支持表格了,点赞! 字段 释义 释义 释义 释义 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20...

gpt 5.4 vs opus 4.6 个人的一点感受

前几天 claude code 账号被封了,不得不用了一段时间 gpt5.4 有几个感受: 1 、gpt5.4 一定要开 full access ,不然一直问你要不要继续,太烦人了。 2 、gpt5.4 比较谨慎,opus 4.6 比较放得开。 3 、有个问题 gpt 5.4 问了好几轮没搞定,可能是局限于我的提问之中;之前用 opus 4.6 感觉能跳出我的提问抓住问题的根因 大家觉得哪个模型更好用点,我在考虑下一步充值哪个模型...

微信文章抓取最简单方法, no 依赖, no skill

一行命令抓取微信公众号文章,无需任何依赖安装,无需任何 skill 为了绕过微信公众号文章页面的滑块验证码,最有效的方法是伪装成微信手机客户端内置浏览器, 所以只需要让 openclaw 通过 curl 伪装微信手机客户端 User-Agent 即可。 比如下面是 curl 伪装微信手机客户端 User-Agent 的例子,把下面的链接换成任意你想爬的文章链接,可以在自己电脑上直接试 curl -sL \ -H "User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 16_0 like Mac OS X) AppleWebKit/605.1.15 (KH...