首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >周一上线 | Claude 救活 TouchBar,硅基圣经面世,Agent 开始点亮开发者桌面

周一上线 | Claude 救活 TouchBar,硅基圣经面世,Agent 开始点亮开发者桌面

原创
作者头像
七牛开发者
修改2026-06-08 18:27:40
修改2026-06-08 18:27:40
1940
举报

这期的「周一上线」,有点像模型厂商和开发者社区一起加速。

一边,MiniMax M3、Cosmos 3、Gemma 4、MAI 等新模型密集发布,Agent、Coding、多模态、本地推理和物理世界模型也轮番上场。Codex 再迎新升级,近期还将整合进 ChatGPT。

另一边,社区里的开发者依旧活跃:有人用 Claude 让 TouchBar 再就业,有人用 Codex 生成带物理效果的藤蔓小游戏,还有人把 AI Coding 助手的运行状态同步到桌面氛围灯上。

下面,开始一周回顾:

有点新鲜

「有点新鲜」收录本周 AI / 开发者圈里那些不算大新闻,但挺值得看一眼的新鲜事。

用代码创作像素风格图片

newt.sh 是一款像素画工具,其中每个像素都是代码,而不是栅格数据。

Claude 让 TouchBar 再就业

@Smirnova 发推称 Apple 的 TouchBar 不应这么早被淘汰。他将其与 Claude 进行结合,让其成为 Claude 的简易操控台。

Codex 创建具有物理特性的小游戏

Dani Bayanov 用 Codex 创建了具有物理特性的疯狂程序生成的藤蔓植物,引发网友一致好评。有人建议将其作为面向模型的基准测试。

wiggle-scanner:线上 3D 扫描仪

@moohdev 分享了一个偏创意编码/网页动效/视觉实验的小项目 Wiggle Scanner。它能够将扭曲的 3D 模型投影到渲染目标平面上,以模拟扫描仪的效果,看上去就像是一个网页版的 3D 扫描仪

地址:github.com/mohAmineBrs/lab-wiggle-scanner

硅基圣经…请续费

@acnekot 模仿《创世纪》(Genesis)的叙事结构,把程序员与 Codex 的协作过程写成了一个“硅基创世神话”。然后,AI 时代最残酷的事就来了:你以为自己是创世神,结果发现自己只是套餐用户。

周五发版

「周五发版」是一个程序梗:一旦版本上线,我们就要开始祈祷一切如期运行。这个模块寓意,所有模型、产品版本更新,都能大吉大利。

MiniMax M3 发布

MiniMax 发布 M3,定位是面向复杂工程任务的 Agent 与 Coding 模型。

它集成 Coding / Agent 能力、1M 超长上下文和原生多模态能力,可处理文本、代码、图片和视频输入,官方称其为首个同时具备三项前沿能力的开源权重模型。

在 SWE-Bench Pro、Terminal Bench 2.1、KernelBench Hard 和 MCP Atlas 等评测中表现突出,并展示了长达 12 小时的论文复现和 24 小时的 CUDA 优化等复杂任务能力。

MiniMax M3 来了

NVIDIA 发布物理 AI 世界模型 Cosmos 3

NVIDIA 发布 Cosmos 3,定位是面向机器人、自动驾驶和视觉 AI 场景的开放世界基础模型。

它将视觉推理、世界生成和动作预测整合到同一系统中,可理解场景中的运动、物体交互和物理上下文,并生成更符合物理规律的视频、图像和机器人动作数据。

Cosmos 3 采用 Mixture-of-Transformers 双塔架构,一部分负责理解图像、视频和文本中的物理信息,另一部分负责生成未来画面和动作序列,因此不只是视频生成模型,更是面向 Physical AI 的世界模型。

NVIDIA 同步开放 Nano 和 Super 两个版本:Nano 为 16B,偏高效推理;Super 为 64B,偏高质量生成和复杂场景。模型可在 Hugging Face 下载,也可通过 NVIDIA Build 在线试用。

地址:github.com/nvidia/cosmos

NVIDIA 发了物理 AI 世界模型 Cosmos 3

Sapient Intelligence 推出 HRM-Text

Sapient Intelligence 发布 HRM-Text,定位是低成本、高效率的 10 亿参数推理语言模型。

它仅使用 400 亿个结构化 token 训练,就获得了具有竞争力的通用性能。

官方称,HRM-Text 训练约需一天,预算约 1000 美元,显著降低了小模型训练和研究验证门槛。

相比继续堆大模型,HRM-Text 更强调低成本、可适配和高效推理。

Composer 2.5 已上线 Grok Build

xAI 宣布 Composer 2.5 已上线 Grok Build,并向 SuperGrok 和 X Premium+ 用户开放 Beta。Composer 2.5 擅长复杂指令跟随和 agentic coding 场景,可在 Grok Build 的 /models 菜单中使用。

Grok Build 近期更新到 0.2.7,新增 /usage/login、subagents 共享终端,并提升图像理解能力;同时支持 Plan Mode、Imagine 图像 / 视频生成,以及通过 CLI 构建自动化和 orchestrator。

微软 MAI 一口气上新 7 款新模型

Microsoft AI 发布 MAI 模型家族,一次推出 7 款覆盖推理、编程、图像、语音和转录的新模型。

其中,MAI-Thinking-1 是旗舰推理模型,MAI-Code-1-Flash 面向 Agentic Coding 并深度集成 GitHub Copilot 和 VS Code;MAI-Image-2.5、MAI-Voice-2 和 MAI-Transcribe-1.5 则分别覆盖图像生成、语音生成和转录场景。

微软同时推出 Frontier Tuning,可基于企业真实工作流进行强化学习微调,让企业利用自身数据训练专属模型,实现更高性能与更低成本。

Google 发布 Gemma 4 12B

Gemma 4 12B 定位是轻量级开源多模态模型。它支持文本、图像和音频输入,采用统一的无编码器架构,并进一步降低了本地运行门槛。官方表示,仅需 16GB VRAM 或统一内存即可完成推理。

对本地部署用户来说,Gemma 4 12B 已同步支持 Ollama 和 MLX,可在 Mac 等设备上体验多模态能力,适合关注本地推理和开源模型的开发者。

16GB 可跑,Gemma 4 12B 发布

Codex 再升级,近期即将合体 ChatGPT

OpenAI 宣布即将把 Codex 整合进 ChatGPT,并发布 Agent Plugins、Annotations 和 Sites 三项新能力。Agent Plugins插件可将工具、技能和工作流打包给 Agent,Annotations 支持对局部内容进行精准修改,Sites 则能将结果直接生成可分享的网站或应用。

Codex 升级 3 大能力后,即将合体 ChatGPT

开源雷达

周榜速递

周榜主要根据新增 star 数进行排名,下面的单项目讲解则偏向新晋项目、实用老项目,标星并非单项目讲解的唯一指标:

Vibe Light :Vibe Coding 状态灯

Vibe Light 通过 hook 事件驱动 Yeelight 灯带,把 AI 编程助手的工作状态同步成桌面氛围灯效果。支持多任务状态聚合,多个任务同时运行时也能保持灯光状态稳定。

其效果状态分为:正在思考/运行、等待授权、已完成/空闲、手动重置;对应的灯光颜色为:蓝紫色呼吸流光、洋红色常亮、白色常亮、清空状态后恢复空闲

地址:github.com/cteamx/vibe-light

Ideogram 4:更懂文字和排版的开源图像模型

Ideogram 4 是 Ideogram 开源的文生图模型,主打设计、排版和文字渲染场景,支持 2K 图像生成、本地部署和微调。

它的特点是支持结构化 JSON Prompt,可以更精确地控制版式、颜色、文本位置和画面元素,适合生成海报、广告图、包装设计等素材。

对开发者来说,它更像是一个可编程的设计模型,适合用于自动化营销素材、AI 设计工具和创意生成工作流。

地址:github.com/ideogram-oss/ideogram4

Headroom:给 Agent 省上下文

Headroom 是一个 AI Agent 上下文压缩工具,用来压缩工具调用结果、日志、文件内容和 RAG 检索内容,减少 token 消耗。

它支持作为代理层、SDK 或 MCP Server 接入 Claude Code、Codex、Cursor、LangChain 等工作流。官方称部分场景下可减少 60%~95% 的上下文开销。

这类工具适合长任务 Agent 和 AI Coding 场景,本质是在帮 Agent 更高效地使用上下文窗口。

地址:github.com/chopratejas/headroom

Scrapling:一个从请求到爬站全包的爬虫框架

Scrapling 是一个 Python Web Scraping 框架,覆盖单次请求、动态页面抓取到大规模网站爬取等场景。

它内置自适应解析、反爬处理、代理轮换、并发爬取和 MCP 支持。当网站页面结构发生变化时,还能自动重新定位目标元素,减少选择器失效带来的维护成本。

相比需要组合 BeautifulSoup、Playwright、Scrapy 等多个工具的传统方案,Scrapling 更像一个“一站式”爬虫工具箱,适合数据采集、AI Agent 信息获取和大规模网页抓取场景。

地址:github.com/D4Vinci/Scrapling

VoxCPM:开源语音模型家族

VoxCPM 是 OpenBMB 开源的语音基础模型,支持语音生成、语音克隆、多语言语音合成等能力。

项目提供多个尺寸版本,覆盖实时交互到高质量生成等场景,并支持中英文等多种语言。开发者可以基于它构建语音助手、数字人和语音 Agent 应用。

随着语音逐渐成为 AI Agent 的重要交互方式,这类开源语音模型正在成为 Agent 生态的重要基础设施。

地址:github.com/OpenBMB/VoxCPM

Hermes WebUI:给 Agent 配一个网页工作台

Hermes WebUI 是 Hermes Agent 的 Web 管理界面,用来在浏览器中管理和运行 Agent 任务。

它提供对话、任务管理、工具调用和运行状态查看等功能,让 Agent 不再局限于命令行环境,更适合日常使用和团队协作。

对于希望部署和管理 Agent 的开发者来说,Hermes WebUI 提供了一种更直观的交互方式。

地址:github.com/nesquena/hermes-webui

这周有事

NVIDIA 继续押注 AI 工厂,本地 Agent 也要进 PC

GTC Taipei 大会上,黄仁勋分享聚焦在 AI Factory、Agentic AI 和 Physical AI。NVIDIA 正在把新一代数据中心定义成“生产 token 的工厂”,核心指标也从单卡性能,转向 tokens per second、tokens per watt 和 cost per token。

这背后对应的是 Agent 工作负载的变化:Agent 会规划任务、调用工具、读写文件和执行长流程,对算力、内存、网络和软件编排提出更高要求。

另一个值得关注的方向是本地 Agent。NVIDIA 这次提到 RTX Spark,也是在把 AI 从云端数据中心继续推向本地 PC,让个人设备承担更低延迟、更贴近工作流的 AI 任务。

NVIDIA 的下一步:AI 工厂 + 新 PC

微软预告 Surface Laptop Ultra,AI PC 继续升级

微软官方预告 Surface Laptop Ultra,并放出 Surface RTX Spark Dev Box,前者指向更高性能的 Surface 笔记本,后者则更偏 AI 开发者设备。

这条消息可以和 NVIDIA 的 AI PC 叙事放在一起看:AI 正在从云端数据中心继续下沉到本地设备。接下来,AI PC 可能不只是跑 Copilot,而是承载本地模型推理、Agent 开发和多模态创作。

AI 3D 公司 VAST 融资近 2 亿美元

由 29 岁游戏爱好者 Simon Song 创立的 AI 3D 公司 VAST,继今年 3 月完成 5000 万美元 A 轮融资后,于近期迅速完成 A+及 A++两轮融资,合计近 2 亿美元,估值随之突破 10 亿美元,成为中国 AI 领域最新独角兽。

据了解,近期融资所获资金将用于 AI 3D 与世界模型方向的人才引进、算法迭代、数据积累与全球扩张。

VAST 成立于 2023 年,旗下 Tripo 系列模型是目前全球使用最广泛的通用 3D 生成大模型之一,平台已聚集超过 2000 万创作者,累计生成 3D 资产近 1 亿个,客户覆盖网易、腾讯、索尼、荣耀、拓竹等头部企业。

Meta AI 客服被绕过,AI 不能直接拥有高危权限

本周 Meta 被曝曾出现 AI 助手协助修改 Instagram 绑定邮箱的问题,攻击者有机会借此接管账号。目前相关漏洞已经修复。

Anthropic 秘密递交 IPO 草案

Anthropic 宣布已向 SEC 秘密提交 S-1 注册草案,为可能的 IPO 做准备。具体发行规模和价格还未确定,最终是否上市也取决于 SEC 审查和市场环境。

头部 AI 公司开始从融资竞赛进入资本市场检验阶段。随着模型训练、推理和算力投入持续变重,谁能把 Claude 这类模型能力转化成稳定收入,也会成为市场接下来真正关注的问题。

Cloudflare 收购 VoidZero,前端工具链向云平台靠近

Cloudflare 宣布收购 VoidZero,将 Vite、Vitest、Rolldown 和 Oxc 等前端工具纳入生态。

前端开发链路正在和云平台进一步整合:从本地构建、测试到部署,未来可能会更直接接入 Cloudflare Workers 这类边缘平台。

Cloudflare 同时承诺向独立 Vite 生态基金投入 100 万美元,并表示相关项目会继续保持 MIT 开源许可。

留个小题

本周的「周一上线」已经进入尾声。为了给你这周带来一点点小惊喜,在「留个小题」模块会出一道简单的问答题。第一个答对的小伙伴可以找小七,任选一个七牛周边作为礼品。

小题解答方法:在评论区留下你的答案,小七会在第二天中午 12 点的推文中,告知昨日是哪位小伙伴第一个答对小题。

注意:为了让后面的人可以参与回答,所有评论将会在第二天 12 点统一精选展示。

第 6 期小题:这周提到的 Vibe Light,主要是把 AI 编程助手的什么信息同步成桌面灯光效果?

A. 工作状态:Agent 在思考、等待授权、完成任务,灯光都知道

B. GitHub Star 数:项目一涨星,灯带立刻蹦迪

C. 键盘输入速度:打字越快,灯越亮

D. 代码报错数量:Bug 越多,房间越红

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 有点新鲜
    • 用代码创作像素风格图片
    • Claude 让 TouchBar 再就业
    • Codex 创建具有物理特性的小游戏
    • wiggle-scanner:线上 3D 扫描仪
    • 硅基圣经…请续费
  • 周五发版
    • MiniMax M3 发布
    • NVIDIA 发布物理 AI 世界模型 Cosmos 3
    • Sapient Intelligence 推出 HRM-Text
    • Composer 2.5 已上线 Grok Build
    • 微软 MAI 一口气上新 7 款新模型
    • Google 发布 Gemma 4 12B
    • Codex 再升级,近期即将合体 ChatGPT
  • 开源雷达
    • 周榜速递
    • Vibe Light :Vibe Coding 状态灯
    • Ideogram 4:更懂文字和排版的开源图像模型
    • Headroom:给 Agent 省上下文
    • Scrapling:一个从请求到爬站全包的爬虫框架
    • VoxCPM:开源语音模型家族
    • Hermes WebUI:给 Agent 配一个网页工作台
  • 这周有事
    • NVIDIA 继续押注 AI 工厂,本地 Agent 也要进 PC
    • 微软预告 Surface Laptop Ultra,AI PC 继续升级
    • AI 3D 公司 VAST 融资近 2 亿美元
    • Meta AI 客服被绕过,AI 不能直接拥有高危权限
    • Anthropic 秘密递交 IPO 草案
    • Cloudflare 收购 VoidZero,前端工具链向云平台靠近
  • 留个小题
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档