早间版 · 08:00 CST · 18条精选

今日 AI 脉搏

2026年6月24日 · 星期三

头条新闻

信源覆盖

热门项目

精选论文

TL;DR Anthropic Glasswing 网络安全超危模型内部分发 · DeepSeek V3.2 MIT 开源 685B MoE 对标 GPT-5 · Google FunctionGemma 270M 端侧模型控制手机 · OpenAI Codex 桌面版 macOS 发布 · GitHub Agent HQ 统一多 Agent 管控 · 中国发布 AI 全球治理方案

模型大模型动态 Model Updates

🔴 HEADLINE · Anthropic · 网络安全

Anthropic 发布 Project Glasswing：首个因「过于危险」被限制发布的 AI 模型

Anthropic 正式公开 Project Glasswing——基于 Claude Mythos Preview 构建的网络安全 AI。该模型可自主发现并串联零日漏洞链，包括一个隐匿 27 年的 OpenBSD 内核漏洞和 16 年的 FFmpeg 漏洞。在 CyberGym 评测获 83.1%，SWE-bench Verified 达 93.9%。Anthropic 称其「过于危险不宜公开发布」，仅限 AWS/Apple/Google/Microsoft/Nvidia/CrowdStrike 等受审核合作伙伴使用，定价高达 $25/M 输入 token、$125/M 输出 token。同步承诺投入 $100M 安全研究积分。

📰 VentureBeat / Anthropic·🕐 6月23日阅读原文 →

💡 开发者影响：首次出现「能力过强 → 限制分发」的安全范式转变。企业安全团队需关注 AI 驱动攻击面的变化，模型能力评级体系（如 CyberGym）将成为采购参考标准。

🛡️

🇨🇳 OPEN SOURCE · DeepSeek

DeepSeek V3.2 / V3.2-Speciale：MIT 协议 685B MoE，IMO/IOI 双金，推理成本降 70%

DeepSeek 发布 V3.2 系列，685B 参数 MoE 架构，MIT 许可协议。引入 DeepSeek Sparse Attention (DSA) 将长序列推理成本降低约 70%。V3.2-Speciale 在 IMO 2025 和 IOI 2025 摘金，ICPC World Finals 获亚军。API 定价仅为竞争对手的 1/10~1/20。

📰 VentureBeat阅读原文 →

🇨🇳 OPEN SOURCE · Z.ai (智谱)

Z.ai 开源 GLM-4.5 系列：355B MoE，Apache 2.0，原生生成 PPT

智谱海外品牌 Z.ai 发布 GLM-4.5（355B total / 32B active，MoE）和 GLM-4.5-Air（106B / 12B active）。在 BrowseComp、AIME24、SWE-bench Verified 上对标 Claude 4 Sonnet/Opus。可单 prompt 生成完整 PowerPoint 演示文稿。Apache 2.0 协议，API $0.20/M 起。

📰 VentureBeat阅读原文 →

🤖 EDGE AI · Google

Google 发布 FunctionGemma：270M 参数端侧模型，可自主操控手机应用

Google 发布 FunctionGemma，一个仅 2.7 亿参数的端侧函数调用模型——将自然语言指令实时转化为结构化代码，无需联网即可操控移动设备。在函数调用任务上达 85% 准确率，匹敌数十倍于己的模型。已在 Hugging Face 和 Kaggle 开放下载。

📰 VentureBeat阅读原文 →

🌍 RESEARCH · Thinking Machines

Mira Murati 创业公司 Thinking Machines 发布「交互模型」，对话延迟仅 0.4 秒

前 OpenAI CTO Mira Murati 的创业公司 Thinking Machines 展示 276B 参数（12B active）「全双工」交互模型，同时处理语音输入与输出 200ms 分片。语音对话延迟仅 0.40 秒（GPT-realtime-2.0 为 1.18 秒），FD-bench V1.5 得分 77.8，接近对手两倍。目前仅研究预览。

📰 VentureBeat阅读原文 →

工具工具 & 部署 Tools & Frameworks

🖥️

OpenAI Codex Desktop

macOS 版「Agent 指挥中心」发布，支持并行运行多个 AI 编码 Agent，独立工作最长 30 分钟。内置 Skills 包和 Automation 定时任务机制。

新发布

VentureBeat →

🏢

GitHub Agent HQ

GitHub 发布多 Agent 统一管控面板，支持 Anthropic/OpenAI/Google/Cognition/xAI 等 Agent 集中管理。含 Mission Control、自定义 Agent AGENTS.md 和 MCP 集成。

新发布

VentureBeat →

🔒

Kilo KiloClaw

企业级 AI Agent 治理平台，解决「影子 AI」危机。提供审计日志、凭证管理、集中化 Agent 管控，让员工自主使用的 Agent 纳入合规轨道。

新发布

VentureBeat →

🤖

Anthropic Claude Tag

Slack 持久化 AI 队友，替代原 Slack App。可学习频道上下文、自主监控和响应。企业级安全管控，支持 Token 花费上限设定。@Claude 即用。

更新

VentureBeat →

政策政策 & 合规 Policy & Regulation

🇨🇳 治理 · 中国方案

中国发布《为人工智能全球治理贡献中国方案》，强调「智能向善」

人民网 6 月 20 日报道，中国在国际场合正式发布 AI 全球治理中国方案。核心原则包括：以人为本、智能向善、安全可控、包容普惠。提出建立健全 AI 研发伦理规范和安全标准，推动形成具有广泛共识的国际 AI 治理框架。中国已发布 30 项 AI 国家标准，84 项在制定中。

📰 人民网 · 6月20日阅读原文 →

💡 开发者影响：国家标准体系加速完善（30+84 项），涉及智能体、AI 安全、数据治理等领域。面向国内外市场的 AI 产品需同步关注中国国标与国际框架的合规要求。

🌍 国际 · AI 数字主权

人民网：AI 智能体决策不应架空人类「数字主权」——四层防护体系提案

人民网刊发深度评论，提出 AI 智能体治理的「四层防护体系」：外约束（法律法规）、内嵌入（伦理植入算法）、供应链（全链条安全）、软法（行业自律）。核心主张「双权分离」——AI 对数据的「访问权」与对结果的「行动权」必须在架构层面分离，确保关键决策节点上人类始终掌握最终控制权。

📰 人民网 · 2月2日阅读原文 →

📄 论文今日论文

MacAgentBench：首次在真实 macOS 桌面上大规模评测 AI Agent 的多维度基准

来自多所高校的研究团队构建了 MacAgentBench——第一个在真实 macOS 桌面环境中评测 AI Agent 的基准。与之前依赖简化模拟环境的工作不同，该基准在真实 Finder、Safari、Terminal、Xcode 等应用上测试 Agent 的文件操作、网页交互、Shell 执行和代码编辑能力。结果显示当前最先进的 GUI Agent 在真实桌面环境中的任务完成率远低于模拟环境，揭示了从「模拟评测」到「真实桌面」的巨大鸿沟。该工作对 Computer Use 和桌面 Agent 的工程实践具有直接指导意义。

arXiv: 2606.22557 · 2026年6月21日发布 · 建议阅读时间 10 分钟

阅读论文全文 →

应用应用落地 Applications

🏢 ENTERPRISE · Anthropic

Anthropic：80% 新生产代码由 Claude 编写，工程师人均代码产出增长 8×

Anthropic 披露内部惊人数据：2026 年 5 月合并到生产环境的代码中 80% 为 AI 编写，工程师人均代码产出增长 8 倍。VentureBeat 同步发布企业采纳路线图：从 AI 辅助补全到全自主 Agent 编程的四个阶段。

📰 VentureBeat阅读原文 →

🏢 ENTERPRISE · AI 支付

支付宝「AI 付」+ 微信「AI 专属卡」+ 京东 A2P2：中国 AI 支付三路并进

36氪报道中国 AI 支付最新进展：支付宝在瑞幸 Lucky AI 实现智能体全链路支付（仍需手动确认），联合千问推出 ACT 协议；微信推出 WorkBuddy 桌面智能体支付闭环，采用额度锁定换取安全；京东发布 A2P2 协议定义 Agent 授权和审计规则。

📰 36氪阅读原文 →

开源热度 Open Source Pulse

🔥 本周 Stars 上升最快 · W25

1chopratejas/headroom+13k

2mvanhorn/last30days-skill+12k

3Leonxlnx/taste-skill+8.7k

4NVIDIA/skillspector+8.2k

5apple/container+7.8k

📊 W24-W25 趋势关键词

🔥 Token 压缩 —— headroom 宣称 60-95% Token 节省
🔍 AI 搜索技能 —— last30days-skill 跨平台聚合
🎨 UI 美学反模板 —— taste-skill 生成非 AI 风格 UI
🛡️ Agent 安全 —— NVIDIA SkillSpector 开源安全扫描
🍎 Apple 开源 —— macOS 原生 Linux 容器 VZ 框架
📝 文档转换 —— 微软 markitdown 文件转 Markdown

数据来源：GitHub Trending W24-W25 · 整理自 cnblogs.com
查看完整周榜 →

海外海外参考 Global Brief

OPENAI

OpenAI 发布 ChatGPT Atlas 浏览器 + GPT-5.4 Computer Use 模型

OpenAI 发布内置 ChatGPT 的 AI 浏览器 Atlas（Chromium 内核），具备 Agent 能力和浏览器记忆。同步发布 GPT-5.4——首个原生 Computer Use 模型，可跨应用操作设备。The Verge 评价其为「自主 Agent 的一大步」，事实准确性提升 33%。

📰 The Verge / VentureBeat阅读原文 →

GOOGLE

Google Gemini 2.5 Deep Think 获 IMO 金牌，但公开版为「铜牌」缩减版

Google 发布推理增强版 Gemini 2.5 Deep Think，完整版在 IMO 2025 摘金。但公测版本是性能削弱后的「铜牌」级别，完整版仅限 Google AI Ultra 计划（$249.99/月）。这延续了前沿模型「完整版受限、公开版降级」的行业趋势。

📰 VentureBeat阅读原文 →

AR CEE

Arcee 开源 Trinity-Large-Thinking：美国本土 399B 推理模型，Apache 2.0

美国 AI 公司 Arcee 开源 Trinity-Large-Thinking（399B/13B active），作为非中国产开源推理模型的替代选项。PinchBench 91.9（接近 Opus 4.6 的 93.3），AIME25 达 96.3。2048 块 B300 GPU 训练 33 天耗资 $20M，API 定价仅 $0.90/M，约为 Opus 4.6 的 1/28。

📰 VentureBeat阅读原文 →

ANTHROPIC

Anthropic Claude Cowork：从编程到全场景企业 Agent，Spotify 工程时间减 90%

继 Claude Code 改写编程工作流后，Anthropic 发布 Claude Cowork——面向非技术用户的桌面 Agent。支持在指定文件夹内读写文件、MCP 连接器接入 GDrive/Salesforce/DocuSign。Spotify 代码迁移工程时间减少 90%，Novo Nordisk 合规文档从 10+ 周压缩至 10 分钟。

📰 VentureBeat阅读原文 →