早间版 · 08:00 CST · 18条精选
今日 AI 脉搏
2026年6月24日 · 星期三
18
头条新闻
8
信源覆盖
10
热门项目
1
精选论文
TL;DR
Anthropic Glasswing 网络安全超危模型内部分发 · DeepSeek V3.2 MIT 开源 685B MoE 对标 GPT-5 · Google FunctionGemma 270M 端侧模型控制手机 · OpenAI Codex 桌面版 macOS 发布 · GitHub Agent HQ 统一多 Agent 管控 · 中国发布 AI 全球治理方案
模型大模型动态
Model Updates
🔴 HEADLINE · Anthropic · 网络安全
Anthropic 发布 Project Glasswing:首个因「过于危险」被限制发布的 AI 模型
Anthropic 正式公开 Project Glasswing——基于 Claude Mythos Preview 构建的网络安全 AI。该模型可自主发现并串联零日漏洞链,包括一个隐匿 27 年的 OpenBSD 内核漏洞和 16 年的 FFmpeg 漏洞。在 CyberGym 评测获 83.1%,SWE-bench Verified 达 93.9%。Anthropic 称其「过于危险不宜公开发布」,仅限 AWS/Apple/Google/Microsoft/Nvidia/CrowdStrike 等受审核合作伙伴使用,定价高达 $25/M 输入 token、$125/M 输出 token。同步承诺投入 $100M 安全研究积分。
开发者影响:首次出现「能力过强 → 限制分发」的安全范式转变。企业安全团队需关注 AI 驱动攻击面的变化,模型能力评级体系(如 CyberGym)将成为采购参考标准。
🇨🇳 OPEN SOURCE · DeepSeek
DeepSeek V3.2 / V3.2-Speciale:MIT 协议 685B MoE,IMO/IOI 双金,推理成本降 70%
DeepSeek 发布 V3.2 系列,685B 参数 MoE 架构,MIT 许可协议。引入 DeepSeek Sparse Attention (DSA) 将长序列推理成本降低约 70%。V3.2-Speciale 在 IMO 2025 和 IOI 2025 摘金,ICPC World Finals 获亚军。API 定价仅为竞争对手的 1/10~1/20。
🇨🇳 OPEN SOURCE · Z.ai (智谱)
Z.ai 开源 GLM-4.5 系列:355B MoE,Apache 2.0,原生生成 PPT
智谱海外品牌 Z.ai 发布 GLM-4.5(355B total / 32B active,MoE)和 GLM-4.5-Air(106B / 12B active)。在 BrowseComp、AIME24、SWE-bench Verified 上对标 Claude 4 Sonnet/Opus。可单 prompt 生成完整 PowerPoint 演示文稿。Apache 2.0 协议,API $0.20/M 起。
🤖 EDGE AI · Google
Google 发布 FunctionGemma:270M 参数端侧模型,可自主操控手机应用
Google 发布 FunctionGemma,一个仅 2.7 亿参数的端侧函数调用模型——将自然语言指令实时转化为结构化代码,无需联网即可操控移动设备。在函数调用任务上达 85% 准确率,匹敌数十倍于己的模型。已在 Hugging Face 和 Kaggle 开放下载。
🌍 RESEARCH · Thinking Machines
Mira Murati 创业公司 Thinking Machines 发布「交互模型」,对话延迟仅 0.4 秒
前 OpenAI CTO Mira Murati 的创业公司 Thinking Machines 展示 276B 参数(12B active)「全双工」交互模型,同时处理语音输入与输出 200ms 分片。语音对话延迟仅 0.40 秒(GPT-realtime-2.0 为 1.18 秒),FD-bench V1.5 得分 77.8,接近对手两倍。目前仅研究预览。
工具工具 & 部署
Tools & Frameworks
OpenAI Codex Desktop
macOS 版「Agent 指挥中心」发布,支持并行运行多个 AI 编码 Agent,独立工作最长 30 分钟。内置 Skills 包和 Automation 定时任务机制。
新发布
VentureBeat →
GitHub Agent HQ
GitHub 发布多 Agent 统一管控面板,支持 Anthropic/OpenAI/Google/Cognition/xAI 等 Agent 集中管理。含 Mission Control、自定义 Agent AGENTS.md 和 MCP 集成。
新发布
VentureBeat →
Kilo KiloClaw
企业级 AI Agent 治理平台,解决「影子 AI」危机。提供审计日志、凭证管理、集中化 Agent 管控,让员工自主使用的 Agent 纳入合规轨道。
新发布
VentureBeat →
Anthropic Claude Tag
Slack 持久化 AI 队友,替代原 Slack App。可学习频道上下文、自主监控和响应。企业级安全管控,支持 Token 花费上限设定。@Claude 即用。
更新
VentureBeat →
政策政策 & 合规
Policy & Regulation
🇨🇳 治理 · 中国方案
中国发布《为人工智能全球治理贡献中国方案》,强调「智能向善」
人民网 6 月 20 日报道,中国在国际场合正式发布 AI 全球治理中国方案。核心原则包括:以人为本、智能向善、安全可控、包容普惠。提出建立健全 AI 研发伦理规范和安全标准,推动形成具有广泛共识的国际 AI 治理框架。中国已发布 30 项 AI 国家标准,84 项在制定中。
开发者影响:国家标准体系加速完善(30+84 项),涉及智能体、AI 安全、数据治理等领域。面向国内外市场的 AI 产品需同步关注中国国标与国际框架的合规要求。
🌍 国际 · AI 数字主权
人民网:AI 智能体决策不应架空人类「数字主权」——四层防护体系提案
人民网刊发深度评论,提出 AI 智能体治理的「四层防护体系」:外约束(法律法规)、内嵌入(伦理植入算法)、供应链(全链条安全)、软法(行业自律)。核心主张「双权分离」——AI 对数据的「访问权」与对结果的「行动权」必须在架构层面分离,确保关键决策节点上人类始终掌握最终控制权。
📄
论文今日论文
MacAgentBench:首次在真实 macOS 桌面上大规模评测 AI Agent 的多维度基准
来自多所高校的研究团队构建了 MacAgentBench——第一个在真实 macOS 桌面环境中评测 AI Agent 的基准。与之前依赖简化模拟环境的工作不同,该基准在真实 Finder、Safari、Terminal、Xcode 等应用上测试 Agent 的文件操作、网页交互、Shell 执行和代码编辑能力。结果显示当前最先进的 GUI Agent 在真实桌面环境中的任务完成率远低于模拟环境,揭示了从「模拟评测」到「真实桌面」的巨大鸿沟。该工作对 Computer Use 和桌面 Agent 的工程实践具有直接指导意义。
阅读论文全文 →
应用应用落地
Applications
🏢 ENTERPRISE · Anthropic
Anthropic:80% 新生产代码由 Claude 编写,工程师人均代码产出增长 8×
Anthropic 披露内部惊人数据:2026 年 5 月合并到生产环境的代码中 80% 为 AI 编写,工程师人均代码产出增长 8 倍。VentureBeat 同步发布企业采纳路线图:从 AI 辅助补全到全自主 Agent 编程的四个阶段。
🏢 ENTERPRISE · AI 支付
支付宝「AI 付」+ 微信「AI 专属卡」+ 京东 A2P2:中国 AI 支付三路并进
36氪报道中国 AI 支付最新进展:支付宝在瑞幸 Lucky AI 实现智能体全链路支付(仍需手动确认),联合千问推出 ACT 协议;微信推出 WorkBuddy 桌面智能体支付闭环,采用额度锁定换取安全;京东发布 A2P2 协议定义 Agent 授权和审计规则。
开源热度
Open Source Pulse
🔥 本周 Stars 上升最快 · W25
1chopratejas/headroom+13k
2mvanhorn/last30days-skill+12k
3Leonxlnx/taste-skill+8.7k
4NVIDIA/skillspector+8.2k
5apple/container+7.8k
📊 W24-W25 趋势关键词
🔥 Token 压缩 —— headroom 宣称 60-95% Token 节省
🔍 AI 搜索技能 —— last30days-skill 跨平台聚合
🎨 UI 美学反模板 —— taste-skill 生成非 AI 风格 UI
🛡️ Agent 安全 —— NVIDIA SkillSpector 开源安全扫描
🍎 Apple 开源 —— macOS 原生 Linux 容器 VZ 框架
📝 文档转换 —— 微软 markitdown 文件转 Markdown
🔍 AI 搜索技能 —— last30days-skill 跨平台聚合
🎨 UI 美学反模板 —— taste-skill 生成非 AI 风格 UI
🛡️ Agent 安全 —— NVIDIA SkillSpector 开源安全扫描
🍎 Apple 开源 —— macOS 原生 Linux 容器 VZ 框架
📝 文档转换 —— 微软 markitdown 文件转 Markdown
数据来源:GitHub Trending W24-W25 · 整理自 cnblogs.com
查看完整周榜 →
查看完整周榜 →
海外海外参考
Global Brief
OPENAI
OpenAI 发布 ChatGPT Atlas 浏览器 + GPT-5.4 Computer Use 模型
OpenAI 发布内置 ChatGPT 的 AI 浏览器 Atlas(Chromium 内核),具备 Agent 能力和浏览器记忆。同步发布 GPT-5.4——首个原生 Computer Use 模型,可跨应用操作设备。The Verge 评价其为「自主 Agent 的一大步」,事实准确性提升 33%。
GOOGLE
Google Gemini 2.5 Deep Think 获 IMO 金牌,但公开版为「铜牌」缩减版
Google 发布推理增强版 Gemini 2.5 Deep Think,完整版在 IMO 2025 摘金。但公测版本是性能削弱后的「铜牌」级别,完整版仅限 Google AI Ultra 计划($249.99/月)。这延续了前沿模型「完整版受限、公开版降级」的行业趋势。
AR CEE
Arcee 开源 Trinity-Large-Thinking:美国本土 399B 推理模型,Apache 2.0
美国 AI 公司 Arcee 开源 Trinity-Large-Thinking(399B/13B active),作为非中国产开源推理模型的替代选项。PinchBench 91.9(接近 Opus 4.6 的 93.3),AIME25 达 96.3。2048 块 B300 GPU 训练 33 天耗资 $20M,API 定价仅 $0.90/M,约为 Opus 4.6 的 1/28。
ANTHROPIC
Anthropic Claude Cowork:从编程到全场景企业 Agent,Spotify 工程时间减 90%
继 Claude Code 改写编程工作流后,Anthropic 发布 Claude Cowork——面向非技术用户的桌面 Agent。支持在指定文件夹内读写文件、MCP 连接器接入 GDrive/Salesforce/DocuSign。Spotify 代码迁移工程时间减少 90%,Novo Nordisk 合规文档从 10+ 周压缩至 10 分钟。