🗂 历史归档
每日 AI 速览

2026-06-22

生成于 2026-06-23 21:04

今日导语

今天最硬的一条主线在 AI 安全与厂商博弈:OpenAI 以 Daybreak 全面铺开自动化漏洞修复,推出专攻安全的 GPT-5.5-Cyber 与「Patch the Planet」开源维护计划,并因出口管制与 Anthropic 的受限放开形成对照,三星更把 ChatGPT 与 Codex 推给全球员工。第二条主线是 AI Infra 的算力与算子层持续发力——MoonMath 在 MI300X 上开源 HIP 注意力算子跑赢 AITER v3,llama.cpp 连发多版打磨 SYCL、采样与多模态输入,NVIDIA 则在 ISC 上以 JUPITER 超算、Vera CPU 和 45 度液冷推进科学计算与能效。论文侧,分布式训练、多模态推理接地与智能体记忆治理是三块密集战场。

🗞 行业动态 19 条

Daybreak: Tools for securing every organization in the world

OpenAI · 06-22 18:00 UTC+8

OpenAI 推出名为 Daybreak 的安全工具集,包含「Codex Security」和专攻网络安全的「GPT-5.5-Cyber」模型,主打大规模地发现、验证并修补软件漏洞。对从业者而言,这意味着大模型正被系统化地推向自动化漏洞挖掘与补丁生成,安全工程的工作流可能因此被重塑。

厂商动态OpenAI网络安全漏洞修复

MoonMath AI Open-Sources a HIP Attention Kernel for AMD MI300X That Beats AITER v3 on Every Shape and Rounding Mode

MarkTechPost · 06-22 15:13 UTC+8

MoonMath AI 开源了一款面向 AMD MI300X 的 HIP 注意力算子,用单指令 asm 包装和八波次流水线,在所有形状和舍入模式上都跑赢了 AMD 自家的 AITER v3。对做推理优化和押注 AMD 算力的团队来说,这是 MI300X 生态里一个实打实跑得更快、且开源可复用的底层 kernel。

AMD算子优化注意力推理优化

The 7 Types of Agent Memory: A Technical Guide for AI Engineers

MarkTechPost · 06-22 07:12 UTC+8

这篇技术指南系统梳理了智能体记忆的七种类型——工作、语义、情景、程序、检索、参数化与前瞻记忆,逐一讲清各自存什么、放在哪、何时该用,并配了对比表和可运行的 Python 代码。对正在为无状态大模型补上记忆能力的工程师,是一份实用的体系化参考。

Agent智能体记忆Agent 工程

b9760

llama.cpp · 06-22 23:24 UTC+8

llama.cpp 发布 b9760 版,重点重构并泛化了 server 的输入文件 schema,接通了 input_video、可直接接收原始 base64 输入,为多模态服务铺路。对基于 llama.cpp 自建推理服务的用户,意味着视频等多模态输入的接入会更顺手。

Infrallama.cpp推理服务多模态

From Materials Simulation to Experimental Astronomy, New NVIDIA AI Software Unlocks Scientific Discoveries

NVIDIA 博客 · 06-22 21:00 UTC+8

NVIDIA 在 ISC 大会上发布面向科学计算的新软件,覆盖化学材料发现到暗物质搜寻,包括 DAQIRI 库、ALCHEMI NIM 微服务以及即将推出的 cuPhoton 参考代码,用 AI 加速科研工作流。它体现了 NVIDIA 把 AI 基础设施进一步推向材料模拟、实验天文等硬核科学场景的布局。

推理优化NVIDIA科学计算AI for Science

b9758

llama.cpp · 06-22 20:22 UTC+8

llama.cpp 发布 b9758 版,为 SYCL 后端的 bin_bcast 算子和一元算子加上了 bf16 支持,并兼容 2026.0 之前的旧版 Intel 编译器。对在 Intel GPU 上跑 llama.cpp 的用户,这扩展了 bf16 精度的算子覆盖与编译器兼容性。

推理优化llama.cppSYCLIntelbf16

b9757

llama.cpp · 06-22 19:48 UTC+8

llama.cpp 发布 b9757 版,在 top-n-sigma 采样器里去掉了无条件执行的 softmax 加排序,省去这步冗余计算来加快采样。是一处小而实在的采样路径性能优化。

推理优化llama.cpp采样性能优化

Patch the Planet: a Daybreak initiative to support open source maintainers

OpenAI · 06-22 18:00 UTC+8

OpenAI 在 Daybreak 框架下推出「Patch the Planet」计划,借助 AI 加专家复核,帮助开源项目维护者发现、验证并修复漏洞。它把厂商的自动化漏洞修复能力直接对准了开源生态的维护短板,对长期人手不足的开源安全是一种外部补给。

厂商动态OpenAI开源安全漏洞修复

Getty Images strikes multi-year deal to put licensed photos in ChatGPT search

The Decoder · 06-22 23:16 UTC+8

Getty Images 与 OpenAI 达成多年期授权协议,把正版图库照片引入 ChatGPT 的搜索结果。此举为 ChatGPT 搜索补上了合规的图片来源,也是大模型厂商以正版授权规避版权风险的又一例。

厂商动态OpenAI版权授权ChatGPT

Google Deepmind and A24 team up on AI filmmaking research

The Decoder · 06-22 23:03 UTC+8

Google DeepMind 与电影工作室 A24 达成长期 AI 电影制作研究合作,据《华尔街日报》Google 还向 A24 投资约 7500 万美元。这标志着前沿 AI 实验室与内容创作方在生成式影像上的深度绑定,押注 AI 在影视创作流程中的应用。

厂商动态Google DeepMindAI 影视生成式视频

PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters

HuggingFace 博客 · 06-22 21:18 UTC+8

PP-OCRv6 登陆 Hugging Face,支持 50 种语言,提供从 150 万到 3450 万参数的多档模型,让使用者按精度与算力需求自由取舍。对需要多语种 OCR 又想控体积的应用,这是一套覆盖面广、轻重可选的现成方案。

基座OCR多语种开源模型

NAIRR Science Program Reshapes Scientific Research, Powered by NVIDIA AI Infrastructure

NVIDIA 博客 · 06-22 21:00 UTC+8

美国国家科学基金会的 NAIRR 科研计划在两年里支撑了 700 多个项目,覆盖蛋白质预测到传染病暴发管理,其算力由 NVIDIA AI 基础设施提供,包括一项让研究者获得专属访问的云端资源。它展示了国家级 AI 算力共享计划如何把基础设施红利输送到广泛的科研一线。

InfraNVIDIANAIRR科研算力

not much happened today

smol.ai AI News · 06-22 13:44 UTC+8

据 smol.ai 简报,OpenAI 扩展 Daybreak,推出主打闭环补丁生成的 GPT-5.5-Cyber,已扫描超 3000 万次提交、覆盖 cURL 和 Python 等重要项目,并因政策与出口管制引发争议,与 Anthropic 对 Mythos/Fable 的受限放开形成对比;另有 Sakana Fugu 发布可学习模型选择与委派的编排 API,但因基线不透明遭质疑。这两条线索分别指向 AI 安全能力的厂商博弈和多模型编排路线。

OpenAI模型编排AI 安全厂商动态

Orchestration models 🤖, DeepMind exodus 👋, loop engineering 🔄

TLDR AI · 06-22 08:00 UTC+8

TLDR AI 简报当日点了三条线索:模型编排(orchestration)成为热点、DeepMind 出现人才流失,以及围绕智能体的「循环工程」(loop engineering)。它快速勾勒了当天值得关注的行业走向与人事动向。

Agent行业动态模型编排DeepMind

Samsung Electronics brings ChatGPT and Codex to employees

OpenAI · 06-22 07:00 UTC+8

三星电子向全球员工部署 ChatGPT Enterprise 和 Codex,成为 OpenAI 规模最大的企业级落地之一。这印证了头部制造企业正把生成式 AI 与代码助手大规模铺进日常工作流,是企业 AI 采用加速的又一标志性案例。

厂商动态OpenAI企业落地三星

Temporary Cloudflare Accounts for AI agents

Simon Willison · 06-22 06:01 UTC+8

Cloudflare 推出「临时账户」功能:无需注册账号,用 npx wrangler deploy --temporary 就能把 Workers 项目部署到一个存活 60 分钟的临时项目里。虽然打着「给 AI 智能体用」的旗号,但对任何想零门槛快速试跑部署的开发者同样好用,很适合智能体自动化生成并验证代码的场景。

AgentCloudflare智能体部署开发工具

At ISC, JUPITER Shows What Exascale Science Looks Like

NVIDIA 博客 · 06-22 21:00 UTC+8

在 ISC 大会上,欧洲首台百亿亿次超算 JUPITER 亮相,搭载 NVIDIA Grace Hopper 超级芯片与 Quantum-X800 InfiniBand 网络,并用四个落地项目展示了 exascale 算力能做什么。它是欧洲在顶级 AI/HPC 基础设施上迈入百亿亿次时代的标志。

InfraNVIDIA超算HPC基础设施

Hotter Than a Hot Tub: The 45°C Breakthrough to Cool AI’s Biggest Machines

NVIDIA 博客 · 06-22 13:00 UTC+8

NVIDIA 介绍其最新 AI 服务器的冷却液工作温度可高达 45 摄氏度,远高于普通热水浴的 38–40 度,而正是这个更高的温度上限让大规模 AI 机器的散热更节能。它点出在数据中心能效压力下,提高冷却温度阈值是降低能耗的一条务实工程路径。

InfraNVIDIA数据中心液冷能效

📄 论文 16 篇

看点在两头:Factored Gossip DiLoCo 用 gossip 近似同步把分布式训练推向低带宽容错,CFPO 则以反事实策略优化治理多模态推理「视而不见」的视觉接地难题。

Factored Gossip DiLoCo: Reducing Blocking Communication in DiLoCo

ICML 2026CCF-A推荐arXiv · 06-22 10:15 UTC+8

DiLoCo 虽然把同步频率降到很低,但每次外层同步仍是高带宽、强阻塞的全局操作,一旦遇到掉队节点或瞬时通信故障就会卡住整轮训练,难以走出高带宽数据中心。这篇工作把「精确同步」松弛为基于 mixing/gossip 的「近似同步」,让节点两两混合参数而非全员对齐,从而在延迟和丢包下平滑降级而非彻底阻塞。由此可把 DiLoCo 的同步拆解成非阻塞的因子化通信,对在松散、跨地域、廉价互联环境下做大规模分布式训练很有现实意义。

Infra分布式训练DiLoCo通信优化容错
Chamin Hewa Koneputugodage, Thalaiyasingam Ajanthan, Sameera Ramasinghe, Hadi Mohaghegh Dolatabadi, Shamane Siriwardhana, Gil Avraham, Violetta Shevchenko, Karol Pajak
📖 阅读⬇ PDF

CFPO: Counterfactual Policy Optimization for Multimodal Reasoning

ICML 2026CCF-A推荐arXiv · 06-22 19:51 UTC+8

大视觉语言模型在多模态推理上能力很强,但主流强化学习范式缺少显式的反事实与因果机制,导致模型常常忽略图像证据、转而依赖语言先验,在长链思维里还会出现幻觉漂移、答非所「看」。CFPO 提出反事实策略优化,通过构造反事实样本逼迫模型把奖励真正归因到视觉证据上、而非语言捷径,从根上强化视觉接地与因果学习。这对治理多模态推理的「视而不见」和长推理幻觉提供了比常规 RLHF 更有针对性的训练思路。

后训练多模态推理强化学习反事实视觉接地
Zhangyuan Yu, Wanran Sun, Guangjing Yang, Xiaohu Wu, Qicheng Lao
📖 阅读⬇ PDF

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

字节 SeedHF 精选 · 06-22 08:00 UTC+8

多模态扩散语言模型在做区域级感知时往往逐区域串行处理,推理偏慢。PerceptionDLM 通过结构化的注意力掩码配合高效提示设计,让模型在一次前向里并行感知多个图像区域,在不牺牲描述质量的前提下显著加速推理。它展示了扩散式语言模型在密集视觉理解场景下兼顾速度与质量的一条可行路径。

基座多模态扩散语言模型区域感知推理加速
📖 阅读⬇ PDF

Scaling LLM Knowledge Boundaries via Distribution-Optimized Synthesis

EMNLP 2026CCF-B推荐蚂蚁arXiv · 06-22 20:50 UTC+8

用合成数据做知识注入是扩展大模型知识边界的关键,但现有做法只会卡在预设 token 数或固定配比上停手,对知识在各领域的分布毫无感知,结果某些领域数据稀疏、某些领域严重冗余。这篇工作从分布视角重审知识注入,假设存在一个能最大化知识边界扩张的最优知识分布,并据此优化合成数据的领域配比。把「合成多少」变成「按分布合成」,为更高效地拓展模型知识面提供了量化依据。

训练合成数据知识注入数据工程预训练
Songze Li, Yarong Lan, Zhongpu Bo, Zhaoyang Wang, Zhiqiang Liu, Yuan Yuan, Chengtao Gan, Menghao Qian
📖 阅读⬇ PDF

GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

HF 精选 · 06-22 08:00 UTC+8

当多个主体共享同一套智能体记忆时,既要保证记忆有用、又要做好访问控制和按需遗忘,现有记忆智能体在这种多主体、权限各异的机构级部署里很不可靠。GateMem 提出一个面向「多主体共享记忆治理」的基准,专门衡量在不同授权语境下效用、访问控制与遗忘之间的平衡。它把智能体记忆从单用户玩具推向了需要权限隔离的真实机构部署,点出了一个被长期忽视的安全与治理短板。

Agent智能体记忆记忆治理访问控制Benchmark
📖 阅读⬇ PDF

MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

HF 精选 · 06-22 08:00 UTC+8

个性化幻灯片生成需要智能体既记住用户长期偏好、又能在多轮修改里稳住本轮约束,还能复用过往操作经验。MemSlides 用分层记忆把长期用户画像、会话级工作记忆和可复用的工具记忆三者拆开管理,从而在多轮局部修订中既保持个性化稳定、又能可靠地只改该改的地方。这种把记忆按时效与用途分层的设计,对做稳定可控的文档类智能体颇有借鉴价值。

Agent智能体分层记忆个性化幻灯片生成
📖 阅读⬇ PDF

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

HF 精选 · 06-22 08:00 UTC+8

传统 RAG 在复杂研究任务里做段落级检索时,容易在海量 chunk 中选错或选冗。MCompassRAG 把主题级元数据当作「语义罗盘」来引导 chunk 选择,先用话题元数据收窄范围再做细粒度检索,从而同时提升检索效率与精度。这是一种轻量却实用的检索改进,适合知识密集的长文研究场景。

InfraRAG检索元数据语义检索
📖 阅读⬇ PDF

Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models

HF 精选 · 06-22 08:00 UTC+8

掩码扩散模型一次性并行解码,缺少自回归式的回头反思,难以在生成中迭代纠错。这篇提出「反思式掩码」,通过轻量后训练让模型能多轮重新掩码并局部精修自己的输出,从而在不改动架构的前提下激发出多轮推理能力。它为扩散类语言模型补上了迭代式 self-refine 这块短板,思路简洁且无需重训底座。

推理优化扩散语言模型掩码扩散多轮推理后训练
📖 阅读⬇ PDF

SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

HF 精选 · 06-22 08:00 UTC+8

长文档 RAG 既要细粒度又要语义连贯,传统切块常割裂上下文,靠额外 LLM 调用做摘要又费钱。SproutRAG 用学习到的句间注意力把句级 chunk 组织成语义连贯的单元,并以注意力引导的树搜索做多粒度检索,全程不需要额外的 LLM 调用或摘要。它在长文档检索上兼顾粒度、连贯与成本,是一种偏工程友好的 RAG 结构设计。

InfraRAG长文档检索注意力树搜索
📖 阅读⬇ PDF

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

HF 精选 · 06-22 08:00 UTC+8

具身智能体在长时序任务里要靠记忆应对部分可观测的环境,但缺乏系统的评测标尺。WorldLines 用家居场景构建了一套考察长期记忆的基准,配套的 ObsMem 框架则专门处理部分可观测下的观测-记忆转换与决策难题。它把「长时序、有状态的具身智能体」拉到可量化评测的台面上,对做家务机器人和具身规划很有参考意义。

Agent具身智能体长期记忆Benchmark规划
📖 阅读⬇ PDF

Characterizing Narrative Content in Web-scale LLM Pretraining Data

HF 精选 · 06-22 08:00 UTC+8

这篇对网页规模的大模型预训练语料做了系统的叙事结构分析,发现训练数据里的叙事模式是可测量、多维度的,并且随内容来源和主题显著变化。它为理解「模型究竟从什么样的文本里学习」提供了一面数据侧的镜子,提醒从业者预训练语料的叙事构成本身就是一个值得刻画和调控的变量。

训练预训练数据数据分析语料数据工程
📖 阅读⬇ PDF

GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning

HF 精选 · 06-22 08:00 UTC+8

视觉-语言-动作模型在机器人操作里常受限于三维重建不准和记忆管理混乱。GeneralVLA-2 引入 GeoFuse-MV3D 改进多视角几何重建、让动作规划更具几何感知,并用强化版 KnowledgeBank 做更好的受治理记忆管理。两者结合提升了机器人操作的感知与规划可靠性,是 VLA 走向更稳健落地的一步。

AgentVLA机器人三维重建记忆管理
📖 阅读⬇ PDF

Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations

HF 精选 · 06-22 08:00 UTC+8

在真实 B2B 对话分类里,把大量示例塞进上下文做 in-context learning 既贵又随上下文变长而脆弱。这篇提出把示例「蒸馏」成任务指令,用提炼后的指令替代海量样例,token 用量直降 99% 还反而提升了性能,并在上下文增长时更稳健。对要在生产环境控成本、控稳定性的对话分类应用相当实用。

训练In-Context Learning指令蒸馏对话分类成本优化
📖 阅读⬇ PDF

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

HF 精选 · 06-22 08:00 UTC+8

这篇研究发现多模态大模型的社会偏见,主要由少数几个人类视觉线索驱动,其中穿着风格和社会经济地位线索对模型判断的影响最大。也就是说模型会「以貌取人」,凭服饰等表层视觉特征形成带偏见的判断。该结论为定位和缓解多模态模型偏见提供了可操作的抓手——盯住那几个高影响的视觉属性。

后训练多模态社会偏见对齐评测
📖 阅读⬇ PDF

Only Ask What You Don't Know: Grounded Delta Planning for Efficient Multi-step RAG

COLM 2026arXiv · 06-22 05:46 UTC+8

多跳问答里的 RAG 要么在多轮检索中层层放大错误,要么过度生成推理步、徒增成本却不提精度。GDP-RAG 提出「接地的增量规划」,只针对尚缺的信息增量去检索:先做初步检索为规划提供事实地基,再用「缺口条件」的规划只问那些自己还不知道的东西。一句话概括就是「只问你不知道的」,在控制检索轮数和成本的同时提升多跳准确率。

推理优化RAG多跳问答规划检索效率
Wei-Chieh Chou, Xuanjun Chen, Jian-Ren Lin, Claire Lin, Hung-yi Lee, Jyh-Shing Roger Jang
📖 阅读⬇ PDF

Orthogonal Representation Editing: Decoupling Semantic Entanglement in Batch Knowledge Editing of LLMs

ACL 2026CCF-A推荐腾讯混元arXiv · 06-22 02:29 UTC+8

批量知识编辑里,多条编辑因概念重叠、句法共享造成语义表示纠缠,干扰累积导致编辑精度下降。这篇提出「正交表示编辑」,通过把各条编辑的表示推向相互正交来解耦语义纠缠,从而在不重训的前提下减少批量编辑间的相互干扰。它直指批量知识编辑的核心痛点,为模型事实更新的可扩展性提供了一条解纠缠思路。

训练知识编辑表示解耦正交模型更新
Wenhao Yu, Zhicong Lu, Bo Lv, Fangyin Ma, Kaiwen Wei, Shihao Yang, Nayu Liu
📖 阅读⬇ PDF