🗂 历史归档
每日 AI 速览

2026-06-22

生成于 2026-06-23 13:26

今日导语

今日主线集中在 Agent 记忆与 AI Infra 两端。记忆成为 Agent 的核心议题:从七种记忆类型的工程梳理,到共享记忆治理基准「GateMem」、个性化幻灯片框架「MemSlides」与具身长时程记忆基准「WorldLines」,记忆架构正从概念走向可评测、可治理;DeepSeek 急招 Agent 人才也印证这条赛道的热度。Infra 侧,MoonMath 开源超越 AMD「AITER v3」的 MI300X 注意力内核、NVIDIA 在 ISC 密集发布 Vera 超算、JUPITER 与 45 度液冷等硬件与算子进展密集,llama.cpp 也连发多版优化采样、批处理与多模态输入。厂商层面,OpenAI 以「Daybreak」切入网络安全并完成三星大规模落地,Sakana 用多模型编排「Fugu」对标前沿模型,国产侧清华空间智能、阿里视频生成与百度 OCR 同步推进。

🗞 行业动态 25 条

The 7 Types of Agent Memory: A Technical Guide for AI Engineers

MarkTechPost · 06-22 07:12 UTC+8

一篇面向 AI 工程师的技术指南,系统拆解 Agent 记忆的七种类型:工作、语义、情景、程序、检索、参数化与前瞻记忆,讲清各自存什么、放在哪、何时构建,并附对比表与可运行的 Python 代码。对系统设计 Agent 记忆体系的开发者是一份实用入门梳理。

Agent记忆架构工程指南

NVIDIA Vera CPU Opens the Way for Agentic Scientific AI at Los Alamos National Laboratory

NVIDIA 博客 · 06-22 21:00 UTC+8

NVIDIA 宣布洛斯阿拉莫斯国家实验室将基于「HPE Cray GX5000」架构与「NVIDIA Vera Rubin」平台建造三台超算(Mission、Vision、Veritas),采用 Vera CPU 为面向科学的智能体式 AI 加速。对关注 AI for Science、新一代 CPU/超算平台的从业者是重要硬件风向。

InfraAI Infra超算NVIDIAAI4Science

Daybreak: Tools for securing every organization in the world

OpenAI · 06-22 18:00 UTC+8

OpenAI 推出「Daybreak」安全工具套件,含「Codex Security」与「GPT-5.5-Cyber」,帮助组织规模化地发现、验证并修复漏洞。这是大模型厂商把能力推向网络安全自动化的标志性动作,对安全工程与 AI 厂商战略观察者值得关注。

OpenAI网络安全厂商动态Agent

Sakana AI's Fugu orchestrates multiple LLMs to match Anthropic's Fable and Mythos benchmarks

The Decoder · 06-22 16:18 UTC+8

日本初创 Sakana AI 推出「Fugu」系统,可在运行时动态编排协调多个大模型,以匹敌 Anthropic「Fable 5」等头部模型,同时降低对单一供应商的依赖。这是多模型编排路线对抗单一前沿模型的代表性尝试,对关注模型路由与厂商格局的读者有看点。

Agent多模型编排厂商动态Sakana AI模型路由

阿里发布视频生成模型HappyHorse 1.1:五大维度全面升级

量子位 · 06-22 15:30 UTC+8

阿里发布视频生成模型「HappyHorse 1.1」,宣称在五大维度全面升级。作为国内厂商在视频生成基座上的迭代,对关注多模态生成与国产模型厂商动态的读者值得留意,但目前公开细节有限。

基座视频生成多模态阿里厂商动态

入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习

量子位 · 06-22 11:48 UTC+8

清华开源的空间智能模型入选「ECCV 2026」,据称在空间任务上打败「Gemini」,核心理念是真正的空间智能要在世界变化中持续学习,可一边观看 120 分钟长视频一边记忆。对关注空间智能、长视频理解与世界模型的研究者是值得关注的国产成果。

基座空间智能世界模型长视频多模态

PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters

HuggingFace 博客 · 06-22 21:18 UTC+8

百度「PP-OCRv6」登陆 Hugging Face,支持 50 种语言,提供从 150 万到 3450 万参数的多档模型规模,覆盖轻量到更高精度需求。对需要在端侧或服务端部署多语种 OCR、做文档智能的工程团队是实用的现成选择。

基座OCR多语言开源模型文档智能

b9758

llama.cpp · 06-22 20:22 UTC+8

llama.cpp 发布 b9758 版本,为「SYCL」后端的 bin_bcast 与一元算子增加 bf16 支持,并兼容早于 2026.0 的 Intel 编译器。对在 Intel 平台上用 llama.cpp 做本地推理、关注 bf16 算子覆盖的用户是一次实用更新。

推理优化llama.cpp推理引擎SYCL算子

b9757

llama.cpp · 06-22 19:48 UTC+8

llama.cpp 发布 b9757 版本,在 top-n-sigma 采样器中移除了无条件的 softmax 与排序操作,精简采样开销。对在意采样阶段性能与解码效率的本地推理用户是一处小而实在的优化。

llama.cpp采样推理优化

DeepSeek缺Agent人才缺疯了!负责人各种贴广告

量子位 · 06-22 13:09 UTC+8

报道称 DeepSeek 正全力押注 Agent 方向,急缺相关人才,负责人四处发布招聘广告。这透露出这家以基座模型见长的厂商正把战略重心向智能体延伸,对观察国产大模型厂商方向与人才流向的读者有信号意义。

DeepSeekAgent厂商动态人才

b9752

llama.cpp · 06-22 03:01 UTC+8

llama.cpp 发布 b9752 版本,重构了服务端的批处理构建逻辑,更谨慎地处理批满情况并支持中止全部槽位,附带计时调试改进。对自建 llama.cpp server 做并发推理服务的工程团队是底层稳定性与吞吐相关的更新。

推理优化llama.cppserving批处理推理服务

b9760

llama.cpp · 06-22 23:24 UTC+8

llama.cpp 发布 b9760 版本,重构并泛化了服务端的输入文件 schema,新增 input_video 支持并可接受原始 base64 输入。这显示其服务端正向多模态输入扩展,对用 llama.cpp 搭建多模态推理服务的开发者值得关注。

Infrallama.cppserving多模态视频输入

Enable Real-Time AI for High-Speed Data Acquisition with DAQIRI

NVIDIA 开发者 · 06-22 23:00 UTC+8

NVIDIA 介绍「DAQIRI」库,为高速数据采集场景启用实时 AI,并以 AlphaFold2 依赖海量蛋白结构数据为引子说明实时采集与分析的价值。对做科学实验在线推理、实时数据管线的 AI4Science 团队有参考。

InfraAI4Science实时AINVIDIA数据采集

NAIRR Science Program Reshapes Scientific Research, Powered by NVIDIA AI Infrastructure

NVIDIA 博客 · 06-22 21:00 UTC+8

NVIDIA 介绍美国国家科学基金会「NAIRR」试点项目在两年间支撑了 700 多个科研项目,涵盖蛋白预测与传染病暴发管理等,NVIDIA 通过云端资源为研究者提供专用算力。对关注国家级 AI 算力基础设施与科研生态的读者有背景价值。

InfraAI4ScienceAI基础设施NVIDIA算力

Samsung Electronics brings ChatGPT and Codex to employees

OpenAI · 06-22 07:00 UTC+8

OpenAI 宣布三星电子向全球员工部署「ChatGPT Enterprise」与「Codex」,成为其规模最大的企业级 AI 落地之一。这体现大模型在大型制造企业的纵深渗透,对观察企业 AI 采用与 OpenAI 商业化的读者有参考。

OpenAI企业落地厂商动态Codex

b9754

llama.cpp · 06-22 05:57 UTC+8

llama.cpp 发布 b9754 版本,在 common/peg 中实现了 ac 解析器以支持更严格的语法生成,并做了函数抽取与整理。对依赖 llama.cpp 做受限解码、结构化输出语法约束的开发者是一处底层改进。

推理优化llama.cpp结构化输出语法约束解析器

b9753

llama.cpp · 06-22 03:25 UTC+8

llama.cpp 发布 b9753 版本,修复了加载投机解码模型时的进度上报,并新增 stages 阶段列表。对使用投机解码加速、关注模型加载可观测性的本地推理用户是一处体验改进。

llama.cpp投机解码推理优化

Getty Images strikes multi-year deal to put licensed photos in ChatGPT search

The Decoder · 06-22 23:16 UTC+8

Getty Images 与 OpenAI 达成多年期授权协议,将把已授权图片接入 ChatGPT 搜索。这是版权图库与大模型厂商在合规内容供给上的合作,对关注 AI 数据版权、内容授权与商业化的读者有信号意义。

OpenAI版权数据授权厂商动态

At ISC, JUPITER Shows What Exascale Science Looks Like

NVIDIA 博客 · 06-22 21:00 UTC+8

欧洲首台百亿亿次级超算「JUPITER」基于「NVIDIA Grace Hopper」超芯片与「Quantum-X800」InfiniBand 网络,已在人脑图谱等四个项目上展示百亿亿次科学计算能力。对关注超算架构、HPC 网络与 AI4Science 的从业者是一则平台级进展。

InfraAI Infra超算NVIDIAHPC网络

Patch the Planet: a Daybreak initiative to support open source maintainers

OpenAI · 06-22 18:00 UTC+8

OpenAI 推出「Daybreak」旗下的「Patch the Planet」计划,借助 AI 与专家评审帮助开源维护者发现、验证并修复漏洞。这是大模型厂商面向开源软件供应链安全的公益性举措,对关注 AI 安全与开源生态的读者值得关注。

OpenAI开源安全网络安全厂商动态

Temporary Cloudflare Accounts for AI agents

Simon Willison · 06-22 06:01 UTC+8

Cloudflare 推出面向 AI 智能体的临时账户能力:无需注册账户即可用 wrangler 一条命令把 Workers 项目临时部署 60 分钟。虽以 AI agent 为卖点,但对所有人都有用,对做 Agent 工具沙箱与快速部署的开发者是一项实用基础设施。

InfraAgentCloudflare部署基础设施

📄 论文 16 篇

今日 RAG 论文扎堆,「GDP-RAG」只问信息差、「SproutRAG」与「MCompassRAG」分别用注意力树搜索与主题元数据优化检索,值得做检索增强的团队对照参考。

Factored Gossip DiLoCo: Reducing Blocking Communication in DiLoCo

ICML 2026CCF-A推荐arXiv · 06-22 10:15 UTC+8

该工作改造分布式低通信训练方法「DiLoCo」,把外层同步从精确同步放松为基于「gossip」混合的近似同步,并因子化为非阻塞通信。这使得在数据中心高带宽环境之外也能优雅应对掉队节点与瞬时通信故障,对在异构、低带宽集群上做大规模分布式训练的从业者有直接价值。

Infra分布式训练通信优化DiLoCoAI Infra
Chamin Hewa Koneputugodage, Thalaiyasingam Ajanthan, Sameera Ramasinghe, Hadi Mohaghegh Dolatabadi, Shamane Siriwardhana, Gil Avraham, Violetta Shevchenko, Karol Pajak
📖 阅读⬇ PDF

CFPO: Counterfactual Policy Optimization for Multimodal Reasoning

ICML 2026CCF-A推荐arXiv · 06-22 19:51 UTC+8

针对大型视觉语言模型在多模态推理中常忽视视觉证据、依赖语言先验导致幻觉的问题,提出「反事实策略优化(CFPO)」,在强化学习范式中引入显式反事实增强与因果学习机制。对做多模态对齐、抑制长链推理幻觉漂移的研究者与工程团队是一种可借鉴的视觉接地方案。

后训练多模态强化学习视觉语言模型对齐
Zhangyuan Yu, Wanran Sun, Guangjing Yang, Xiaohu Wu, Qicheng Lao
📖 阅读⬇ PDF

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

HF 精选 · 06-22 08:00 UTC+8

提出「WorldLines」基准,通过家居场景评测具身智能体的长期记忆能力,并配套「ObsMem」框架以应对部分可观测下的记忆翻译与决策难题。对研究长时程、有状态具身 Agent 的记忆与规划的团队提供了评测标尺与建模参考。

Agent具身智能Agent记忆长时程评测基准
📖 阅读⬇ PDF

Scaling LLM Knowledge Boundaries via Distribution-Optimized Synthesis

EMNLP 2026CCF-B推荐蚂蚁arXiv · 06-22 20:50 UTC+8

从知识分布视角重新审视用合成数据做知识注入的问题,指出现有方法只按预设 token 量或固定配比生成、缺乏对知识分布的感知,导致部分领域稀疏、部分冗余。作者假设存在最优知识分布以最大化模型知识边界扩展,对做合成数据工程与持续预训练的从业者有方法论启发。

训练合成数据知识注入预训练数据工程
Songze Li, Yarong Lan, Zhongpu Bo, Zhaoyang Wang, Zhiqiang Liu, Yuan Yuan, Chengtao Gan, Menghao Qian
📖 阅读⬇ PDF

Characterizing Narrative Content in Web-scale LLM Pretraining Data

HF 精选 · 06-22 08:00 UTC+8

对网络规模大模型预训练数据中的叙事内容做系统刻画,发现叙事结构存在可度量、多维的模式,并随内容来源与主题差异而变化。对关注预训练数据质量、配比与可解释性的数据工程与对齐研究者提供了新的数据透视角度。

训练预训练数据数据分析叙事结构数据工程
📖 阅读⬇ PDF

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

HF 精选 · 06-22 08:00 UTC+8

研究发现多模态大模型的社会偏见主要由少数人类视觉线索驱动,其中时尚风格与社会经济线索对模型判断影响最大。提出「StylisticBias」视角,对评估与缓解多模态模型公平性、做偏见审计的从业者具有警示意义。

后训练多模态社会偏见公平性评测
📖 阅读⬇ PDF

Only Ask What You Don't Know: Grounded Delta Planning for Efficient Multi-step RAG

COLM 2026arXiv · 06-22 05:46 UTC+8

提出「GDP-RAG(Grounded Delta Planning RAG)」,针对多跳问答中迭代检索易传播错误、推理步骤过度生成抬高成本的问题,仅针对信息差做规划:先做初步检索为规划接地,再用差距条件化的规划策略只问尚未知晓的信息。对做多步 RAG、平衡准确率与成本的工程团队很有借鉴价值。

推理优化RAG多跳问答规划Agent
Wei-Chieh Chou, Xuanjun Chen, Jian-Ren Lin, Claire Lin, Hung-yi Lee, Jyh-Shing Roger Jang
📖 阅读⬇ PDF

Orthogonal Representation Editing: Decoupling Semantic Entanglement in Batch Knowledge Editing of LLMs

ACL 2026CCF-A推荐腾讯混元arXiv · 06-22 02:29 UTC+8

提出「正交表示编辑(ORE)」,针对批量知识编辑中因重叠概念与共享句法导致的语义表示纠缠、累积干扰问题,通过正交化解耦表示空间以提升编辑精度。对做大模型知识更新、免全量重训的研究者是一种降低批量编辑相互干扰的新方法。

后训练知识编辑模型编辑表示学习大模型
Wenhao Yu, Zhicong Lu, Bo Lv, Fangyin Ma, Kaiwen Wei, Shihao Yang, Nayu Liu
📖 阅读⬇ PDF

MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

HF 精选 · 06-22 08:00 UTC+8

提出「MemSlides」,一个层次化记忆驱动的个性化幻灯片生成 Agent 框架,将长期用户画像、会话约束的工作记忆与可复用执行经验的工具记忆分离,从而在多轮局部修订中实现稳定个性化与可靠的局部编辑。对设计具备记忆架构的生产力类 Agent 的开发者有工程参考。

Agent记忆架构个性化多轮编辑
📖 阅读⬇ PDF

Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations

HF 精选 · 06-22 08:00 UTC+8

提出把示例蒸馏为任务指令的方法以增强上下文学习,用于真实世界 B2B 对话分类,在大幅削减约 99% token 用量的同时提升性能,并随上下文增长保持鲁棒。对在生产环境用 ICL 做分类、关注成本与稳定性的从业者很实用。

后训练上下文学习指令蒸馏对话分类成本优化
📖 阅读⬇ PDF

Stationary Robust Mean-Field Games under Model Mismatches

UAI 2026CCF-B推荐arXiv · 06-22 00:29 UTC+8

研究模型失配下的平稳鲁棒平均场博弈,针对多智能体强化学习中训练模拟器与真实环境失配、并经策略互动被放大而导致性能骤降的问题,用分布鲁棒优化对最坏情形转移模型做策略优化。对做大规模多智能体 RL 鲁棒部署的研究者具有理论价值。

Agent多智能体强化学习鲁棒优化平均场博弈
Yue Wang
📖 阅读⬇ PDF