🗂 历史归档
每日 AI 速览

2026-06-22

生成于 2026-06-23 04:06

今日导语

今天最密集的主线是「记忆」——从多主体共享记忆治理基准「GateMem」、长时序具身记忆「WorldLines」,到分层记忆驱动的幻灯片智能体「MemSlides」与七种智能体记忆类型综述,记忆正从功能点上升为智能体可靠落地的核心议题,DeepSeek 急聘 Agent 人才更印证赛道升温。其次是扩散语言模型的推进:「PerceptionDLM」并行区域感知与「Reflective Masking」多轮反思精修,把非自回归路线推向感知与推理。AI Infra 同样热闹:MoonMath 开源 MI300X 上超越官方的 HIP 注意力内核,英伟达在 ISC 以 Vera CPU、JUPITER 超算与科学 AI 软件全面发力,llama.cpp 则密集迭代多模态输入与服务端稳定性。

🗞 行业动态 26 条

MoonMath AI Open-Sources a HIP Attention Kernel for AMD MI300X That Beats AITER v3 on Every Shape and Rounding Mode

MarkTechPost · 06-22 15:13 UTC+8

MoonMath AI 开源了面向 AMD MI300X 的 HIP 注意力内核,借助单指令汇编封装与八波次流水线,在各种形状与舍入模式下全面超越 AMD 官方的「AITER v3」。对做国产/非英伟达算力推理优化的团队而言,这是 MI300X 上注意力算子性能的一次实打实提升,强化了 AMD 生态的可用性。

AI Infra算子优化AMD推理优化

Sakana AI's Fugu orchestrates multiple LLMs to match Anthropic's Fable and Mythos benchmarks

The Decoder · 06-22 16:18 UTC+8

日本初创 Sakana AI 推出「Fugu」,通过即时编排多个大模型协同工作,在能力上对标 Anthropic 的「Fable 5」与「Mythos」基准,同时降低对单一模型供应商的依赖。对关注多模型路由与厂商解耦的从业者而言,它代表了用编排而非单一巨模型来逼近前沿能力的另一条路线。

Agent大模型多模型编排厂商动态

入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习

量子位 · 06-22 11:48 UTC+8

清华一项入选 ECCV 2026 的工作开源了空间模型,能边看 120 分钟长视频边记忆,在评测中击败「Gemini」,主张真正的空间智能应在世界变化中持续学习。对做空间智能与长视频理解的团队而言,它把持续学习与长时记忆引入空间推理,提供了开源可复现的基线。

基座多模态基座空间智能长视频持续学习

b9760

llama.cpp · 06-22 23:24 UTC+8

「llama.cpp」发布 b9760 版本,重构并通用化了 server 的输入文件 schema,接入「input_video」并支持原始 base64 输入。对本地化部署多模态服务的开发者而言,这为在 llama.cpp 服务端统一处理图像、视频等多模态输入打下了基础。

推理优化AI Infrallama.cpp本地部署多模态

NVIDIA Vera CPU Opens the Way for Agentic Scientific AI at Los Alamos National Laboratory

NVIDIA 博客 · 06-22 21:00 UTC+8

英伟达宣布洛斯阿拉莫斯国家实验室将基于「Vera CPU」与「Vera Rubin」平台、采用 HPE Cray GX5000 架构建造新超算,为科学发现解锁智能体式 AI。对关注 AI 基础设施与科研算力的读者而言,这显示 Vera 系列 CPU 开始进入顶级科学计算场景。

InfraAI InfraNVIDIA超算芯片

b9758

llama.cpp · 06-22 20:22 UTC+8

「llama.cpp」b9758 为 SYCL 后端的 bin_bcast 与一元算子增加 bf16 支持,并兼容 2026.0 之前的旧版 Intel 编译器。对在 Intel GPU 上跑推理的开发者而言,这扩大了 bf16 算子覆盖面并放宽了工具链版本要求。

推理优化AI Infrallama.cppSYCL算子支持

阿里发布视频生成模型HappyHorse 1.1:五大维度全面升级

量子位 · 06-22 15:30 UTC+8

阿里发布视频生成模型「HappyHorse 1.1」,在五大维度上全面升级。对关注视频生成与多模态生成的从业者而言,这是国产视频生成模型的又一次迭代,值得跟进其能力边界与可用性。

基座多模态基座视频生成厂商动态阿里

The 7 Types of Agent Memory: A Technical Guide for AI Engineers

MarkTechPost · 06-22 07:12 UTC+8

MarkTechPost 整理了智能体记忆的七种类型——工作、语义、情景、程序、检索、参数化与前瞻记忆,逐一说明各自存什么、存在哪里、何时该构建,并附对比表与可运行的 Python 代码。对搭建有状态智能体的工程师而言,这是一份梳理记忆体系设计的实用参考。

Agent记忆工程实践

b9752

llama.cpp · 06-22 03:01 UTC+8

「llama.cpp」b9752 重构了 server 的批次构建逻辑,加入更稳健的批满处理与 abort_all_slots 等机制。对运行 llama.cpp 服务端的团队而言,这有助于提升并发调度的稳定性与吞吐表现。

推理优化AI Infrallama.cppserving批处理

Enable Real-Time AI for High-Speed Data Acquisition with DAQIRI

NVIDIA 开发者 · 06-22 23:00 UTC+8

英伟达介绍「DAQIRI」库,为高速数据采集启用实时 AI,并以 AlphaFold2 依赖海量蛋白结构数据为例说明实时处理的价值。对做科学实验数据流与实时推理的团队而言,它提供了把 AI 嵌入高速采集管线的工具。

InfraAI Infra科学计算实时推理NVIDIA

At ISC, JUPITER Shows What Exascale Science Looks Like

NVIDIA 博客 · 06-22 21:00 UTC+8

欧洲首台百亿亿次超算「JUPITER」基于英伟达「Grace Hopper」超级芯片与「Quantum-X800」InfiniBand 网络,在 ISC 大会上展示了从人脑制图到多领域科学计算的四个项目。对关注大规模 AI 算力的读者而言,它勾勒了百亿亿次级算力在真实科研中的落地图景。

InfraAI Infra超算NVIDIA科学计算

NAIRR Science Program Reshapes Scientific Research, Powered by NVIDIA AI Infrastructure

NVIDIA 博客 · 06-22 21:00 UTC+8

美国国家科学基金会的「NAIRR」试点项目在两年间依托英伟达 AI 基础设施支撑了 700 多个科研项目,涵盖蛋白预测与传染病暴发管理等。对关注 AI 算力普惠与科研生态的读者而言,它展示了国家级共享算力资源对科学研究的推动作用。

InfraAI Infra科研生态NVIDIA算力普惠

b9757

llama.cpp · 06-22 19:48 UTC+8

「llama.cpp」b9757 在 top-n-sigma 采样器中移除了无条件的 softmax 与排序操作,优化采样性能。对追求本地推理低延迟的开发者而言,这是一处减少采样阶段冗余计算的细粒度提速。

推理优化AI Infrallama.cpp采样优化

b9754

llama.cpp · 06-22 05:57 UTC+8

「llama.cpp」b9754 实现了基于 PEG 的 ac 解析器,用于更严格的语法生成约束。对依赖结构化输出与受约束解码的开发者而言,这提升了在本地模型上进行语法约束生成的可靠性。

推理优化AI Infrallama.cpp结构化输出受约束解码

viable/strict/1782150900: MPS: reject complex inputs in avg_pool templates (#187671)

PyTorch · 06-22 21:29 UTC+8

「PyTorch」的一处 MPS 改动让 avg_pool 模板在收到复数输入时返回 NotImplemented,与 CPU/CUDA 行为对齐,并补充了回归测试。对在 Apple Silicon 上做模型开发的工程师而言,这修正了一处后端行为不一致的边角问题。

InfraAI InfraPyTorchMPSBug修复

Daybreak: Tools for securing every organization in the world

OpenAI · 06-22 18:00 UTC+8

OpenAI 推出「Daybreak」安全工具套件,包含「Codex Security」与「GPT-5.5-Cyber」,帮助组织规模化地发现、验证并修补漏洞。对关注 AI 安全与厂商动态的从业者而言,这是 OpenAI 把模型能力推向自动化攻防与漏洞治理的重要一步。

厂商动态OpenAIAI安全代码模型

Samsung rolls out ChatGPT Enterprise and Codex to employees in South Korea

The Decoder · 06-22 17:40 UTC+8

三星电子向其韩国全体员工以及全球 DX 部门人员部署「ChatGPT Enterprise」与「Codex」。对关注 AI 企业落地与厂商生态的读者而言,这是大型制造企业规模化采用 OpenAI 工具提升研发与办公效率的标志性案例。

厂商动态OpenAI企业落地

b9756

llama.cpp · 06-22 17:34 UTC+8

「llama.cpp」b9756 修复了 edit_file 在文件末尾追加时(line_start 为 -1)导致的堆缓冲区溢出崩溃,规范化了越界插入位置并限制 -1 仅用于追加模式。对使用其文件编辑能力的开发者而言,这消除了一处可能引发崩溃的内存安全隐患。

InfraAI Infrallama.cppBug修复内存安全

viable/strict/1782139286

PyTorch · 06-22 16:15 UTC+8

「PyTorch」新增「@dynamic_spec」装饰器,用于把 ShapesSpec 形状规格附加到函数上。对做编译优化与动态形状处理的开发者而言,这为声明式地标注张量形状约束提供了更便捷的接口。

InfraAI InfraPyTorch动态形状编译优化

DeepSeek缺Agent人才缺疯了!负责人各种贴广告

量子位 · 06-22 13:09 UTC+8

据报道,DeepSeek 正全力押注智能体方向,急缺 Agent 人才,相关负责人四处发布招聘广告。对观察大模型厂商战略的读者而言,这一信号显示 DeepSeek 正把 Agent 作为下一阶段的重点投入方向。

厂商动态DeepSeekAgent人才

Temporary Cloudflare Accounts for AI agents

Simon Willison · 06-22 06:01 UTC+8

Cloudflare 推出面向 AI 智能体的临时账户:无需注册账号即可用 wrangler 一键部署 Workers 项目,临时项目存活 60 分钟。对开发智能体与自动化工作流的工程师而言,这降低了让智能体自主部署与试验代码的门槛。

Agent开发工具部署Cloudflare

b9753

llama.cpp · 06-22 03:25 UTC+8

「llama.cpp」b9753 修复了加载推测解码模型时的进度上报问题,并新增了「stages」阶段列表。对使用投机采样加速本地推理的开发者而言,这改善了模型加载过程的可观测性。

InfraAI Infrallama.cpp推测解码可观测性

b9751

llama.cpp · 06-22 02:36 UTC+8

「llama.cpp」b9751 修复了多模态模块中 mtmd_get_memory_usage 的统计问题。对在本地运行多模态模型并需监控显存占用的开发者而言,这让内存用量上报更为准确。

InfraAI Infrallama.cpp多模态内存统计

📄 论文 10 篇

今日论文看点:记忆与扩散语言模型双线并进——「GateMem」「WorldLines」把多主体治理与长时序具身记忆做成可量化基准,「PerceptionDLM」与「Reflective Masking」则为扩散语言模型补上并行感知与多轮反思能力。

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

字节 SeedHF 精选 · 06-22 08:00 UTC+8

提出「PerceptionDLM」,在多模态扩散语言模型中通过结构化注意力掩码与高效提示实现并行的区域级感知,在不损失描述质量的前提下显著加快推理速度。对从业者而言,它把扩散式语言模型的并行解码优势引入视觉理解,为多区域定位与描述类任务提供了一条更快的推理路径。

基座多模态基座扩散语言模型推理优化
📖 阅读⬇ PDF

GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning

HF 精选 · 06-22 08:00 UTC+8

「GeneralVLA-2」针对视觉-语言-动作系统的短板,引入「GeoFuse-MV3D」提升三维重建质量,并用增强版「KnowledgeBank」改进机器人操作中的记忆管理。对做具身智能与机器人规划的团队而言,它把几何感知重建与受治理的记忆结合,提升了复杂操作任务的规划可靠性。

Agent具身智能VLA模型机器人规划记忆
📖 阅读⬇ PDF

Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations

HF 精选 · 06-22 08:00 UTC+8

该工作把示例蒸馏进任务指令,用于真实场景的 B2B 对话分类,在提升性能的同时把 token 用量削减约 99%,并在上下文变长时保持稳健。对落地团队意味着可以用极低的提示成本获得稳定的上下文学习效果,直接降低推理开销。

训练上下文学习提示工程成本优化
📖 阅读⬇ PDF

GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

HF 精选 · 06-22 08:00 UTC+8

「GateMem」为多主体共享记忆智能体提出记忆治理基准,揭示当前记忆智能体在效用、访问控制与遗忘之间难以平衡,导致难以在多授权方共用的机构场景可靠部署。对构建企业级共享记忆系统的从业者而言,它把权限隔离与遗忘策略提上议程,提供了可量化的评测标尺。

Agent记忆评测基准访问控制
📖 阅读⬇ PDF

MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

HF 精选 · 06-22 08:00 UTC+8

「MemSlides」提出分层记忆驱动的幻灯片生成智能体,将长期用户画像、会话级工作记忆与可复用的工具记忆分离,从而在多轮修订中实现稳定的个性化和可靠的局部编辑。对做文档/演示类智能体的开发者而言,这种记忆分层范式为多轮交互下的稳定性与可控编辑提供了模板。

Agent记忆多轮交互文档生成
📖 阅读⬇ PDF

SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

HF 精选 · 06-22 08:00 UTC+8

「SproutRAG」是面向长文档检索增强的注意力引导树搜索框架,利用学习到的句间注意力把句级片段组织成语义连贯单元,无需额外大模型调用或摘要即可实现多粒度检索。对搭建长文档问答的工程团队而言,它在不增加 LLM 开销的情况下提升了检索的层次性与精度。

InfraRAG检索长文档AI Infra
📖 阅读⬇ PDF

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

HF 精选 · 06-22 08:00 UTC+8

「WorldLines」通过家庭场景评测具身智能体的长期记忆,配套的「ObsMem」框架则针对部分可观测与记忆转译难题改进决策。对研究长时序、有状态具身智能体的团队而言,它提供了衡量长程记忆与在不完全观测下规划能力的基准与方法。

Agent具身智能记忆评测基准长时序
📖 阅读⬇ PDF

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

HF 精选 · 06-22 08:00 UTC+8

「StylisticBias」发现多模态大模型的社会偏见主要由少数视觉线索驱动,其中穿着风格与社会经济地位线索对模型判断影响最大。对做多模态对齐与安全的从业者而言,它指出了偏见的具体触发因子,为有针对性的去偏与评测提供了切入点。

基座多模态偏见与对齐安全评测
📖 阅读⬇ PDF