MoonMath AI 开源了一款面向 AMD MI300X 的「HIP」注意力内核,借助单指令汇编封装与八波次流水线,在各种形状与舍入模式下均超越 AMD 官方的「AITER v3」。对关注 AMD 生态算子优化、推理性能与去 NVIDIA 依赖的 Infra 工程师值得关注。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
MoonMath AI 开源了一款面向 AMD MI300X 的「HIP」注意力内核,借助单指令汇编封装与八波次流水线,在各种形状与舍入模式下均超越 AMD 官方的「AITER v3」。对关注 AMD 生态算子优化、推理性能与去 NVIDIA 依赖的 Infra 工程师值得关注。
The 7 Types of Agent Memory: A Technical Guide for AI Engineers
一篇面向 AI 工程师的技术指南,系统拆解 Agent 记忆的七种类型:工作、语义、情景、程序、检索、参数化与前瞻记忆,讲清各自存什么、放在哪、何时构建,并附对比表与可运行的 Python 代码。对系统设计 Agent 记忆体系的开发者是一份实用入门梳理。
NVIDIA Vera CPU Opens the Way for Agentic Scientific AI at Los Alamos National Laboratory
NVIDIA 宣布洛斯阿拉莫斯国家实验室将基于「HPE Cray GX5000」架构与「NVIDIA Vera Rubin」平台建造三台超算(Mission、Vision、Veritas),采用 Vera CPU 为面向科学的智能体式 AI 加速。对关注 AI for Science、新一代 CPU/超算平台的从业者是重要硬件风向。
Daybreak: Tools for securing every organization in the world
OpenAI 推出「Daybreak」安全工具套件,含「Codex Security」与「GPT-5.5-Cyber」,帮助组织规模化地发现、验证并修复漏洞。这是大模型厂商把能力推向网络安全自动化的标志性动作,对安全工程与 AI 厂商战略观察者值得关注。
Sakana AI's Fugu orchestrates multiple LLMs to match Anthropic's Fable and Mythos benchmarks
日本初创 Sakana AI 推出「Fugu」系统,可在运行时动态编排协调多个大模型,以匹敌 Anthropic「Fable 5」等头部模型,同时降低对单一供应商的依赖。这是多模型编排路线对抗单一前沿模型的代表性尝试,对关注模型路由与厂商格局的读者有看点。
阿里发布视频生成模型HappyHorse 1.1:五大维度全面升级
阿里发布视频生成模型「HappyHorse 1.1」,宣称在五大维度全面升级。作为国内厂商在视频生成基座上的迭代,对关注多模态生成与国产模型厂商动态的读者值得留意,但目前公开细节有限。
入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
清华开源的空间智能模型入选「ECCV 2026」,据称在空间任务上打败「Gemini」,核心理念是真正的空间智能要在世界变化中持续学习,可一边观看 120 分钟长视频一边记忆。对关注空间智能、长视频理解与世界模型的研究者是值得关注的国产成果。
PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters
百度「PP-OCRv6」登陆 Hugging Face,支持 50 种语言,提供从 150 万到 3450 万参数的多档模型规模,覆盖轻量到更高精度需求。对需要在端侧或服务端部署多语种 OCR、做文档智能的工程团队是实用的现成选择。
llama.cpp 发布 b9758 版本,为「SYCL」后端的 bin_bcast 与一元算子增加 bf16 支持,并兼容早于 2026.0 的 Intel 编译器。对在 Intel 平台上用 llama.cpp 做本地推理、关注 bf16 算子覆盖的用户是一次实用更新。
llama.cpp 发布 b9757 版本,在 top-n-sigma 采样器中移除了无条件的 softmax 与排序操作,精简采样开销。对在意采样阶段性能与解码效率的本地推理用户是一处小而实在的优化。
报道称 DeepSeek 正全力押注 Agent 方向,急缺相关人才,负责人四处发布招聘广告。这透露出这家以基座模型见长的厂商正把战略重心向智能体延伸,对观察国产大模型厂商方向与人才流向的读者有信号意义。
llama.cpp 发布 b9752 版本,重构了服务端的批处理构建逻辑,更谨慎地处理批满情况并支持中止全部槽位,附带计时调试改进。对自建 llama.cpp server 做并发推理服务的工程团队是底层稳定性与吞吐相关的更新。
llama.cpp 发布 b9760 版本,重构并泛化了服务端的输入文件 schema,新增 input_video 支持并可接受原始 base64 输入。这显示其服务端正向多模态输入扩展,对用 llama.cpp 搭建多模态推理服务的开发者值得关注。
Enable Real-Time AI for High-Speed Data Acquisition with DAQIRI
NVIDIA 介绍「DAQIRI」库,为高速数据采集场景启用实时 AI,并以 AlphaFold2 依赖海量蛋白结构数据为引子说明实时采集与分析的价值。对做科学实验在线推理、实时数据管线的 AI4Science 团队有参考。
NAIRR Science Program Reshapes Scientific Research, Powered by NVIDIA AI Infrastructure
NVIDIA 介绍美国国家科学基金会「NAIRR」试点项目在两年间支撑了 700 多个科研项目,涵盖蛋白预测与传染病暴发管理等,NVIDIA 通过云端资源为研究者提供专用算力。对关注国家级 AI 算力基础设施与科研生态的读者有背景价值。
NVIDIA 在 ISC 大会发布面向科学的新软件,包括「DAQIRI」库、「ALCHEMI」NIM 微服务以及即将推出的「cuPhoton」参考代码,加速从化学、材料发现到暗物质搜寻的 AI 工作。对关注 AI for Science 工具链与 NIM 微服务生态的从业者值得留意。
复旦大学教授邱锡鹏确认出席AICon上海站,分享MOSS 多模态模型的创新与实践
复旦大学教授邱锡鹏确认出席 AICon 上海站,将分享「MOSS」多模态模型的创新与实践。对关注国产多模态基座进展与学界产业交流的读者是一则会议预告类信息。
Hotter Than a Hot Tub: The 45°C Breakthrough to Cool AI’s Biggest Machines
NVIDIA 介绍其最新 AI 服务器可将冷却液运行温度提高到 45 摄氏度,借更高的温度上限提升能效。对关注数据中心液冷、AI 集群能效与散热设计的 Infra 从业者是一则工程进展。
Samsung Electronics brings ChatGPT and Codex to employees
OpenAI 宣布三星电子向全球员工部署「ChatGPT Enterprise」与「Codex」,成为其规模最大的企业级 AI 落地之一。这体现大模型在大型制造企业的纵深渗透,对观察企业 AI 采用与 OpenAI 商业化的读者有参考。
llama.cpp 发布 b9754 版本,在 common/peg 中实现了 ac 解析器以支持更严格的语法生成,并做了函数抽取与整理。对依赖 llama.cpp 做受限解码、结构化输出语法约束的开发者是一处底层改进。
llama.cpp 发布 b9753 版本,修复了加载投机解码模型时的进度上报,并新增 stages 阶段列表。对使用投机解码加速、关注模型加载可观测性的本地推理用户是一处体验改进。
Getty Images strikes multi-year deal to put licensed photos in ChatGPT search
Getty Images 与 OpenAI 达成多年期授权协议,将把已授权图片接入 ChatGPT 搜索。这是版权图库与大模型厂商在合规内容供给上的合作,对关注 AI 数据版权、内容授权与商业化的读者有信号意义。
At ISC, JUPITER Shows What Exascale Science Looks Like
欧洲首台百亿亿次级超算「JUPITER」基于「NVIDIA Grace Hopper」超芯片与「Quantum-X800」InfiniBand 网络,已在人脑图谱等四个项目上展示百亿亿次科学计算能力。对关注超算架构、HPC 网络与 AI4Science 的从业者是一则平台级进展。
Patch the Planet: a Daybreak initiative to support open source maintainers
OpenAI 推出「Daybreak」旗下的「Patch the Planet」计划,借助 AI 与专家评审帮助开源维护者发现、验证并修复漏洞。这是大模型厂商面向开源软件供应链安全的公益性举措,对关注 AI 安全与开源生态的读者值得关注。
Temporary Cloudflare Accounts for AI agents
Cloudflare 推出面向 AI 智能体的临时账户能力:无需注册账户即可用 wrangler 一条命令把 Workers 项目临时部署 60 分钟。虽以 AI agent 为卖点,但对所有人都有用,对做 Agent 工具沙箱与快速部署的开发者是一项实用基础设施。
Factored Gossip DiLoCo: Reducing Blocking Communication in DiLoCo
该工作改造分布式低通信训练方法「DiLoCo」,把外层同步从精确同步放松为基于「gossip」混合的近似同步,并因子化为非阻塞通信。这使得在数据中心高带宽环境之外也能优雅应对掉队节点与瞬时通信故障,对在异构、低带宽集群上做大规模分布式训练的从业者有直接价值。
CFPO: Counterfactual Policy Optimization for Multimodal Reasoning
针对大型视觉语言模型在多模态推理中常忽视视觉证据、依赖语言先验导致幻觉的问题,提出「反事实策略优化(CFPO)」,在强化学习范式中引入显式反事实增强与因果学习机制。对做多模态对齐、抑制长链推理幻觉漂移的研究者与工程团队是一种可借鉴的视觉接地方案。
WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
提出「WorldLines」基准,通过家居场景评测具身智能体的长期记忆能力,并配套「ObsMem」框架以应对部分可观测下的记忆翻译与决策难题。对研究长时程、有状态具身 Agent 的记忆与规划的团队提供了评测标尺与建模参考。
📖 阅读⬇ PDFScaling LLM Knowledge Boundaries via Distribution-Optimized Synthesis
从知识分布视角重新审视用合成数据做知识注入的问题,指出现有方法只按预设 token 量或固定配比生成、缺乏对知识分布的感知,导致部分领域稀疏、部分冗余。作者假设存在最优知识分布以最大化模型知识边界扩展,对做合成数据工程与持续预训练的从业者有方法论启发。
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models
提出「PerceptionDLM」,借助结构化注意力掩码与高效提示,让多模态扩散语言模型实现并行区域感知,在不牺牲描述质量的前提下加速推理。对探索扩散式语言模型与多模态推理加速的研究者具有参考意义。
📖 阅读⬇ PDFMCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval
提出「MCompassRAG」,用主题级元数据作为语义罗盘来指导段落级检索的分块选择,在复杂研究任务中同时提升检索效率与精度。对优化 RAG 检索质量、降低无关上下文的工程团队是一种轻量增益思路。
📖 阅读⬇ PDFSproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG
提出「SproutRAG」,一种注意力引导的层次化检索框架,利用学习到的句间注意力把句级分块组织成语义连贯单元,实现多粒度检索且无需额外大模型调用或摘要。对做长文档 RAG、希望兼顾粒度与成本的从业者很实用。
📖 阅读⬇ PDFCharacterizing Narrative Content in Web-scale LLM Pretraining Data
对网络规模大模型预训练数据中的叙事内容做系统刻画,发现叙事结构存在可度量、多维的模式,并随内容来源与主题差异而变化。对关注预训练数据质量、配比与可解释性的数据工程与对齐研究者提供了新的数据透视角度。
📖 阅读⬇ PDFGeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning
「GeneralVLA-2」针对视觉-语言-动作系统的不足,引入「GeoFuse-MV3D」改进三维重建,并增强「KnowledgeBank」做更好的记忆管理,提升机器人操作规划能力。对做具身操作、VLA 模型与几何感知的机器人研究团队有参考价值。
📖 阅读⬇ PDFStylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
研究发现多模态大模型的社会偏见主要由少数人类视觉线索驱动,其中时尚风格与社会经济线索对模型判断影响最大。提出「StylisticBias」视角,对评估与缓解多模态模型公平性、做偏见审计的从业者具有警示意义。
📖 阅读⬇ PDFOnly Ask What You Don't Know: Grounded Delta Planning for Efficient Multi-step RAG
提出「GDP-RAG(Grounded Delta Planning RAG)」,针对多跳问答中迭代检索易传播错误、推理步骤过度生成抬高成本的问题,仅针对信息差做规划:先做初步检索为规划接地,再用差距条件化的规划策略只问尚未知晓的信息。对做多步 RAG、平衡准确率与成本的工程团队很有借鉴价值。
提出「正交表示编辑(ORE)」,针对批量知识编辑中因重叠概念与共享句法导致的语义表示纠缠、累积干扰问题,通过正交化解耦表示空间以提升编辑精度。对做大模型知识更新、免全量重训的研究者是一种降低批量编辑相互干扰的新方法。
提出「MemSlides」,一个层次化记忆驱动的个性化幻灯片生成 Agent 框架,将长期用户画像、会话约束的工作记忆与可复用执行经验的工具记忆分离,从而在多轮局部修订中实现稳定个性化与可靠的局部编辑。对设计具备记忆架构的生产力类 Agent 的开发者有工程参考。
📖 阅读⬇ PDFGateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents
提出「GateMem」基准,研究多主体共享记忆 Agent 中的记忆治理问题,聚焦在多个授权情境各异的主体之间平衡效用、访问控制与遗忘。对探索企业级、机构级共享记忆 Agent 部署与权限治理的团队提供了评测框架。
📖 阅读⬇ PDF提出把示例蒸馏为任务指令的方法以增强上下文学习,用于真实世界 B2B 对话分类,在大幅削减约 99% token 用量的同时提升性能,并随上下文增长保持鲁棒。对在生产环境用 ICL 做分类、关注成本与稳定性的从业者很实用。
📖 阅读⬇ PDFStationary Robust Mean-Field Games under Model Mismatches
研究模型失配下的平稳鲁棒平均场博弈,针对多智能体强化学习中训练模拟器与真实环境失配、并经策略互动被放大而导致性能骤降的问题,用分布鲁棒优化对最坏情形转移模型做策略优化。对做大规模多智能体 RL 鲁棒部署的研究者具有理论价值。