MoonMath AI 开源了面向 AMD MI300X 的 HIP 注意力内核,借助单指令汇编封装与八波次流水线,在各种形状与舍入模式下全面超越 AMD 官方的「AITER v3」。对做国产/非英伟达算力推理优化的团队而言,这是 MI300X 上注意力算子性能的一次实打实提升,强化了 AMD 生态的可用性。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
MoonMath AI 开源了面向 AMD MI300X 的 HIP 注意力内核,借助单指令汇编封装与八波次流水线,在各种形状与舍入模式下全面超越 AMD 官方的「AITER v3」。对做国产/非英伟达算力推理优化的团队而言,这是 MI300X 上注意力算子性能的一次实打实提升,强化了 AMD 生态的可用性。
Sakana AI's Fugu orchestrates multiple LLMs to match Anthropic's Fable and Mythos benchmarks
日本初创 Sakana AI 推出「Fugu」,通过即时编排多个大模型协同工作,在能力上对标 Anthropic 的「Fable 5」与「Mythos」基准,同时降低对单一模型供应商的依赖。对关注多模型路由与厂商解耦的从业者而言,它代表了用编排而非单一巨模型来逼近前沿能力的另一条路线。
入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
清华一项入选 ECCV 2026 的工作开源了空间模型,能边看 120 分钟长视频边记忆,在评测中击败「Gemini」,主张真正的空间智能应在世界变化中持续学习。对做空间智能与长视频理解的团队而言,它把持续学习与长时记忆引入空间推理,提供了开源可复现的基线。
「llama.cpp」发布 b9760 版本,重构并通用化了 server 的输入文件 schema,接入「input_video」并支持原始 base64 输入。对本地化部署多模态服务的开发者而言,这为在 llama.cpp 服务端统一处理图像、视频等多模态输入打下了基础。
NVIDIA Vera CPU Opens the Way for Agentic Scientific AI at Los Alamos National Laboratory
英伟达宣布洛斯阿拉莫斯国家实验室将基于「Vera CPU」与「Vera Rubin」平台、采用 HPE Cray GX5000 架构建造新超算,为科学发现解锁智能体式 AI。对关注 AI 基础设施与科研算力的读者而言,这显示 Vera 系列 CPU 开始进入顶级科学计算场景。
「llama.cpp」b9758 为 SYCL 后端的 bin_bcast 与一元算子增加 bf16 支持,并兼容 2026.0 之前的旧版 Intel 编译器。对在 Intel GPU 上跑推理的开发者而言,这扩大了 bf16 算子覆盖面并放宽了工具链版本要求。
阿里发布视频生成模型HappyHorse 1.1:五大维度全面升级
阿里发布视频生成模型「HappyHorse 1.1」,在五大维度上全面升级。对关注视频生成与多模态生成的从业者而言,这是国产视频生成模型的又一次迭代,值得跟进其能力边界与可用性。
The 7 Types of Agent Memory: A Technical Guide for AI Engineers
MarkTechPost 整理了智能体记忆的七种类型——工作、语义、情景、程序、检索、参数化与前瞻记忆,逐一说明各自存什么、存在哪里、何时该构建,并附对比表与可运行的 Python 代码。对搭建有状态智能体的工程师而言,这是一份梳理记忆体系设计的实用参考。
「llama.cpp」b9752 重构了 server 的批次构建逻辑,加入更稳健的批满处理与 abort_all_slots 等机制。对运行 llama.cpp 服务端的团队而言,这有助于提升并发调度的稳定性与吞吐表现。
Enable Real-Time AI for High-Speed Data Acquisition with DAQIRI
英伟达介绍「DAQIRI」库,为高速数据采集启用实时 AI,并以 AlphaFold2 依赖海量蛋白结构数据为例说明实时处理的价值。对做科学实验数据流与实时推理的团队而言,它提供了把 AI 嵌入高速采集管线的工具。
At ISC, JUPITER Shows What Exascale Science Looks Like
欧洲首台百亿亿次超算「JUPITER」基于英伟达「Grace Hopper」超级芯片与「Quantum-X800」InfiniBand 网络,在 ISC 大会上展示了从人脑制图到多领域科学计算的四个项目。对关注大规模 AI 算力的读者而言,它勾勒了百亿亿次级算力在真实科研中的落地图景。
NAIRR Science Program Reshapes Scientific Research, Powered by NVIDIA AI Infrastructure
美国国家科学基金会的「NAIRR」试点项目在两年间依托英伟达 AI 基础设施支撑了 700 多个科研项目,涵盖蛋白预测与传染病暴发管理等。对关注 AI 算力普惠与科研生态的读者而言,它展示了国家级共享算力资源对科学研究的推动作用。
英伟达在 ISC 大会推出加速科学 AI 的新软件,包括「DAQIRI」库、「ALCHEMI」NIM 微服务以及即将发布的「cuPhoton」参考代码,覆盖化学材料发现到暗物质探索。对科学计算从业者而言,这套软件把多领域科研工作流的 AI 加速进一步产品化。
「llama.cpp」b9757 在 top-n-sigma 采样器中移除了无条件的 softmax 与排序操作,优化采样性能。对追求本地推理低延迟的开发者而言,这是一处减少采样阶段冗余计算的细粒度提速。
「llama.cpp」b9754 实现了基于 PEG 的 ac 解析器,用于更严格的语法生成约束。对依赖结构化输出与受约束解码的开发者而言,这提升了在本地模型上进行语法约束生成的可靠性。
viable/strict/1782150900: MPS: reject complex inputs in avg_pool templates (#187671)
「PyTorch」的一处 MPS 改动让 avg_pool 模板在收到复数输入时返回 NotImplemented,与 CPU/CUDA 行为对齐,并补充了回归测试。对在 Apple Silicon 上做模型开发的工程师而言,这修正了一处后端行为不一致的边角问题。
「PyTorch」将主 Linux CI 镜像从 conda 切换为 deadsnakes 加 venv 的 Python 安装方式,并通用化安装脚本以支持自由线程解释器等选项。对参与框架开发或自建 CI 的团队而言,这是一处工程基建层面的环境标准化改动。
Daybreak: Tools for securing every organization in the world
OpenAI 推出「Daybreak」安全工具套件,包含「Codex Security」与「GPT-5.5-Cyber」,帮助组织规模化地发现、验证并修补漏洞。对关注 AI 安全与厂商动态的从业者而言,这是 OpenAI 把模型能力推向自动化攻防与漏洞治理的重要一步。
复旦大学教授邱锡鹏确认出席AICon上海站,分享MOSS 多模态模型的创新与实践
复旦大学教授邱锡鹏确认出席 AICon 上海站,将分享「MOSS」多模态模型的创新与实践。对关注国产大模型与学术动态的读者而言,这预告了 MOSS 在多模态方向最新进展的对外分享。
Samsung rolls out ChatGPT Enterprise and Codex to employees in South Korea
三星电子向其韩国全体员工以及全球 DX 部门人员部署「ChatGPT Enterprise」与「Codex」。对关注 AI 企业落地与厂商生态的读者而言,这是大型制造企业规模化采用 OpenAI 工具提升研发与办公效率的标志性案例。
「llama.cpp」b9756 修复了 edit_file 在文件末尾追加时(line_start 为 -1)导致的堆缓冲区溢出崩溃,规范化了越界插入位置并限制 -1 仅用于追加模式。对使用其文件编辑能力的开发者而言,这消除了一处可能引发崩溃的内存安全隐患。
「PyTorch」新增「@dynamic_spec」装饰器,用于把 ShapesSpec 形状规格附加到函数上。对做编译优化与动态形状处理的开发者而言,这为声明式地标注张量形状约束提供了更便捷的接口。
据报道,DeepSeek 正全力押注智能体方向,急缺 Agent 人才,相关负责人四处发布招聘广告。对观察大模型厂商战略的读者而言,这一信号显示 DeepSeek 正把 Agent 作为下一阶段的重点投入方向。
Temporary Cloudflare Accounts for AI agents
Cloudflare 推出面向 AI 智能体的临时账户:无需注册账号即可用 wrangler 一键部署 Workers 项目,临时项目存活 60 分钟。对开发智能体与自动化工作流的工程师而言,这降低了让智能体自主部署与试验代码的门槛。
「llama.cpp」b9753 修复了加载推测解码模型时的进度上报问题,并新增了「stages」阶段列表。对使用投机采样加速本地推理的开发者而言,这改善了模型加载过程的可观测性。
「llama.cpp」b9751 修复了多模态模块中 mtmd_get_memory_usage 的统计问题。对在本地运行多模态模型并需监控显存占用的开发者而言,这让内存用量上报更为准确。
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models
提出「PerceptionDLM」,在多模态扩散语言模型中通过结构化注意力掩码与高效提示实现并行的区域级感知,在不损失描述质量的前提下显著加快推理速度。对从业者而言,它把扩散式语言模型的并行解码优势引入视觉理解,为多区域定位与描述类任务提供了一条更快的推理路径。
📖 阅读⬇ PDFGeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning
「GeneralVLA-2」针对视觉-语言-动作系统的短板,引入「GeoFuse-MV3D」提升三维重建质量,并用增强版「KnowledgeBank」改进机器人操作中的记忆管理。对做具身智能与机器人规划的团队而言,它把几何感知重建与受治理的记忆结合,提升了复杂操作任务的规划可靠性。
📖 阅读⬇ PDF该工作把示例蒸馏进任务指令,用于真实场景的 B2B 对话分类,在提升性能的同时把 token 用量削减约 99%,并在上下文变长时保持稳健。对落地团队意味着可以用极低的提示成本获得稳定的上下文学习效果,直接降低推理开销。
📖 阅读⬇ PDFGateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents
「GateMem」为多主体共享记忆智能体提出记忆治理基准,揭示当前记忆智能体在效用、访问控制与遗忘之间难以平衡,导致难以在多授权方共用的机构场景可靠部署。对构建企业级共享记忆系统的从业者而言,它把权限隔离与遗忘策略提上议程,提供了可量化的评测标尺。
📖 阅读⬇ PDF「MemSlides」提出分层记忆驱动的幻灯片生成智能体,将长期用户画像、会话级工作记忆与可复用的工具记忆分离,从而在多轮修订中实现稳定的个性化和可靠的局部编辑。对做文档/演示类智能体的开发者而言,这种记忆分层范式为多轮交互下的稳定性与可控编辑提供了模板。
📖 阅读⬇ PDFMulti-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models
「Reflective Masking」通过轻量后训练让掩码扩散模型支持迭代式局部精修,无需改动架构即可实现多轮推理能力。对关注非自回归生成的研究者而言,它为扩散语言模型补上了自我反思与逐步修正这一关键能力。
📖 阅读⬇ PDFSproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG
「SproutRAG」是面向长文档检索增强的注意力引导树搜索框架,利用学习到的句间注意力把句级片段组织成语义连贯单元,无需额外大模型调用或摘要即可实现多粒度检索。对搭建长文档问答的工程团队而言,它在不增加 LLM 开销的情况下提升了检索的层次性与精度。
📖 阅读⬇ PDFMCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval
「MCompassRAG」用主题级元数据作为语义罗盘来引导分块选择,在复杂研究类任务中同时提升检索效率与精度。对做检索增强系统的从业者而言,它展示了以主题元数据做粗粒度筛选、再精排的轻量提效思路。
📖 阅读⬇ PDFWorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
「WorldLines」通过家庭场景评测具身智能体的长期记忆,配套的「ObsMem」框架则针对部分可观测与记忆转译难题改进决策。对研究长时序、有状态具身智能体的团队而言,它提供了衡量长程记忆与在不完全观测下规划能力的基准与方法。
📖 阅读⬇ PDFStylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
「StylisticBias」发现多模态大模型的社会偏见主要由少数视觉线索驱动,其中穿着风格与社会经济地位线索对模型判断影响最大。对做多模态对齐与安全的从业者而言,它指出了偏见的具体触发因子,为有针对性的去偏与评测提供了切入点。
📖 阅读⬇ PDF