llama.cpp 发布 b9867 版本,主要为投机解码引入 spec-draft-p-min 参数并在 DFlash 路径下支持,同时为 dflash 加上 n_min 与 n_max 的双重保护。这类改动让投机解码的草稿接受策略更可控,本地推理用户可借此更精细地权衡草稿模型的激进程度与吞吐,是 llama.cpp 持续打磨推理性能的一环。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
llama.cpp 发布 b9867 版本,主要为投机解码引入 spec-draft-p-min 参数并在 DFlash 路径下支持,同时为 dflash 加上 n_min 与 n_max 的双重保护。这类改动让投机解码的草稿接受策略更可控,本地推理用户可借此更精细地权衡草稿模型的激进程度与吞吐,是 llama.cpp 持续打磨推理性能的一环。
llama.cpp 的 b9866 版本为 CUDA 上的 topk-moe 融合算子放开了 288 个专家的支持。此前该融合只接受 2 的幂次专家数(外加特判的 576),像 Step-3.7-Flash 这种 288 专家的模型只能回退到未融合的逐层路由链,在 batch 为 1 时每 token 要多跑约 330 个细碎图节点。由于 288 是 warp size 的整数倍、现有 kernel 本就能处理,这次改动直接把它接进融合路径,为这类 MoE 模型的本地推理显著减负。
阿里推出 Page Agent,一个以客户端 JavaScript 形式直接跑在网页里的 GUI 智能体:它把实时 DOM 当作文本来读,再根据自然语言指令去点击和输入。整套方案不需要截图、不用多模态模型、也不必改动后端。对想给现有网站快速加上自然语言操控能力的开发者来说,这条纯 DOM、轻量化的路线部署成本极低,是网页 Agent 的一种务实实现。
Anthropic is discussing a new custom chip with Samsung
Anthropic 正与三星洽谈合作开发一款定制 AI 芯片。此事发生在 OpenAI 联手博通官宣自研 AI 芯片约一周之后,显示头部大模型厂商纷纷向自研芯片延伸,试图摆脱对单一供应商的依赖、压低基础设施成本。对关注 AI Infra 与算力格局的人是一个值得留意的信号。
据报道,Anthropic 正与三星电子商谈代工一款定制 AI 芯片,项目尚处早期,但公司已招募芯片工程师。继 OpenAI 的『Jalapeño』之后,又一家头部 AI 公司下场做芯片以削减基础设施成本,同时 Anthropic 强调英伟达仍然重要、并非要取而代之。这反映出大模型厂商在算力自主与现有 GPU 生态之间的双轨策略。
llama.cpp 的 b9864 版本改进了服务端的 SSE 流式连接处理:对静默的 SSE 流每秒 ping 一次,只有连续 3 秒无响应才断开,避免慢速 prefill 期间把健康连接误杀。同时把 sse_ping_interval 做成每请求可配置的字段,全局默认仍保持 30 秒以不影响现有 API 客户端,而 WebUI 自己传 1 秒。对部署 llama.cpp 做在线服务、尤其长 prompt 场景的用户,连接稳定性更有保障。
GPT and Claude failed Bridgewater's finance tests because the right answers were never public
llama.cpp 的 b9862 版本移除了 gated_delta_net(GDN)之后的冗余 CUDA 拷贝。此前 GDN 会把循环状态快照写进输出尾部,图随即又把它们拷进 ssm_states_all;在 MTP 草稿长度为 3、目标解码 K=4 时会多出 4 次拷贝。改动让 CUDA 的 GDN kernel 直接把状态快照写进循环状态里,省掉这些多余拷贝,为带 GDN 的模型(如线性注意力/状态空间类)在 CUDA 上的解码提速。
Bridgewater(桥水)与 Mira Murati 创办的 Thinking Machines Lab 合作,基于 Qwen3-235B 微调出一个面向金融任务的模型,据其自测准确率达 84.7%,在成本约为对手十四分之一的情况下超过了 Gemini、Claude 和 GPT。有意思的是,GPT 和 Claude 之所以在桥水的金融测试上失手,是因为这些题的正确答案从未公开过、无法从预训练语料里学到。不过这些数字尚未经外部独立验证。对看好开源模型垂直微调、以低成本打特定领域的路线是个有力案例。
WebBrain 是一款开源、本地优先的 AI 浏览器 Agent,采用 MIT 许可,支持 Chrome 和 Firefox。它能读取页面、抽取数据,并通过 Ask 与 Act 两种模式自动完成多步任务,既可接本地模型(如 llama.cpp 或 Ollama)以保护隐私,也能连任意云端 API。对想要一个可自托管、注重隐私的浏览器自动化 Agent 的用户是个现成选择。
Meta Watermelon 🍉, Anthropic Samsung chips 🤝, autoresearch in practice 📈
TLDR AI 这期速览汇总了几条要闻:Meta 代号「Watermelon」的动向、Anthropic 与三星在芯片上的合作,以及自动化科研(autoresearch)在实践中的落地进展。属于面向从业者的每日行业情报梳理,方便快速把握当天大模型与 AI 圈的关键动态。
Simon Willison 发布 llm-coding-agent 0.1a0,这是又一个基于 Fable 5 的实验:他的 LLM 库已逐渐演化成一个 agent 框架,于是动手在其上搭一个类似 Claude Code 的简易编码 Agent。他先用模型生成项目 spec,再据此迭代实现,展示了如何用轻量库快速搭出一个可用的编码智能体,对想了解编码 Agent 最小实现的人有参考价值。
微软斥资 25 亿美元成立名为「Frontier Company」的新部门,把 6000 名工程师直接派驻到企业客户内部,目标是把 AI 嵌入客户的核心业务流程并追求可衡量的 ROI,而非停留在实验阶段。微软借此把自己定位成中立平台,区别于 OpenAI 和 Anthropic 那种通过自家部署公司推销自家模型的打法。这反映出 AI 落地竞争正从模型本身转向企业级交付与集成能力。
Best practices for multi-turn reinforcement learning in Amazon SageMaker AI
AWS 分享在 SageMaker AI 上做多轮强化学习训练的一整套工程实践,专门针对智能体跑多步、跨轮次交互这种难训场景。核心思路是先搭一个可信赖的训练环境、配好外部评测,再设计一个真正对齐终端任务的奖励函数,并管理智能体多轮运行后状态漂移带来的变化,最后盯住能提示何时该迭代的关键指标。对想把 Agent 用 RL 训起来的团队而言,是一份少见的把「训练环境可靠性」和「奖励对齐」讲透的落地指南。
亚马逊云科技推出 Lambda MicroVM,提供隔离式智能体与用户代码运行环境
亚马逊云科技推出基于 Lambda 的 MicroVM,为智能体和用户代码提供强隔离的运行沙箱。对做 Agent 的团队来说,这类轻量隔离环境正是让模型安全执行工具调用、跑不可信代码的关键基础设施。
Simon Willison 六月付费简报盘点了当月要闻,包括「Claude Fable 5」「GPT-5.6」发布与美国出口管制,并点名「GLM-5.2」成为当前最强开放权重模型,还抛出「Tokenmaxxing 时代已经结束」的判断。对追踪模型格局的人是一份浓缩的月度风向标。
PyTorch 主干回退了一个为 AMD gfx1250 架构加初始 ROCm 支持的提交,原因是它弄坏了 nightly 构建。属于框架日常的构建维护,对追踪 ROCm/AMD GPU 支持进度的人有参考意义。
trunk/89477563c36f8999e36518c1a8047e38965db7d1: Fix quantized ONNX gather export (#188272)
PyTorch 修复了量化 ONNX 的 gather 算子导出问题:导出前需先解包量化张量再做 lowering,与其他张量输入算子的处理保持一致。属于量化模型导出链路上的一处细节修复,做端侧或推理部署踩过类似坑的人会关心。
WorldClaw与百度智能云达成战略合作,文心5.0系列登陆WorldRouter
WorldClaw 与百度智能云达成战略合作,文心 5.0 系列模型上架 WorldRouter。对关注国产大模型分发渠道和厂商合纵连横的人是一条落地信号。
Vercel's Andrew Qu on why agents are a new kind of software
Vercel 软件负责人 Andrew Qu 讲述其智能体框架「eve」的诞生,以及为何智能体正成为一种全新形态的软件。他强调技能(skills)、沙箱和「可被智能体读取的网站」如今为何变得重要,对思考 Agent 时代应用架构该怎么变的开发者有启发。
一篇 RAG-Anything 教程,演示如何在 Colab 里搭一条能同时检索文本、表格、公式和图像的多模态 RAG 流水线。它把内容转成 RAG-Anything 的 content_list 格式灌入检索系统,再配上 OpenAI 的对话、视觉、嵌入函数,实测 naive、local、global、hybrid 四种检索模式。对想快速上手多模态检索的工程师是一份可跑通的动手样例。
被骂“退出AI竞赛”,Meta改行卖算力股价暴涨10%:卖铲子比淘金更赚?
Meta 被外界批评「退出 AI 竞赛」,转而改行卖算力,股价却因此暴涨 10%。文章借此讨论在 AI 淘金热里「卖铲子」是否比亲自淘金更赚钱,对判断大厂战略与算力生意逻辑的人值得一读。
Using DSPy to evaluate and improve Datasette Agent's SQL system prompts
Simon Willison 用「DSPy」来评测并优化 Datasette Agent 的 SQL 系统提示词,并在 Claude Code for web 上用「Claude Fable 5」跑了一个异步研究任务来自动摸索用法。对想用程序化方式而非手工调 prompt 的人,是一个真实可参考的 DSPy 实战案例。
llama.cpp 新版本增加了 llama_ftype_name() 公共 C API,用来暴露模型文件的量化类型名称,如「Q8_0」或「Q4_K - Medium」。对基于 llama.cpp 做端侧推理、需要在程序里读取模型量化格式的开发者是个实用的小改进。
大晓机器人首席科学家陶大程:世界模型的使命不是完整复制世界,而是精准支撑行动
大晓机器人首席科学家陶大程提出,世界模型的使命不是完整复制世界,而是精准支撑行动。这一观点对当下世界模型该往哪走的路线之争提供了一个偏实用主义的视角,做具身智能与世界模型的人会有共鸣。
文章主张音视频类 Agent 要从生成走向交付,就必须配上一套生产级的开发套件。对想把多模态生成能力真正做成可上线产品的团队,点出了工程化落地的缺口。
Meta's AI agent push is moving slower than Zuckerberg planned
扎克伯格在内部全员会上承认公司重组存在短板,围绕 AI 智能体做的组织调整推进得比计划要慢,而他的 AI 负责人却给出更乐观的说法。对观察 Meta AI 战略与执行落差的人是一条内部风向。
PyTorch 把两处 rstd 计算里的 1 / torch.sqrt(var + eps) 换成 torch.rsqrt(var + eps),涉及 LayerNorm 的 JVP 分解和逐样本梯度的 InstanceNorm 反向。改动附带了各精度路径下的数值影响对照,属于框架内部的数值一致性与性能微调。
viable/strict/1783075258: [xpu] Refine power handle for power_draw via pyzes 0.1.2 (#188256)
PyTorch 为 XPU 后端改进功耗读取,改为通过 pyzes 0.1.2 新增的 zesPowerGetProperties 显式获取电源句柄,同时保持对 0.1.1 的兼容至少一个发布周期。属于 Intel GPU 支持链路上的细节完善。
AIEWF Daily Dispatch: The great loops debate and the state of AI engineering
AI 工程师世界博览会的每日综述,记录了大会以一场关于「loops」的辩论收尾,并带来一份 AI 工程现状报告和聚焦「下一步该造什么」的闭幕主题演讲。对把握 AI 工程社区当下关注点的人是一份现场速览。
基石筑底|WAIC 2026算力:超节点与光互连,能否绕过单芯片的物理天花板?
面向 WAIC 2026 的算力话题预热,探讨超节点与光互连能否绕过单芯片的物理天花板。对关心大规模训练集群互连方案和算力扩展路径的人,是一个值得跟进的前瞻议题。
PyTorch 为 XPU 后端放宽了 test_combo_kernel_no_bench_persistent_redu 相关测试的容差。属于 Intel GPU 上的测试稳定性微调,对追踪 XPU 支持成熟度的人有参考。
Mark Zuckerberg tells staff that AI agents haven’t progressed as quickly as he’d hoped
据报道,扎克伯格在内部会议上向员工承认,AI 开发进展没有他此前期望的那么快。这与 Meta 高调押注 AI 智能体的姿态形成对照,是判断其真实进度的一条重要信号。
Agent 狂欢热潮下的冷思考:为什么规模化落地总是陷入僵局?
在 Agent 狂欢热潮下的一篇冷思考,追问为什么智能体的规模化落地总是陷入僵局。对已经过了概念验证、正卡在规模化生产这一关的团队,值得对照自省。
Simon Willison 转述 Geoffrey Litt 在 AIE 上的一个框架「理解方能参与」:当编码智能体构造的改动越来越大越复杂,你必须把代码理解到足以继续与模型协作的深度,否则会背上认知债、让理解与代码真实运作渐行渐远。对天天和编码 Agent 打交道的人是个很戳的提醒。
文章判断行业智能体时代正在到来,出行、货运两个领域率先破局。对寻找 Agent 垂直落地场景的人,提供了两个已经跑出苗头的行业样本。
文章探讨如何借助 AI Agent 实现热补丁的自动生成。把智能体用在运维和故障修复这类高价值场景,对做 AIOps 与自动化修复的团队是个值得关注的方向。
Scaling Laws for Grid-Based Approximate Nearest Neighbor Search in High Dimensions
这篇论文把「缩放律」的视角引入近似最近邻检索,系统比较了网格多探针(grid-based multiprobe)与图、树、划分等主流索引在维度升高时的表现。作者发现网格方法在高维下的退化速度明显更慢,缩放特性更优,因而在高维向量、且需要频繁重建索引的场景里意外地有竞争力。对做向量库和检索工程的人来说,这提示了在被 HNSW 一统天下的思维之外,网格路线在特定负载(写多、维度高)下值得重新评估。
📖 阅读⬇ PDFCombating Textual Noise and Redundancy: Entropy-Aware Dense Visual Token Pruning
视觉 token 剪枝是给多模态大模型提速的关键手段,但现有方法在面对密集指令和细粒度问题时常把关键线索一起剪掉。作者定位到两个病根:文本噪声在跨模态打分时四处弥散污染了相关性评估,以及标准 token 选择带来的特征碎片化。为此提出「熵感知」的密集视觉 token 剪枝方案,从信息熵角度筛选真正承载信息的 patch,在保住细粒度理解能力的同时压缩冗余,兼顾了加速与精度。
Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training
这项工作直面持续后训练里的一个诱人捷径——on-policy 自蒸馏。作者发现,靠模型自己产的 on-policy 数据做自蒸馏确实能加速领域内专精,但既挡不住灾难性遗忘,在分布外场景下还会直接崩掉。结论很干脆:光有 on-policy 数据不足以支撑持续学习,「更密集地自蒸馏」并不等于「更好」,想稳住持续学习还得引入别的数据或约束。对做持续微调、领域适配的团队是一记提醒。
📖 阅读⬇ PDFWARP: Weight-Space Analysis for Recovering Training Data Portfolios
WARP 是一个从公开模型权重反推其训练数据构成的框架,思路是把训练数据在权重空间里留下的「几何足迹」挖出来。它借助模型融合和特征抽取,分析权重的几何印记,进而推断这个模型大概用了哪些数据配比训练。对模型溯源、数据审计乃至知识产权与合规都有直接意义,也给「权重不泄露就安全」的假设提了个醒。
📖 阅读⬇ PDFMorphing into Hybrid Attention Models
FlashMorph 针对 Transformer 长上下文下的效率问题,把「哪些层该换成线性/高效注意力」这件事formalize成一个带预算约束的优化问题。它用可变形(morphable)模型加上线性化正则来做层选择,在给定算力预算内自动挑出最该改造的层,从而在长上下文场景下更聪明地构建混合注意力模型,兼顾效率与效果,而不是靠人手拍脑袋决定层的分配。
📖 阅读⬇ PDFBreaking Failure Cascades: Step-Aware Reinforcement Learning for Medical Multimodal Reasoning
MRPO 是一套面向医学多模态推理的强化学习方法,专治临床影像推理里「一步错、步步错」的级联失败。它不再只用最终答案的对错来给奖励,而是引入步级(step-wise)过程奖励,逐步校准推理链条,从源头切断错误的传播。实验显示其在临床影像推理任务上超过了已有方法,为医疗这种对推理可靠性要求极高的领域提供了更稳的训练信号。
📖 阅读⬇ PDFOptimizing Visual Generative Models via Distribution-wise Rewards
这项工作为视觉生成模型设计了一套新的强化学习框架,核心是用「分布级」奖励(distribution-wise rewards)替代逐样本奖励。传统 RL 微调容易把生成分布压窄、导致模式坍缩,而从整体分布层面给奖励能同时兼顾图像质量与多样性,还顺带缓解了计算效率问题。对做文生图对齐、想在提升画质的同时避免生成结果千篇一律的从业者很实用。
📖 阅读⬇ PDFFrom SRA to Self-Flow: Data Augmentation or Self-Supervision?
这篇论文追问扩散 Transformer 里自对齐(self-alignment)方法到底为什么有效,从 SRA 一路剖到自提出的 Self-Flow。作者的结论出人意料:性能提升主要来自沿噪声维度做的数据增强,而非此前普遍认为的不同噪声层之间的 token 交互。这把一个被当成「自监督」讲的机制重新解释成了「数据增强」,为理解和改进扩散模型的训练策略澄清了方向。
📖 阅读⬇ PDFAutoMem: Automated Learning of Memory as a Cognitive Skill
AutoMem 把大模型的记忆管理当成一项可训练的认知技能来对待,而不是靠外挂规则堆砌。它同时自动优化记忆的结构组织和调用记忆的熟练度两方面,让模型学会「怎么记、怎么取」。在长程(long-horizon)任务上带来了显著的性能提升,为 Agent 摆脱手工设计记忆模块、走向可学习记忆提供了一条路径。
📖 阅读⬇ PDFDuoMem: Towards Capable On-Device Memory Agents via Dual-Space Distillation
DuoMem 面向端侧记忆型 Agent,用「双空间蒸馏」把大模型的过程性解题能力搬进小模型:一路走上下文空间(context-space)蒸馏、一路走参数空间(parameter-space)蒸馏,双管齐下。结果是只加极少参数就让紧凑的学生模型学到接近大模型的解题本领,同时推理速度更快,很适合在设备端跑记忆 Agent 的落地需求。
📖 阅读⬇ PDFTransferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR
TAC(Transfer-Aware Curriculum)为多领域 RLVR 训练设计了一套自动课程:不再平均对待各领域,而是优先训练那些能广泛惠及其他领域的「高迁移价值」领域。它用梯度几何对齐来估计跨领域的迁移能力,据此排定学习顺序,从而更高效地培养模型的通用推理能力。对做多域强化学习、想让能力真正跨领域泛化的团队有直接借鉴。
📖 阅读⬇ PDFTowards Robustness against Typographic Attack with Training-free Concept Localization
CLIP 是当下绝大多数视觉语言大模型的视觉编码器底座,但它有个被忽视的致命弱点:图像里出现的无关文字会污染视觉表征,让模型偏向去读字面词义而非真正的视觉语义,这就是所谓的「排版攻击」(Typographic Attack)。本文提出一种无需训练的概念定位方法来抵御这种攻击,在推理时定位并抑制文字带来的干扰,从而提升 LVLM 视觉编码器面对图中文字时的鲁棒性。
Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs
这篇论文点破了 VLA(视觉-语言-动作)模型受制于专家演示数据稀缺的根本原因:它把「怎么动」(物理能力)和「做什么」(语义对齐)两个本可分开的目标混在了一起,而只有后者才真正需要语言监督。基于这一「分解假设」,作者提出任务无关(task-agnostic)预训练,先让模型在无需语言标注的大量数据上学会运动,再叠加少量带语言的数据学语义,从而绕开昂贵三元组演示的瓶颈,为 VLA 的规模化训练提供了新范式。
EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments
EvoPolicyGym 是一个评估自主智能体「策略自进化」能力的测试平台:让 Agent 在固定预算内通过反复编辑自己的策略来迭代改进。实验揭示了一个关键规律——成功的策略进化既要有任务特定的改进机制,又离不开受反馈约束的精细化修正,二者缺一不可,纯靠盲目自我编辑并不管用。为研究自我改进型 Agent 提供了一个可控的评测环境。
📖 阅读⬇ PDFAgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents
AgenticSTS 是面向长程 LLM Agent 的有界记忆(bounded-memory)测试床,核心思路是用「有界契约」加类型化检索,每一步都现场组装一份全新的 prompt,而不是无限堆叠历史。这样可以把记忆的各个组件隔离开单独分析,弄清到底是哪部分记忆在起作用,并在复杂决策任务上验证了带来的性能提升。为长程 Agent 的记忆研究提供了干净的实验支架。
📖 阅读⬇ PDFAgenticDataBench: A Comprehensive Benchmark for Data Agents
AgenticDataBench 是一个专门评测「数据智能体」的综合基准,覆盖多个领域,配有细粒度的任务标注和基于技能的覆盖度指标。它不只看数据 Agent 能不能完成任务,还能拆解到具体技能维度看它强在哪、弱在哪。对研究能自动做数据清洗、分析、处理的 Agent 提供了标准化的衡量尺子,方便横向比较不同系统的真实能力。
📖 阅读⬇ PDFWorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory
WorldDirector 面向可控世界模拟,让视频生成具备持久的物体记忆。它的巧思在于把「语义运动规划」和「视觉渲染」解耦:由大模型协调 3D 轨迹和相机运动来规划物体该怎么动,再交给渲染环节出画面。这样既能精确控制视频里对象的运动和视角,又能在长序列中保持物体的一致性不漂移,为搭建可控、持久的世界模拟器提供了一条清晰路径。
📖 阅读⬇ PDFSkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use
SkillCoach 提出一套会自我进化的评分标准(rubric),用来评估并提升 Agent 的「技能使用」能力。它不满足于只看最终结果对不对,而是把技能的选择、遵循、组合、反思四个环节拆开来分别打分和监督,从而给出比纯结果指标更细、更有指导性的信号,帮助 Agent 真正学会用好工具和技能。对做工具调用、技能编排的 Agent 训练很有参考价值。
📖 阅读⬇ PDFReasoning LLM Improves Speaker Recognition in Long-form TV Dramas
这篇论文把推理型大模型用到长篇电视剧的说话人识别上——即把每句台词准确归属到对应角色,这是理解复杂剧情的关键一环。作者构建了大规模基准 DramaSR-532K,含超过 900 个独特角色、53.2 万条标注对话,需要整合多种线索才能判断说话人。借助具备推理能力的 LLM,方法在这一长篇视频理解难题上取得进展,为剧集级视频理解提供了数据与方法双重支撑。
Audio-Based Understanding of Audiobook Narration Appeal
这项研究从纯音频角度分析有声书朗读的吸引力,用预训练音频模型从 LibriVox 语料里抽取音色、语速、响度等声学特征,再把它们与收听数据(如观看率)关联,考察朗读质感如何影响一本有声书的受欢迎程度,以及这种影响如何随体裁、书目和受众而变化。为理解和优化有声书的朗读呈现、乃至语音合成的表现力评价提供了数据驱动的洞见。