DeepSeek 开源了投机解码框架「DSpark」,给现有「DeepSeek-V4」权重直接挂一个草稿模块,无需重训主模型。它用并行草稿骨干配一个轻量「Markov」头来抑制后缀衰减,再加上按实时 GPU 负载动态调整验证 token 数量的「置信度调度」验证。离线下接受长度比「DFlash」和「Eagle3」高 16–31%,生产环境里把单用户生成速度无损提升了 57–85%,对追求高吞吐又不能掉精度的部署方很有分量。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
DeepSeek 开源了投机解码框架「DSpark」,给现有「DeepSeek-V4」权重直接挂一个草稿模块,无需重训主模型。它用并行草稿骨干配一个轻量「Markov」头来抑制后缀衰减,再加上按实时 GPU 负载动态调整验证 token 数量的「置信度调度」验证。离线下接受长度比「DFlash」和「Eagle3」高 16–31%,生产环境里把单用户生成速度无损提升了 57–85%,对追求高吞吐又不能掉精度的部署方很有分量。
「llama.cpp」b9831 版合入了对「DFlash」投机解码的支持,并加上了 DFlash v2,还按层支持滑动窗口注意力。这意味着本地推理用户能在 llama.cpp 上直接用上这套更快的草稿解码方案,对在端侧和自建环境追求生成提速的人是个实用更新。
苹果推出 Core AI 框架,为自研芯片优化端侧生成式 AI
苹果推出了「Core AI」框架,专门为自研芯片优化端侧生成式 AI。这把端侧大模型的运行与苹果自家芯片做了更深的软硬协同,意味着在苹果设备上跑生成式 AI 有望更快更省电,对做苹果生态端侧应用的开发者值得关注。
量子位用十个要点拆解了梁文锋署名的「DSpark」,强调其精髓在于极强的系统工程能力而非单点算法突破。对想快速看懂 DSpark 这套投机解码框架到底强在哪、为何能无损提速的读者,这是一份提纲挈领的中文解读。
Liquid AI 发布了迄今最小的开源权重模型「LFM2.5-230M」,仅 2.3 亿参数,却在三星 S25 Ultra 上跑出 213 tok/s、树莓派 5 上 42 tok/s。它基于 LFM2 架构、主打工具调用与数据抽取,在指令遵循上反超了更大的「Qwen3.5-0.8B」和「Gemma 3 1B」,并一次性提供「llama.cpp」「MLX」「vLLM」「SGLang」「ONNX」全套支持。对做端侧、嵌入式 AI 的人,这是个又小又能打的现成选择。
新浪微博开源的「VibeThinker-3B」只有 30 亿参数,却在数学和代码基准上追平了体量大到 333 倍的「DeepSeek V3.2」「Kimi K2.5」。秘诀不在规模而在多阶段后训练,作者据此提出一个假设:逻辑推理能很好地压进小模型,但宽广的世界知识压不进去。这一观点为「小模型做强推理」的路线提供了有意思的经验佐证。
「llama.cpp」b9828 版改进了 OpenCL 后端的闪存注意力「flash attention」:重写了 f16/f32 的 FA 核、加了预填充 prepass 核,并按查询块把 KV 分块分类,从而跳过全掩码块、省掉全可见块的掩码查找,还补上了 q4_0/q8_0 量化的 FA 核。对在非 CUDA 设备上用 OpenCL 跑 llama.cpp 的用户,这是实打实的注意力提速。
「llama.cpp」b9833 版实现了「MiniCPM5」的工具调用解析器,补上了对其 XML 形式工具调用的自动解析,并修了流式工具参数占位、语法触发等一系列细节。这让 MiniCPM5 在 llama.cpp 上能正常做 function calling,对想在本地用该模型搭智能体的人扫清了一道障碍。
AI won't become a real coworker until it stops answering and starts finishing tasks
腾讯联合多所中国高校的综述梳理了 AI 从聊天机器人走向「数字同事」的路径,核心论点是:AI 要成为可靠的工作伙伴,关键在于停止只「答题」、转而在持久的工作环境里把整件任务做完。作者认为出路在于把持久工作空间与可复用技能结合起来。这为 agentic AI 该往哪进化提供了一个清晰的框架性判断。
Coinbase joins the rush to Chinese AI models as Western labs face a pricing stress test
Coinbase CEO 把公司切换到「GLM 5.2」「Kimi 2.7」等中国大模型,用自动路由系统按任务和价格为每个请求挑最划算的模型,并靠更好的缓存把命中率从 5% 拉到 60%。结果在 token 用量持续攀升的同时,AI 开支砍掉了一半。这是西方厂商面临定价压力、企业用脚投票转向高性价比中国模型的一个鲜活案例。
Only three AI models finished above starting capital in a 500-day startup survival test
普林斯顿大学搭了个「CEO-Bench」,让 AI 智能体经营一家虚构软件公司、连续撑过 500 个模拟日。结果多数模型都把公司搞破产,一个完全不用 AI 的简单规则启发式反而打赢了几乎所有模型。这盆冷水说明当前智能体在真正的长周期经营决策上还远谈不上可靠。
Anthropic's Fable 5 could return within days as Trump administration prepares to lift restrictions
据 Axios 报道,Anthropic 的「Fable 5」可能在数日内重新可用——此前 6 月 12 日因安全顾虑被施加的限制,特朗普政府已接近解除,但还需五角大楼和国安局点头放行。对依赖该模型的开发者,这是一条值得盯紧的供给侧动态。
「llama.cpp」的一次构建更新,为其 Jinja 模板引擎新增了 --dump-prog 调试选项,便于开发者排查聊天模板编译过程中的问题。同时这版照例产出覆盖 macOS(含 Apple Silicon 与 KleidiAI 加速)、iOS、以及 Linux 多架构(x64/arm64/s390x,CPU 与 Vulkan 后端)的全套预编译产物。对依赖本地部署、要对各类模型的 chat template 做适配调试的工程师有一定便利。
「PyTorch」主干分支的一项改动,为「FlexAttention」的 return_aux 接口增加了返回 max_scores 的支持,即在做注意力计算时可顺带导出每一行的最大打分值。这类辅助输出对调试注意力数值稳定性、实现自定义的归一化或可观测性逻辑较为实用,属于框架层对灵活注意力机制的细化完善。
「PyTorch」CI 中更新了所集成的「vLLM」提交哈希,把持续集成基线对齐到 vLLM 的较新版本。此举用于保证两个项目在接口与行为上的兼容,及时暴露上游变更带来的回归,对关注 PyTorch 与 vLLM 协同演进的推理栈维护者是个例行但有意义的同步信号。
JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting
投机解码在草稿规模上去往往撞到天花板——草稿越长、接受率反而塌方。「JetSpec」把高效的前向草稿与因果条件化结合起来做并行树状草稿,让每一步生成的候选 token 既铺得开又彼此条件相关,从而在拉长草稿的同时稳住接受率。多个基准上它同时提升了推理速度和接受长度,给被规模上限卡住的投机解码提供了一条可扩展的新路径。
📖 阅读⬇ PDFInformation-Aware KV Cache Compression for Long Reasoning
长链推理时 KV 缓存膨胀严重,单纯按注意力权重裁剪容易误删关键信息。「InfoKV」引入信息论视角,把熵这类信息量信号和注意力权重一起用来判断哪些 KV 该留、哪些可压,做到「信息感知」的缓存压缩。这样在大幅削减长上下文缓存占用的同时更好地保住了推理质量,对要跑长 reasoning 又受显存约束的部署很实用。
📖 阅读⬇ PDFQwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation
真实世界的文生图常因提示词信息不全而画偏,模型缺的是完整的「生成上下文」。「Qwen-Image-Agent」把文生图做成一个统一的智能体框架,通过规划、推理、检索和记忆几套机制,逐步把缺失的上下文补齐再交给生成模型。这样弥合了用户意图与最终画面之间的语境鸿沟,让复杂、依赖外部知识的图像生成更靠谱。
📖 阅读⬇ PDFWhy Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It
多步工具调用做强化学习时常出现训练崩塌,模型对输出格式也异常敏感,稳定性很差。这项工作系统排查了不同监督信号与训练策略的影响,提出把监督微调与强化学习交错进行,用监督信号为多步轨迹兜底,从而压住灾难性崩塌、缓解格式敏感。结论给做 agentic RL、被训练不稳折磨的人指出了哪些信号真正有用,颇具实操价值。
📖 阅读⬇ PDF奖励模型有个老毛病——对同样好的回答会打出不同分数,这种过度敏感会污染策略学习。作者提出把奖励离散化,给打分做分桶处理,在保留区分好坏的判别力的同时,削掉那些无意义的细微分差。这样训出的策略更稳,等于用一个简单手段缓解了 RLHF 里奖励噪声拖累对齐效果的常见痛点。
📖 阅读⬇ PDFRoPE-Aware Bit Allocation for KV-Cache Quantization
KV 缓存量化时,旋转位置编码「RoPE」让不同维度对精度的敏感度并不均匀,一刀切的比特分配会损失注意力精度。「Block-GTQ」提出感知 RoPE 的自适应比特分配,按维度重要性分配量化位宽,并配合打包式缓存服务高效落地。结果是 key-cache 在被压缩的同时更好地保住了注意力准确度和下游表现。
📖 阅读⬇ PDFOPID: On-Policy Skill Distillation for Agentic Reinforcement Learning
智能体强化学习里奖励稀疏、样本利用率低是老难题。「OPID」做在线策略的技能蒸馏,从已完成的轨迹中以「事后回看」的方式抽取稠密的监督信号,把成功经验的中间步骤也变成可学的密集监督。这让语言智能体的训练更高效、表现更好,相当于把跑出来的轨迹榨干价值再回灌给训练。
📖 阅读⬇ PDFNeglected Free Lunch from Post-training: Progress Advantage for LLM Agents
给智能体做步骤级打分通常得另训一个奖励模型,成本不低。这项工作发现强化学习后训练本身就「免费」带来了一个隐式优势函数——称作「进度优势」,可以直接拿来对每一步做评分,无需专门训练奖励模型。对想给 LLM agent 加细粒度步骤监督又不想多养一个模型的团队,这是个被忽视的现成红利。
📖 阅读⬇ PDFImproved Large Language Diffusion Models
这是对大语言扩散模型的一次改进,采用完全双向注意力的掩码扩散语言模型。借助双向注意力捕捉上下文,它在多个基准上反超了自回归同行,同时与主流既有模型保持竞争力。结果进一步说明扩散式语言建模并非只是自回归的陪跑者,在生成质量上确有可争之处。
📖 阅读⬇ PDFThe Verification Horizon: No Silver Bullet for Coding Agent Rewards
给编码智能体设计奖励的核心难题在于:代理信号很难真正对齐人类意图,没有一招通吃的「银弹」。文章把这道坎称作「验证地平线」,指出随着生成能力增强,验证系统必须同步进化、自适应地跟上,否则奖励就会被钻空子。对做 coding agent 奖励工程的人,这是一份关于验证为何难、该往哪走的清醒提醒。
📖 阅读⬇ PDFViQ: Text-Aligned Visual Quantized Representations at Any Resolution
视觉离散量化常在语义丰富度和细节保真之间二选一,难以兼顾。「ViQ」提出与文本对齐的视觉量化表征,在离散表示里同时兼顾语义信息和细节保留,并支持任意原生分辨率输入。这让多模态训练既高效又不必牺牲画面细节,为统一的图文离散表征提供了更好用的基础组件。
📖 阅读⬇ PDFGUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents
评估电脑操作智能体时,纯看屏幕的「GUI」路线和借助命令行技能的「CLI」路线常被混为一谈,任务、初始状态、验证器都不一致导致结论不可比。作者构建了一个执行层对齐的基准——440 个桌面任务、覆盖 18 个应用和 12 类工作流,让两种智能体在完全相同的目标、状态和终态验证器下同台竞技。由此首次干净地剥离出交互方式本身对执行瓶颈的影响,为该用 GUI 还是 CLI 提供了可靠依据。
📖 阅读⬇ PDFConfidence-Aware Tool Orchestration for Robust Video Understanding
视频推理里智能体常犯「盲目信任」的毛病——对每一帧无条件采信,遇到画面扰动就翻车。「Robust-TO」把每帧的可信度纳入智能体框架,做校准过的证据加权和可靠性感知推理,让不靠谱的帧权重被压低。这样在真实扰动下显著提升了视频理解的准确率,给多工具视频推理补上了「该信哪一帧」这一课。
📖 阅读⬇ PDFCoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies
「CoffeeBench」在一个多智能体经济模拟里考察 LLM 智能体的长周期能力:多家公司在 90 天里互相博弈、追逐利润最大化。这种异构多体环境逼出了不同模型在沟通模式和经营表现上的明显分化,暴露出谁更会谈判、谁撑得起长链决策。它为评估智能体的长程规划与多体协作提供了一个贴近真实商业的试炼场。
📖 阅读⬇ PDF把多个模型用路由、投票或「Mixture-of-Agents」组合起来,到底能不能稳赚?作者跨 67 个前沿模型给出一个冷峻结论:系统精度存在一个由「所有模型同时答错的概率」决定的上限——这个共败天花板与个体相关性、集成策略无关,组合方案再花哨也突破不了。这给一窝蜂上多模型集成的实践泼了盆冷水,提醒收益的天花板早就被同时失败率锁死了。
📖 阅读⬇ PDFHow Post-Training Shapes Biological Reasoning Models
这项工作拆解了后训练各阶段如何塑造生物推理模型的泛化:继续预训练让模型对齐生物领域语言,监督微调提升了域内表现却削弱了域外泛化,而强化学习在对齐良好的检查点上能把丢掉的域外能力找回来。结论是后训练各环节作用迥异、顺序很关键,给科学领域专用推理模型的训练配方提供了清晰的实证指引。
📖 阅读⬇ PDFAre We Ready For An Agent-Native Memory System?
LLM 智能体的记忆系统已经演化成复杂的数据管理框架,但我们其实还缺乏对它的系统评估。文章追问「我们是否准备好迎接一个 agent 原生的记忆系统」,主张要跨多个模块和多种工作负载去刻画其性能特征与权衡。它把 agent 记忆当成一个数据系统来审视,为理解读写、检索、遗忘等环节的取舍搭起了评估视角。
📖 阅读⬇ PDFWan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
「Wan-Streamer v0.1」是一个统一的端到端多模态模型,目标是实时的音视频交互。它靠因果注意力机制把视觉、音频、文本几路模态整合进同一套处理流程,从而支持低延迟的边生成边交互。这为实时交互式的基础模型——比如能边看边听边应答的数字人式应用——给出了一个端到端的可行范式。
📖 阅读⬇ PDF细粒度视觉推理通常依赖标注答案做监督,成本高且难扩展。「V-Zero」提出一个免答案标签的在线策略蒸馏框架,靠「对比证据门控」来甄别哪些视觉证据真正支撑结论,从而在没有人工标注答案的情况下提升细粒度视觉推理。它不仅省掉了标注,训练速度还比传统方法更快,对缺标注数据的视觉推理场景很有吸引力。
📖 阅读⬇ PDFThe Hitchhiker's Guide to Agentic AI: From Foundations to Systems
这是一本面向自主智能体系统的系统性指南,从「Transformer」架构和训练方法这些地基讲起,一路覆盖强化学习、智能体架构到生产部署等进阶主题。它把从基础到系统的链路串成一条完整路径,适合想全景式入门 agentic AI 又不想东拼西凑的读者。
📖 阅读⬇ PDF