「llama.cpp」b9745 版本为「Step3.5/3.7」的「flash MTP3」多头投机解码补齐支持,新增层偏移与多 MTP 块的草稿生成接口。对本地部署、追求投机解码加速的用户是实打实的吞吐改进。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
「llama.cpp」b9745 版本为「Step3.5/3.7」的「flash MTP3」多头投机解码补齐支持,新增层偏移与多 MTP 块的草稿生成接口。对本地部署、追求投机解码加速的用户是实打实的吞吐改进。
思科基础 AI 团队开源「FAPO」全自动提示优化系统,由「Claude Code」驱动,能逐步定位流水线失败、跨提示与链结构提出变体并经独立评审验证,在 18 项对比中 15 项胜过「GEPA」。为多步 LLM 应用的自动调优提供了可用工具。
Nobel laureate John Jumper is leaving DeepMind for rival Anthropic
诺贝尔奖得主、「AlphaFold」核心人物 John Jumper 将从 Google DeepMind 离职加盟竞争对手 Anthropic,且并非近期出走的唯一重量级人物。反映顶级 AI 人才流动加剧与厂商间的人才争夺战。
「llama.cpp」b9747 版本为服务端新增经由「/models/sse」的实时模型加载进度跟踪,并覆盖多平台多后端构建。对运维本地推理服务、需要可视化加载状态的用户是体验改进。
AWS says AI agents lack business context and security, launches two services to patch the gaps
AWS 在纽约峰会推出两项服务:「Continuum」自动检测并修复代码漏洞,「Context」从企业数据构建知识图谱为 AI Agent 补充业务上下文,二者都针对「Agent 写代码快但常出错」这一痛点。显示云厂商正补齐企业级 Agent 的安全与上下文短板。
「llama.cpp」b9744 版本重构了 GBNF 语法生成中的 until 规则,改用 AC 自动机实现并补充多字符串测试,同时修复了服务端工具的回归问题。对依赖受约束解码与结构化输出的本地用户有质量改进。
Nous Research 为开源「Hermes Agent」新增「白板模式」,默认仅开启供应商、模型、文件操作与终端,其余工具集需手动按需启用。给开发者更细粒度的工具集权限控制,便于打造最小化、可控的 Agent。
「PyTorch」为「MPS」后端的「FlexAttention」补上返回 lse 的支持,为在 Apple 芯片上实现其反向传播打下基础。对在 Mac 上做注意力相关训练与研究的用户是底层能力补强。
Sam Altman 在斯坦福演讲中为大模型「Scaling」辩护,称一整代研究者因低估扩展的潜力而拖慢了领域进展,并以 OpenAI 近期证伪某数学猜想为佐证。折射出扩展派与质疑派关于路线的持续分歧。
trunk/85d058c80ddd106475818d0753404fa515e4a420: Preserve scalar foreach_lerp_ in Dynamo (#186452)
「PyTorch」修复 Dynamo 在遇到标量重载时错误分解「foreach_lerp」的问题,避免为 RAdam 等优化器额外分配全尺寸临时张量、抬高峰值显存。对用 torch.compile 训练、在意显存占用的工程师是实在的优化。
「llama.cpp」b9743 版本让「JSON Schema」到语法的转换与解析器对齐空格规则,覆盖多平台多后端构建。对依赖 JSON 结构化输出的本地推理用户是细节修正。
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
提出 UFP4 配方,用基于随机哈达玛变换的均匀 4 比特量化替代「E2M1」格式做大模型 FP4 预训练,从几何层面剖析并消除了量化导致的「收缩偏差」。在多种架构上提升了训练稳定性,对追求低精度、低成本预训练的团队有直接参考价值。
📖 阅读⬇ PDFS-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
「S-Agent」是一个空间推理框架,为视觉语言模型引入时序记忆与分层空间工具,使其能从多视角图像持续理解三维世界。它把工具调用范式带入空间智能,对做具身与多模态感知 Agent 的开发者有借鉴意义。
📖 阅读⬇ PDFBeyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
论文指出 Agent 基准上的聚合分数排行榜难以反映真实部署维度且排名不稳定,主张以「预测效度」和分布外标准重建评测体系。对依赖榜单选型 Agent 的从业者是一记提醒:单一总分可能误导决策。
📖 阅读⬇ PDFContext-Aware RL for Agentic and Multimodal LLMs
「ContextRL」用强化学习奖励为问答对挑选支撑上下文的能力,从而增强长程推理与多模态表现,在多个基准上优于标准方法。它把上下文选择本身作为可优化目标,对长上下文 Agent 与多模态系统有参考价值。
📖 阅读⬇ PDFThinking with Visual Grounding
提出「视觉接地的思考」,把自然语言推理与视觉证据的显式接地结合进视觉语言模型,并借助可扩展数据合成与强化学习提升推理准确率。为多模态模型「边看边想」提供了一条可落地路径。
📖 阅读⬇ PDFMulti-LCB: Extending LiveCodeBench to Multiple Programming Languages
「Multi-LCB」把「LiveCodeBench」扩展到十二种编程语言,在保持防数据污染与评测协议的前提下,弥补其仅覆盖单一语言的局限。对评估大模型多语言编码能力的团队是更全面的基准。
📖 阅读⬇ PDFFAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines
「FAPO」实现多步大模型流水线的全自动提示优化,将提示编辑与结构级改动结合,在多项基准与安全任务上表现领先。对维护复杂 LLM 流水线、苦于手工调提示的工程团队很实用。
📖 阅读⬇ PDFLedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
「LedgerAgent」为客服类工具调用 Agent 设立独立「账本」来维护任务状态,从而提升对策略的遵从度与状态管理质量。对构建需严格遵守业务规则的生产级 Agent 是一种实用的状态工程思路。
📖 阅读⬇ PDFUnderstanding the Behaviors of Environment-aware Information Retrieval
研究表明可用强化学习训练大模型针对不同检索器调整查询表述策略,且不同检索器各有最优查询风格,配合检索器专属引导与模型放大能进一步提升效果。对优化 RAG 中检索环节的从业者有启发。
📖 阅读⬇ PDFConfigurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why
「ACIE」是一套部署于临床场景的智能体式「RAG」系统,能从复杂病历上下文中高准确率抽取医疗信息,在核医学医生的 7326 次判定中获得 96.5% 的接受率。展示了 Agent 加检索在高风险垂直领域落地的真实成效。
📖 阅读⬇ PDF「LegalHalluLens」面向法律工作流审计 AI 幻觉,识别不同主张类型下的具体错误模式与方向性偏差,并用校准的多智能体辩论加以缓解。为高可信法律 AI 的诊断与部署提供了系统方法。
📖 阅读⬇ PDFTaylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation
「Taylor-Calibrate」提出一种有原则的初始化技术,借助教师模型的注意力统计与对齐步骤,改善从预训练「Transformer」向混合线性注意力模型的蒸馏转换。对追求高效注意力、降低推理成本的研究者有参考价值。
📖 阅读⬇ PDF针对无资源编程语言的代码生成难题,研究构建了相应基准,并提出结合继续预训练与权重差迁移的方法,以更低算力打造专用指令模型。为长尾小众语言的代码大模型适配提供了低成本路线。
📖 阅读⬇ PDFFlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows
「FlowBender」是一个闭环框架,通过训练网络利用推理期反馈纠正对齐误差,来解决扩散与流模型中的约束满足问题,在多任务上优于传统监督与引导式方法。为生成模型的可控性提供了新思路。
📖 阅读⬇ PDFENPIRE: Agentic Robot Policy Self-Improvement in the Real World
「ENPIRE」框架借助环境反馈、策略精炼与演化式代码优化的闭环,实现真实世界中机器人策略的自主自我改进。把「Agent 自我进化」推向具身机器人研究自动化的方向。
📖 阅读⬇ PDFJAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines
「JAMER」利用游戏开发竞赛数据,构建了面向专业游戏引擎的项目级代码框架数据集与基准,用于评测代码生成与项目级编程能力。为面向真实工程场景的代码大模型评测补上了一类难度更高的样本。
📖 阅读⬇ PDFDuration Aware Scheduling for ASR Serving Under Workload Drift
提出时长感知的「ASR」服务调度,把音频长度作为处理时间的预测信号,用「SJF」与「HRRN」算法在保持吞吐的同时显著降低中位延迟。对语音识别 serving 与推理优化工程是实用的调度技巧。
📖 阅读⬇ PDFPlayful Agentic Robot Learning
研究让具身机器人通过自主玩耍与探索学习可复用技能,再无需额外训练即可迁移到下游任务并提升表现。为机器人无监督技能获取与样本高效学习提供了新范式。
📖 阅读⬇ PDFImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?
「ImageWAM」论证在世界动作模型中,预训练的图像编辑模型可有效替代视频生成来做机器人控制,以更低算力取得更好表现。对重新审视具身世界模型的技术选型颇具启发。
📖 阅读⬇ PDFHumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
「HumanScale」表明第一人称人类视频在具身模型预训练中可超越遥操作机器人轨迹,以更低的数据采集成本取得更好表现。为缓解机器人数据稀缺、用人类视频做预训练指明了方向。
📖 阅读⬇ PDF