「Transformers 5.13.0」新增「Kimi K2.5」「Kimi K2.6」和「Kimi K2.7」架构支持,其中共享的「Kimi K2.5」架构面向原生多模态智能体、长程编程、代码驱动设计和群体任务编排。该更新让开发者可直接通过主流模型生态加载这些版本,降低部署和二次开发门槛。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
「Transformers 5.13.0」新增「Kimi K2.5」「Kimi K2.6」和「Kimi K2.7」架构支持,其中共享的「Kimi K2.5」架构面向原生多模态智能体、长程编程、代码驱动设计和群体任务编排。该更新让开发者可直接通过主流模型生态加载这些版本,降低部署和二次开发门槛。
「llama.cpp b9871」修复了量化数据类型在中央处理器上的拼接实现,并补充相应回归测试。该问题会直接影响量化模型相关张量操作的正确性,因此使用中央处理器推理或跨平台构建的开发者应优先升级验证。
Mistral's open-source Leanstral 1.5 aces formal math benchmarks and catches real bugs in code
「Mistral AI」发布开源「Leanstral 1.5」,面向「Lean 4」形式化验证,在形式数学基准之外还扫描了五十七个开源仓库并发现五个此前未知的软件缺陷。它表明面向证明语言训练的模型不仅可做数学推理,也能进入真实代码验证流程,为高可靠软件开发提供新的智能体基座。
「TRL 1.7.1」修复了非「NVLink」硬件上「GRPO」、共置式「vLLM」与「PEFT」组合训练的卡死问题,同时处理设备同步、数据集指纹和「DPO」「SFT」分词等缺陷。版本还接入新的响应解析接口并增加「PEFT」与「Liger」组合保护,对多卡后训练任务的稳定性和可复现性较为关键。
拒绝天价账单!OpenAI、Anthropic 自研芯片,剑指英伟达“暴利”护城河
消息称「OpenAI」与「Anthropic」正推进自研芯片,以降低对「英伟达」高价算力和单一供应链的依赖。若相关芯片进入规模部署,模型厂商将更深入地控制训练与推理成本、软硬件协同及产能规划,也会改变云端人工智能基础设施的采购格局。
What is Mistral AI? Everything to know about the OpenAI competitor
该报道梳理「Mistral AI」自二〇二三年成立以来的融资、开放模型路线及其挑战「OpenAI」的定位。对从业者而言,「Mistral AI」兼顾开放权重与商业服务的策略,是观察欧洲基础模型竞争、部署选择和开放生态演进的重要样本。
非营利组织「Current AI」发布「Open Source AI Gap Map 0.1」,系统收录四百二十一项开放人工智能项目,包括二百六十六个软件工具与库、八十五个模型、五十个数据集和二十个硬件项目,涉及二百二十八家组织。该地图为开发者和资助方识别开放生态中的能力空白、重复建设与基础设施短板提供了结构化索引。
「llama.cpp b9870」把「StepFun」消息内容的空白裁剪提前到模板渲染之前,修复内容片段合并后无法正确清理而引发的超长推理循环,并加入回归测试。该修复可避免特定聊天模板持续生成无效思维内容,降低异常时延和词元消耗。
Claude Code 80%的提示词说删就删,Anthropic用Fable 5打了个样:AI行业的“降本”才刚刚开始
报道称「Anthropic」借助「Fable 5」大幅压缩「Claude Code」提示词,删减比例达到八成,展示了智能体系统通过重构上下文和指令设计降低推理成本的空间。对开发者而言,这说明长系统提示并不等于更强能力,提示词精简、缓存利用和上下文工程正成为智能体降本的重要环节。
从 Coding 到 Anything,Agent 正在重写工作流
报道讨论智能体从编程场景扩展到更通用任务执行,工具调用、环境操作和多步骤规划正在把传统软件工作流改造成以目标为中心的自动化流程。对从业者而言,竞争重点将从单次内容生成转向任务闭环、权限治理、可观测性和稳定交付。
OpenAI cofounder envisions "almost no interface" future where nobody learns software anymore
「OpenAI」联合创始人「Greg Brockman」认为未来软件界面可能趋近于消失,由理解上下文的智能体直接替用户完成操作;他同时承认二〇二三年的「ChatGPT」插件失败,原因是当时模型能力尚未成熟。报道也指出现有「Codex」距离这一愿景仍很远,说明上下文感知、可靠执行和跨应用协同仍是关键工程缺口。
光象科技累计完成数亿元天使轮融资,资金将用于布局面向物理世界的原生基础模型。该方向强调从真实环境及物理规律中学习感知、预测与行动能力,显示资本正加码具身智能和世界模型等不同于纯文本大模型的技术路线。
文章聚焦企业在引入 Agent 后面临的治理问题,包括权限边界、任务审计、责任归属以及人机协作机制。对从业者而言,Agent 落地不能只看自动化能力,还需建立覆盖部署、运行监控与风险控制的硅基团队管理体系。
ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving
「ELDR」解决预填充与解码分离的混合专家模型服务中,解码请求未考虑专家局部性而引发的跨节点通信与负载问题。它预测请求后续会激活的专家,并据此把请求路由到专家数据更本地化的解码实例,在保持分离式架构弹性的同时提升吞吐与执行效率。
📖 阅读⬇ PDFGRPO, Dr. GRPO, and DAPO Are Three Operations on One Number: The Group-Standard-Deviation Identity
论文指出「GRPO」「Dr. GRPO」与「DAPO」看似采用不同的强化学习更新规则,本质上都可归结为对同一个组内标准差量的操作。样本答案之间的分歧既决定有效学习信号,也控制梯度更新幅度;这一统一视角有助于解释三种算法的行为差异,并为超参数选择和训练稳定性分析提供更直接的依据。
📖 阅读⬇ PDFTurboServe: Serving Streaming Video Generation Efficiently and Economically
流式视频生成需要长期维护会话状态,同时面对请求时长和算力需求动态变化,通用大模型服务系统难以兼顾利用率与时延。「TurboServe」将调度、自动扩缩容和会话迁移整合起来,根据运行状态动态分配资源,从而降低持续视频生成的服务成本并改善吞吐与响应表现。
📖 阅读⬇ PDFSeed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity
「Seed2.0」面向真实世界中的长尾知识、复杂指令遵循和多步骤任务,系统增强了推理、视觉理解与搜索能力。模型卡还构建了以实际用户需求为基础的评测框架,不只考察孤立基准分数,而是验证模型处理复杂场景的综合能力,为前沿模型的实用性评估提供参考。
📖 阅读⬇ PDF「Graph-PRefLexOR」针对科学假设生成过程难追踪、概念组合缺乏结构约束的问题,将推理原生表示为图。模型通过机制探索、图构建、模式提取和假设综合等阶段组织材料科学知识,并使用组相对策略优化训练,提升了推理轨迹的可解释性和生成假设的语义多样性。
📖 阅读⬇ PDFThe State-Prediction Separation Hypothesis
论文提出状态预测与词元预测分离假设,认为让同一套表示同时承担潜在状态建模和下一个词元输出会限制模型能力。其方法在「Transformer」中拆分两类预测目标,使内部状态先学习更适合未来演化的表征,再服务于词元生成;实验显示这一设计在不同模型规模上均能改善语言建模性能与计算效率。
📖 阅读⬇ PDFMemSyco-Bench: Benchmarking Sycophancy in Agent Memory
「MemSyco-Bench」关注智能体记忆带来的迎合效应:检索到的用户相关记忆可能让模型过度顺从既有观点,牺牲事实准确性和独立判断。该基准不再只测记忆存取是否成功,而是评估记忆如何影响后续推理与决策,为记忆系统的可靠性和抗迎合设计提供专门测试。
📖 阅读⬇ PDFCausalMix: Data Mixture as Causal Inference for Language Model Training
传统数据配比方法通常依赖静态相关性或反复训练试验,难以应对训练分布持续变化。「CausalMix」把语言模型的数据混合优化表述为因果推断问题,估计不同数据源对目标能力的真实贡献,并随分布漂移动态调整配比,从而减少昂贵的重新训练和盲目搜索。
📖 阅读⬇ PDFPerceive-to-Reason: Decoupling Perception and Reasoning for Fine-Grained Visual Reasoning
高分辨率图像中的细粒度推理容易因视觉识别和逻辑推断相互干扰而失败。「Perceive-to-Reason」采用两阶段框架,先提取并校准关键视觉证据,再基于结构化感知结果进行推理,使视觉语言模型能更稳定地处理局部细节和复杂关系,并提升细粒度视觉推理表现。
📖 阅读⬇ PDFBioInsight: Multi-Agent Orchestration for Interactive Biomedical Knowledge Discovery
「BioInsight」把静态生物医学报告转化为可交互、以证据为中心的知识发现界面,缓解多来源证据难组织和引用难核验的问题。系统通过多智能体编排生成疾病专属的结构化产物,并用确定性规则统一引用,使研究人员能够沿证据链探索结论,同时降低模型生成内容与原始文献脱节的风险。
📖 阅读⬇ PDFPixelEyes: Decoupling Perception and Reasoning for Pinpoint Visual Evidence Seeking
多轮视觉智能体把感知搜索与推理混在同一轨迹中,容易反复查看无关区域并积累错误。「PixelEyes」利用掩码引导搜索和语义区域广度优先搜索,将定位视觉证据与高层推理解耦;论文还构建了由专家重新合成数据的新基准,用于检验智能体能否精确找到支撑答案的图像区域。
📖 阅读⬇ PDFWhen More Sampling Hurts: The Modal Ceiling and Correlation Ceiling of Test-Time Scaling
论文分析测试时扩展中的反常现象:增加推理样本虽能扩大答案覆盖,却也让最终选择更加困难。受众数上限与样本相关性上限约束,采样超过几十次后收益迅速递减,甚至会降低准确率;这意味着推理系统不能只堆采样预算,还需改善样本多样性和答案选择机制。
📖 阅读⬇ PDF「HealthAgentBench」构建了覆盖七类、共五十四项医疗任务的真实智能体环境,评估模型在复杂临床工作流中的工具使用、推理与执行能力。结果显示前沿智能体在电子健康记录分析上已有潜力,但在医学影像和组合推理方面仍存在显著短板,为医疗智能体的能力边界与安全评测提供了统一基线。
📖 阅读⬇ PDFMultimodal Continuous Reasoning via Asymmetric Mutual Variational Learning
多模态连续推理在训练时可能借助答案信息形成捷径,推理时却无法获得同等信号,导致潜在空间不稳定。「非对称互变分学习」通过双向但非对称的校准约束连接感知与推理表示,在避免答案泄漏的同时缩小训练与推理差异,从而提高连续潜变量推理的稳定性和有效性。
📖 阅读⬇ PDFAutoTrainess: Teaching Language Models to Improve Language Models Autonomously
「AutoTrainess」试图让语言模型自主完成从实验规划到结果复盘的训练闭环,而不是依赖人类逐条编写命令。它提供结构化的智能体计算机接口,统一约束规划、数据准备、训练、评估和日志操作,使模型比直接操作传统命令行更可靠地组织训练实验,为自动化模型研发提供基础设施。
📖 阅读⬇ PDFWhen LLMs Read Tables Carelessly: Measuring and Reducing Data Referencing Errors
论文系统研究大模型读取表格时的数据引用错误,即模型虽能生成流畅结论,却可能取错行列、指标或实体。作者采用批评模型过滤与拒绝采样清理错误输出,并表明轻量级四十亿参数模型也能实现较高的错误检测准确率,为低成本提升表格问答和数据分析可靠性提供了可部署方案。
📖 阅读⬇ PDFAre Performance-Optimization Benchmarks Reliably Measuring Coding Agents?
论文审计「GSO」「SWE-Perf」和「SWE-fficiency」等仓库级性能优化基准,指出排行榜分数可能同时混入运行时间波动、特定计分规则以及公开提交已覆盖任务数量等因素。由于这些干扰会把测量噪声或基准成熟度误判为智能体进步,作者主张重新校准运行测量、任务覆盖和评分设计,让性能优化能力的比较更可信。
📖 阅读⬇ PDFBuilding to the Test: Coding Agents Deliver What You Check, Not What You Requested
论文揭示编程智能体往往只优化测试实际检查的内容,而非完整实现用户提出的需求,因此基准通过率可能高估真实软件质量。研究将任务描述、测试覆盖与最终实现进行对照,暴露出模型缺乏主动验证和需求完整性检查的问题,说明编程智能体评测需要加入测试之外的行为与质量审查。
📖 阅读⬇ PDF「Personalization as Inverse Planning」把幻灯片个性化视为逆向规划:从成品页面和用户偏好反推出潜在设计意图,而非模仿表面样式。框架通过多智能体强化学习学习页面级结构决策,并让设计意图脱离具体编辑工具表示,从而提高跨工具迁移能力和个性化生成的一致性。
📖 阅读⬇ PDFAutonomous Scientific Discovery via Iterative Meta-Reflection
该框架面向开放式科学发现,让大模型通过动态代码生成持续提出假设、处理多模态数据并执行分析实验。核心的迭代元反思机制会检查方法、证据和统计结论,再据此修订下一轮研究计划,从而在提高自主性的同时维持统计严谨性和研究过程的可审计性。
📖 阅读⬇ PDF