llama.cpp 为 CUDA 后端增加了量化张量拼接操作,直接加速量化模型在 GPU 上的序列处理。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
llama.cpp 为 CUDA 后端增加了量化张量拼接操作,直接加速量化模型在 GPU 上的序列处理。
百度推出「无限 OCR」,通过改造注意力机制使内存占用不随页数增长,可一次处理数十页文档,目前在关键 OCR 基准上占据榜首。
研究表明 AI 搜索智能体的主要短板不是检索本身,而是面对模糊查询时不愿主动澄清,反复搜索而不提问反而拉低准确率,消除歧义后准确率可提升多达 40 个百分点。
viable/strict/1783276815: [Inductor] `max_autotune` benchmark runs under CUDA Graph (#179246)
PyTorch Inductor 修复了 max_autotune 在 CUDA 图下调优时因包含主机端启动开销而选错配置的问题,新增的 cudagraph_benchmark 能为内存受限核函数选出更优配置。
Mistral CEO Mensch says proprietary AI models give labs a front-row seat to your business processes
Mistral CEO 警告闭源 AI 模型可能让厂商窥探客户业务流程甚至变为竞争对手,尽管 Mistral 性能尚不及前沿模型,正主打欧洲数据主权作为战略卖点。
新 Claude 模型(如 Opus 4.8)在调用工具时会凭空添加额外字段,导致工具调用被拒,反映出更强的模型能力反而可能带来更差的工具遵循性。
llama.cpp 为 K/V 旋转输入添加空缓冲区保护,修复了在投机解码等仅存 K/V 不计算注意力的场景下因未分配缓冲区导致的崩溃。
Meta 正考虑推出「Meta Compute」GPU 算力服务,扎克伯格认为模型进展可以放缓,但 GPU 生意必须盈利,可能搅动算力市场格局。
华为更新「韬定律」论文,明确展示了所放弃的技术路线,对理解其模型缩放规律与研发方向具有重要参考价值。
viable/strict/1783271495: Fix strict export of unregistered parameters (#185728)
PyTorch 修复 strict 导出时动态编译生成的未注册参数引发 KeyError 的问题,现在能正确处理纯 Python 容器内模块的参数映射。
PyTorch Inductor 模式匹配器新增基于值的 get_attr 匹配,可将追踪张量常量转为模式表达式,避免误匹配无关属性。
trunk/9367df4e867741845fe13f8b983d982f09fae52e: Fix CPU bool index_put accumulate codegen (#186523)
修复 CPU 上 bool 类型 index_put 累加操作错误使用原子加回退的问题,移除不必要的设备判断并修正向量化 bool 原子加生成逻辑,提升 CPU 端正确性与性能。
PyTorch Dynamo 修复了 eager_then_compile 场景下张量秩变化导致的动态维度处理错误,过时的 per-source dynamism 元数据现在仅应用于已记录维度,当编译遇到更高秩时能安全回退到常规自动动态处理,避免越界访问元组。
trunk/9feae2979b4c3c1fe4b85fd7c86d5fdc14aa9eff: Fix non-strict export tensor len handling (#185804)
PyTorch 非严格导出修复了 fake tensor 追踪时内置 len() 未修补的问题,此前对张量调用 len 会意外将符号维度具体化为整数并引入等式守卫,破坏动态形状约束,该修复确保 len 返回符号表达式。
PyTorch 为 FakeTensor 卷积加入了跨设备一致性检查,当输入、权重和偏置不在同一设备时直接拒绝,防止 CPU 编译后参数移动到 CUDA 导致 Inductor 生成无效混合设备图,避免 C++ wrapper 路径下的隐晦失败。
viable/strict/1783263139: Allow channels-last out tensors in Dynamo (#185089)
PyTorch Dynamo 放宽了 out= 张量的布局验证,原来仅接受行主连续布局,现允许 channels-last 等内存格式连续的输出张量,消除了对合法 channels-last 操作的全图编译图断裂。
Open-source tool pxpipe hides text in PNGs to cut Claude Code and Fable 5 token costs up to 70%
开源工具 pxpipe 将长文本提示编码进紧凑 PNG,利用 Claude Code 按图像像素而非文本 token 计费的特性,可节省 59% 到 70% 的费用,但会牺牲准确性和速度,提供了一种绕过 token 计费的降本思路。
Alibaba reportedly bans employees from using Claude Code
据报道阿里巴巴已将 Claude Code 归类为高风险软件并禁止员工使用,可能出于安全与数据合规考虑,反映了国内大厂对外部 AI 编程工具的谨慎态度。
ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving
ELDR 专为预填充与解码分离的 MoE 推理设计,利用专家局部性感知的路由策略,通过预测专家激活将请求引导到对应节点,大幅减少跨节点通信,从而提升推理吞吐与延迟表现。
📖 阅读⬇ PDFSeed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity
Seed2.0 直面真实世界复杂任务,重点攻克长尾知识覆盖与复杂指令跟随难题,同时增强了推理、视觉理解与检索能力,并构建了一套紧贴用户需求的鲁棒评测框架。
📖 阅读⬇ PDFAgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents
AgenticSTS 提出有界契约方法,通过类型化检索动态拼装提示,为长时智能体提供可控记忆测试环境,能单独分析记忆组件,在复杂决策任务中展现出更优性能。
📖 阅读⬇ PDFBreaking Failure Cascades: Step-Aware Reinforcement Learning for Medical Multimodal Reasoning
MRPO 使用分步过程奖励来遏制医学多模态推理中的级联错误,通过强化学习逐步修正推理路径,在临床图像推理上明显优于现有方法。
📖 阅读⬇ PDFAutoMem: Automated Learning of Memory as a Cognitive Skill
AutoMem 将大模型的记忆管理视为可训练技能,自动优化记忆结构与使用熟练度,显著提升长时任务表现,为智能体记忆机制提供了自动化训练方案。
📖 阅读⬇ PDFWARP: Weight-Space Analysis for Recovering Training Data Portfolios
WARP 框架通过模型合并与特征提取,分析权重空间中的几何痕迹,能从已公开的模型权重反推出训练数据构成,对理解模型能力来源和数据分析有重要价值。
📖 阅读⬇ PDFDenser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training
该研究发现在持续后训练中使用在线策略自蒸馏虽能加速领域内特化,但无法阻止遗忘,且在分布外场景可能崩溃,揭示了单纯依赖在线策略数据的局限性。
📖 阅读⬇ PDFDiscrete Diffusion Language Models for Interactive Radiology Report Drafting
离散扩散语言模型在医学视觉问答中达到甚至超越自回归模型,同时具备更快的解码速度和双向文本编辑能力,为放射学报告交互起草提供了高效方案。
📖 阅读⬇ PDFTransferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR
TAC 课程学习通过梯度几何对齐估计跨领域可迁移性,优先训练能广泛惠及其他领域的任务,从而提升多领域强化学习的通用推理能力。
📖 阅读⬇ PDFScaling Laws for Grid-Based Approximate Nearest Neighbor Search in High Dimensions
基于网格的多探针算法在高维近似最近邻搜索中展现出比图、树和分区方法更优越的维度缩放特性,使其在需要频繁重建索引的高维场景下极具竞争力。
📖 阅读⬇ PDFEvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments
EvoPolicyGym 让自主智能体在固定预算下通过迭代编辑进化策略,实验表明成功的策略进化离不开任务特定机制与受反馈约束的精细调整。
📖 阅读⬇ PDFMorphing into Hybrid Attention Models
FlashMorph 将混合注意力层选择形式化为预算约束优化问题,借助可变形模型与线性化正则高效选出适配长上下文的层组合,有效提升 Transformer 长文本效率。
📖 阅读⬇ PDFSkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use
SkillCoach 引入自演进量规框架,从技能选择、遵循、组合与反思等过程维度评估并增强智能体技能运用,过程监督比仅看最终结果更能反映真实能力。
📖 阅读⬇ PDFOptimizing Visual Generative Models via Distribution-wise Rewards
该框架为视觉生成引入基于分布级别的奖励强化学习,在提升图像多样性与质量的同时,有效缓解模式坍塌并改善计算效率。
📖 阅读⬇ PDFWhen Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search
DiscoBench 基准评估搜索智能体在模糊查询下的澄清与恢复能力,发现当前智能体在多步信息搜寻中不愿主动提问,反复搜索反致准确率下降,消除歧义后性能可大幅跃升。
📖 阅读⬇ PDFDuoMem: Towards Capable On-Device Memory Agents via Dual-Space Distillation
DuoMem 通过上下文空间与参数空间双重蒸馏,将大模型的程序式问题解决能力迁移到紧凑的端侧学生模型,以极少的额外参数实现高性能与更快推理速度。
📖 阅读⬇ PDFPerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception
PerceptionRubrics 提出量规化评估框架,通过原子审计与门控评分机制,揭示基准分数与真实人类感知的落差,使多模态评估更贴近人本身的判断。
📖 阅读⬇ PDFTurboServe: Serving Streaming Video Generation Efficiently and Economically
TurboServe 专为流式视频生成设计服务系统,通过融合调度、弹性伸缩与状态迁移机制,攻克会话状态和动态资源分配难题,提升生成服务的效率与经济性。
📖 阅读⬇ PDFMultimodal Continuous Reasoning via Asymmetric Mutual Variational Learning
非对称互变分学习针对多模态推理中训练与推理的不一致,利用双向校准防止答案泄漏并提升隐空间稳定性,从而改善连续推理表现。
📖 阅读⬇ PDFCausalMix: Data Mixture as Causal Inference for Language Model Training
CausalMix 将 LLM 数据混合优化归结为因果推断问题,能动态适应数据分布的漂移而无需昂贵重训,为解决数据配比难题提供了新思路。
📖 阅读⬇ PDF