「llama.cpp」最新构建 b9840 合入了对「DeepSeek V4」的支持,包含模型转换、计算图输入、状态存取、RoPE 修正、FlashAttention 启用以及聊天模板等一整套适配工作,并支持 Pro 版模型。对本地推理和量化部署的从业者来说,这意味着 DeepSeek 新一代模型很快就能在 llama.cpp 生态里跑起来。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
「llama.cpp」最新构建 b9840 合入了对「DeepSeek V4」的支持,包含模型转换、计算图输入、状态存取、RoPE 修正、FlashAttention 启用以及聊天模板等一整套适配工作,并支持 Pro 版模型。对本地推理和量化部署的从业者来说,这意味着 DeepSeek 新一代模型很快就能在 llama.cpp 生态里跑起来。
收购仅一年即“决裂”!创始人贾扬清出走英伟达:黄仁勋不满运营效果,20 亿美金的 AI Infra 突围为何折戟?
贾扬清在被英伟达收购仅一年后出走,据称黄仁勋对其运营效果不满,这桩约 20 亿美元的 AI Infra 收购以「决裂」收场。对关注 AI 基础设施赛道的人来说,这一事件折射出明星创业团队并入大厂后在战略与运营磨合上的现实张力,也给 Infra 创业的退出路径敲了个警钟。
「EverMind」开源了「EverOS」——一个本地优先的 agent 记忆运行时,把记忆以纯 Markdown 形式存储、用 SQLite 和 LanceDB 建索引,融合了 BM25 加向量的混合检索、多模态摄入以及可自我进化的 Skills,采用 Apache 2.0 协议。对做 agent 记忆、检索增强的开发者来说,这是一个架构透明、可本地落地的记忆层方案,值得拿来研究混合检索和记忆自演化的实现。
Samsung and SK Hynix plan $590 billion chip investment as AI demand sends memory prices soaring
在 AI 数据中心需求暴涨的推动下,三星与 SK 海力士在韩国政府支持下计划投入 5900 亿美元新建芯片工厂和封装中心。据 Jefferies 预测,到 2027 年内存价格每季度涨幅可能高达 50%,而这两家掌控着全球近 80% 的 HBM 市场。对做 AI Infra、关注算力成本的从业者来说,这预示着内存和 HBM 供给与价格将持续紧张,直接影响建集群的成本。
AWS 推出开源框架 Blocks,面向 AI 智能体的后端开发工具
AWS 推出开源框架「Blocks」,定位为面向 AI 智能体的后端开发工具,帮助开发者更便捷地搭建 agent 的后端服务。对做 agent 应用工程化的开发者来说,这又多了一个来自大厂、可直接上手的后端脚手架选项,值得关注其与现有 agent 框架的配合方式。
不设KPI,MiniMax发6亿港元股票,员工满年限即可全拿;曝苹果游说特朗普采购中国长鑫存储芯片;DeepSeek 与北大联合开源 DSpark | AI周报
本期 AI 周报信息密集:MiniMax 发放 6 亿港元股票、员工满年限即可全拿且不设 KPI;有消息称苹果在游说特朗普政府采购中国长鑫存储芯片;DeepSeek 与北京大学联合开源了「DSpark」。对关注国内大模型厂商动向和芯片供应链的从业者,这几条分别牵涉人才激励、存储芯片地缘博弈和开源生态,都值得留意。
Micro-Agent: Beat Frontier Models with Collaboration inside Model API
vLLM 博客介绍了「Micro-Agent」:通过「vLLM Semantic Router」把 vllm-sr/auto 变成一个有边界的微型 agent 运行时,支持置信度、评分、ReMoM、融合、工作流等多种协作模式,让模型在 API 内部就能靠协作去逼近乃至超越前沿模型的表现。对做推理服务和 agent 编排的人来说,这是一种把多模型协作下沉到 serving 层的有意思打法。
GPT-5.6 preview ☀️, Grok 4.5 beta 🤖, Google limits Meta 🛑
本期 TLDR AI 速览三条重磅:「GPT-5.6」放出预览、「Grok 4.5」进入 beta,以及谷歌对 Meta 的某项使用做出限制。对追踪各大模型厂商节奏的人来说,OpenAI 与 xAI 新版本接连亮相,叠加平台间的相互设限,反映出前沿模型竞争与生态博弈正同时升温。
Meta restricts use of Claude Code and Codex to keep rival AI out of its training data
据报道,Meta 正限制工程师使用 Anthropic 的「Claude」和 OpenAI 的「Codex」编程工具,目的是防止竞品 AI 的输出被无意中吸收进自家模型的训练数据。对关注大模型厂商竞争与数据合规的人来说,这一举动说明各家已开始严防训练数据被对手「污染」或蒸馏,编程助手的内部使用正成为新的竞争与防范前线。
v2.13.0-rc11: [release/2.13] Update manywheel docker image pin to 78e737ad (#188409)
「PyTorch」发布 v2.13.0-rc11 候选版本,主要把 manywheel 构建用的 Docker 镜像 pin 更新到了最新的 manylinux2_28 / aarch64 builder 镜像,并确认新镜像已在 Docker Hub 发布。这属于发版流程中的构建环境维护,对依赖 PyTorch 预编译包的工程团队来说,关注的是 2.13 正式版临近、构建链路在稳步收敛。
AWS Graviton5 正式发布,具备 192 个内核和经过正式验证的虚拟机隔离功能
AWS 正式发布「Graviton5」,具备 192 个内核,并提供经过形式化验证的虚拟机隔离能力。对做 AI Infra 和云端部署的从业者来说,更高核数加上经形式化验证的隔离,意味着 ARM 服务器在算力密度和安全隔离上又进一步,值得评估其在推理和数据处理场景下的性价比。
Open Models, Closed Environments: Palantir Brings Secure AI to US Agencies With NVIDIA Nemotron
Palantir 推出基于英伟达「Nemotron」开源模型的新型智能引擎,面向美国政府机构提供可在封闭、安全环境中运行的 AI 能力。对关注开源模型落地和政企部署的人来说,这是开源基座模型进入高合规、强隔离场景的一个典型案例,也凸显了 Nemotron 在政企市场的卡位。
不靠低价抢客户,月之暗面Kimi出海,凭什么硬刚海外AI“御三家”?
月之暗面 Kimi 启动出海,文章探讨其并不靠低价抢客户,而是凭借产品与能力去硬刚海外 AI「御三家」。对关注国内大模型厂商全球化的人来说,Kimi 的出海打法和定位选择,是观察中国大模型如何在海外高端市场立足的一个有代表性的样本。
量子位报道称,一款名为「Claude Mythos」的产品(或事件)促使梁文锋下定决心为 DeepSeek 融资,配文直言「不储备弹药根本没法打下去了」。对关注 DeepSeek 战略的人来说,这透露出在前沿模型军备竞赛加剧的背景下,即便以高效著称的 DeepSeek 也感到了资金储备的压力,融资节奏可能随之提速。
「PyTorch」一次代码提交修复了组合内核(combo kernel)在动态持久化归约维度下崩溃的问题。这是编译器/内核层面的稳定性修复,对依赖 torch.compile、在动态形状下做归约运算的用户来说,能避免一类崩溃,属于值得留意的底层可靠性改进。
trunk/70c0653cd417212ab12a0541b0c1778a02abb093
「PyTorch」主干分支合入了修复组合内核在动态持久化归约维度下崩溃的提交,与候选版本中的同名修复对应。对跟踪 PyTorch 主干、依赖编译归约的用户来说,这条记录意味着该稳定性修复已进入主线,可在后续构建中获得。
「PyTorch」移除了一处针对 SM100 及更新架构的过时测试跳过标记(xfailIfSM100OrLater),意味着相关测试在新一代 GPU 架构上已能正常通过、不再需要豁免。对关注 PyTorch 在最新 NVIDIA 架构上支持成熟度的人来说,这类清理反映了对新硬件的适配正逐步收尾。
「ms-swift」(魔搭)发布补丁版本 v4.3.2,属于在 v4.3.1 基础上的小幅修复更新。对使用 ms-swift 做大模型微调、训练的用户来说,建议关注其完整变更日志以确认是否包含与自己训练流程相关的修复。
viable/strict/1782712533: [MPS] Fix BatchNorm channels_last backward crash (#188371)
PyTorch 修复了一个 MPS(苹果芯片 GPU 后端)上的具体 bug:当 BatchNorm2d 接收 channels_last 内存布局的输入做反向传播时会崩溃。提交里附了最小复现脚本,对照 CPU 与 MPS 两路梯度的最大绝对误差来验证修复。对在 Mac 上做训练或调试视觉模型的开发者,这类后端一致性补丁能避免静默错误或崩溃。
llama.cpp 发布 b9837 版本,主要新增「--reasoning-preserve」标志,配合 jinja 模板与 chat 接口,让推理过程(思维链)内容在对话中得以保留而非被裁掉。该版本照例提供覆盖 macOS、Linux、Android、Windows 及 Vulkan/ROCm/SYCL/OpenVINO 等多平台多后端的预编译包。对部署本地推理模型、需要展示或下游消费 reasoning 内容的用户值得关注。
llama.cpp 发布 b9835 版本,修复了 Web UI 在单模型模式下「停止生成」与「跳过 reasoning」两个交互问题。同样附带 macOS、Linux、Android、Windows 以及 Vulkan、ROCm、OpenCL Adreno 等多平台预编译产物。属于面向本地推理 UI 体验的小步迭代更新。
HP Inc. launches Frontier strategic partnership with OpenAI
惠普(HP Inc.)与 OpenAI 升级「Frontier」战略合作,把 AI 规模化部署到客户体验、软件开发和企业运营等环节。这是 OpenAI 推进面向大型 PC/硬件厂商的企业级落地的又一动作,显示其 Frontier 合作计划正从单点试用走向跨业务线铺开。
How to Govern Autonomous Agents in Enterprise AI Factories
NVIDIA 开发者博客探讨企业「AI 工厂」中如何治理自主智能体——这些 Agent 已不止于聊天,而会检查代码、跑测试、读文档、查知识库、访问内部系统并连续运行数小时。文章面向要在生产环境约束智能体权限与行为的团队,点出可观测、权限管控与合规治理的必要性。
PyTorch 将 torch_tpu 的 commit pin 升级以修复 inductor-pallas-tpu 的构建中断,捞入两个外部修复:移除已废弃的 torch.cholesky 算子(去掉相应头文件与 autocast 策略),以及在类型转换中处理新增的 BComplex32 标量类型以消除编译告警。属于维护 TPU 经 Inductor/Pallas 编译路径可用性的内部修补。
Qwen-Image-2.0-RL Technical Report
针对扩散模型在图像生成与编辑中视觉质量不够精细、指令遵循能力偏弱的问题,「Qwen-Image-2.0-RL」把强化学习和在线策略蒸馏(on-policy distillation)结合起来做后训练,让模型在贴合人类偏好的同时把生成质量提上去。亮点在于用 RL 对齐奖励、再用 on-policy 蒸馏把这套能力压进更高效的采样路径,兼顾了画质与指令服从度。对做文生图、图像编辑落地的人来说,这是一条把奖励对齐和推理效率一起优化的可参考思路。
📖 阅读⬇ PDFCluster, Route, Escalate: Cascaded Framework for Cost-Aware LLM Serving
面向大模型服务的成本控制痛点,这篇提出「Cluster, Route, Escalate」级联框架:先对查询做聚类,再按质量估计把请求路由到合适规模的模型,简单问题走小模型、难题才升级到大模型。核心巧思是用聚类加质量预估来决定何时「升级」,在精度和成本之间找平衡点。对要把推理成本压下来又不想牺牲准确率的 serving 团队,这是一套可直接借鉴的级联路由方案。
📖 阅读⬇ PDFGBC: Gradient-Based Connections for Optimizing Multi-Agent Systems
多智能体系统出了错往往说不清是哪个 agent、哪一步坏的,「GBC」(Gradient-Based Connections)把 agent 之间的交互建模成一张计算图,用基于梯度的连接权重做细粒度归因,能把错误源头定位到 token 级别。这种把多智能体协作当作可微计算图来优化的思路,让系统不只是定位问题,还能顺着梯度去优化连接。对调试和打磨复杂 multi-agent 流水线的人来说,提供了一个比黑盒试错精细得多的归因与优化抓手。
📖 阅读⬇ PDFProMSA:Progressive Multimodal Search Agents for Knowledge-Based Visual Question Answering
针对知识型视觉问答需要外部检索、但检索策略往往一刀切的问题,「ProMSA」做了一个渐进式多模态搜索 agent:它能根据问题自适应地选择检索策略,并用序列级强化学习来端到端优化整个搜索决策过程。巧在把「该搜什么、怎么搜」交给 RL 学出来,而不是写死规则。对做带检索的多模态问答、想让 agent 自己学会高效查证的研究者,这是一个值得参考的范式。
📖 阅读⬇ PDFNormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning
这篇发现了一个反直觉的现象:对流匹配(flow-matching)生成器做 RL 后训练时,会出现速度场范数膨胀(velocity norm inflation),悄悄拖垮感知质量,而光靠推理时修正救不回来。「NormGuard」据此主张在训练阶段就加入保留奖励的范数约束,让模型既守住奖励对齐又不掉画质。对做扩散/流模型 RL 对齐的人来说,点明了一个容易被忽视的质量塌陷根因,并给出了训练时干预这一更对症的解法。
📖 阅读⬇ PDFMultiHashFormer: Hash-based Generative Language Models
「MultiHashFormer」尝试给语言模型换一种 token 表示:把 token 编码成哈希签名,通过 Hash Encoder 和 Hash Decoder 在 Transformer 框架内做基于哈希的自回归生成。这一思路的意义在于绕开传统巨大词表,用哈希签名来压缩和处理 token,为词表膨胀和表示效率问题提供了另一种可能。对关注模型架构创新、想探索非常规 tokenization 的研究者,这是个有想象空间的方向。
📖 阅读⬇ PDF语音对话 agent 一直卡在「想得慢就答得慢、答得快就想不深」的两难,这篇提出「对话填充」(conversational infill):让小而快的实时模型先保持流畅应答,同时在推理时把延迟到达的深度推理结果增量地融进对话里,相当于边说边补脑。核心是把延迟的推理输出与实时生成解耦再缝合,从而在低延迟和高智能之间架桥。对做实时语音 agent、苦于响应速度与回答质量不可兼得的团队,这是一条很实用的工程思路。
📖 阅读⬇ PDFFormalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs
这篇为大模型的「潜在思维」(latent thoughts)表示提出了一套公理化评测框架,用四条关于思维表示的基本功能公理去检验模型,结果发现当前各种架构的潜在思维表示在多类推理任务上都系统性地违反这些公理、表现并不一致。价值在于它不止是刷分,而是从「思维表示该满足什么性质」这个第一性原理出发去诊断缺陷,为理解和改进隐式推理表示提供了理论标尺。对做推理机制、可解释性研究的人很有参考意义。
📖 阅读⬇ PDFParallel Rollout Approximation for Pixel-Space Autoregressive Image Generation
像素空间的自回归图像生成又慢又难训,「PRA」(Parallel Rollout Approximation)用低维中间状态来近似生成轨迹,并配合并行训练来同时改善质量和效率。巧思在于不在高维像素上一步步硬算,而是借低维中间表示把串行的 rollout 近似成可并行的过程。对探索像素级自回归生成、想兼顾画质与训练吞吐的研究者,这是一个值得一看的加速方案。
📖 阅读⬇ PDFKo-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents
「Ko-WideSearch」是一个面向 Web agent 的韩语广度搜索基准,要求 agent 完整枚举某类实体的全部成员并填出带属性的表格,专门考查「搜得全不全」而非「搜得准不准」。它揭示出一个普遍短板:即便 agent 能正确识别出该找哪一类集合,在逐行回收完整成员时却频频漏行。对做 web agent、深度检索的人来说,这个基准点出了穷举式检索这一被低估的难点。
📖 阅读⬇ PDFAgentOdyssey: Open-Ended Long-Horizon Text Game Generation for Test-Time Continual Learning Agents
「AgentOdyssey」用程序化生成的开放式文本游戏来评测「测试时持续学习」的 agent,在连续、长程的设定里同时考查学习、记忆、探索和规划四种能力。它的价值在于把持续学习放进不断变化、没有尽头的环境里检验,逼出 agent 在长时间跨度上积累经验和适应的真实水平,而不是一次性任务的快照。对做长程 agent、记忆与持续学习的研究者是个有分量的试金石。
📖 阅读⬇ PDFTo Run or Not to Run: Analyzing the Cost-Effectiveness of Code Execution in LLM-Based Program Repair
代码修复 agent 普遍依赖跑测试来验证补丁,但这篇分析发现这种「执行式」验证的性价比并不稳定,很多情况下跑代码的开销其实盖过了它带来的收益。研究价值在于用实证把「该不该跑」这件被默认为理所当然的事拆开算账,提醒大家执行验证不是免费午餐。对设计程序修复、代码 agent 的人来说,这提供了在准确率和算力成本间取舍的实证依据。
📖 阅读⬇ PDFHow Much Static Structure Do Code Agents Need? A Study of Deterministic Anchoring
这篇研究代码 agent 到底需要多少静态结构信息:通过给 agent 注入静态分析得来的注解,作为确定性的结构锚点,帮它在代码库里导航。结果表明这些确定性锚点能提升探索的可预测性、降低 agent 行为的随机波动。对做代码 agent 的人来说,它给出一个实用结论——适量的静态结构标注能让 agent 在大型代码库里跑得更稳更可控。
📖 阅读⬇ PDFMemoBench: Benchmarking World Modeling in Dynamically Changing Environments
「MemoBench」是一个诊断式基准,专门检验视频生成模型在动态变化环境中的记忆一致性——比如物体消失后再以更新过的状态重新出现,模型还记不记得、状态对不对。它把「世界建模的记忆连贯性」这个容易被忽视的维度单拎出来做压力测试。对做视频生成、世界模型的研究者,这个基准提供了一把衡量长时一致性的诊断尺子。
📖 阅读⬇ PDF