🗂 历史归档
每日 AI 速览

2026-06-29

生成于 2026-06-30 04:08
⚠️ 本页行业动态来源于互联网公开信息,可能存在不实或失准内容,请仔细辨别消息真实性

今日导语

今日基座与厂商动态密集:「GPT-5.6」预览、「Grok 4.5」测试版同台亮相,「DeepSeek」与北大联合开源「DSpark」、月之暗面「Kimi」加速出海,「Qwen-Image-2.0-RL」技术报告则展示了图像生成与强化学习的结合。AI Infra 层面信号尤为强烈:贾扬清从英伟达出走,折射出二十亿美元级 Infra 整合的现实落差;三星与「SK Hynix」拟投五千九百亿美元扩产,AI 需求推高内存价格;「AWS Graviton5」与面向智能体后端的开源框架「Blocks」相继发布。生态侧,「Meta」限制对手编码工具以护住训练数据,凸显数据与模型护城河之争。Agent 方向论文聚焦成本感知服务、多智能体梯度连接与长程持续学习。

🗞 行业动态 24 条

b9840

llama.cpp · 06-29 18:27 UTC+8

「llama.cpp」最新构建 b9840 合入了对「DeepSeek V4」的支持,包含模型转换、计算图输入、状态存取、RoPE 修正、FlashAttention 启用以及聊天模板等一整套适配工作,并支持 Pro 版模型。对本地推理和量化部署的从业者来说,这意味着 DeepSeek 新一代模型很快就能在 llama.cpp 生态里跑起来。

推理优化llama.cppDeepSeek本地推理

收购仅一年即“决裂”!创始人贾扬清出走英伟达:黄仁勋不满运营效果,20 亿美金的 AI Infra 突围为何折戟?

InfoQ 中文 · 06-29 23:29 UTC+8

贾扬清在被英伟达收购仅一年后出走,据称黄仁勋对其运营效果不满,这桩约 20 亿美元的 AI Infra 收购以「决裂」收场。对关注 AI 基础设施赛道的人来说,这一事件折射出明星创业团队并入大厂后在战略与运营磨合上的现实张力,也给 Infra 创业的退出路径敲了个警钟。

厂商动态AI Infra英伟达贾扬清行业动态

Meet EverOS: An Open Source Markdown-First Agent Memory Runtime With Hybrid BM25 + Vector Retrieval and Self-Evolving Skills

MarkTechPost · 06-29 18:42 UTC+8

「EverMind」开源了「EverOS」——一个本地优先的 agent 记忆运行时,把记忆以纯 Markdown 形式存储、用 SQLite 和 LanceDB 建索引,融合了 BM25 加向量的混合检索、多模态摄入以及可自我进化的 Skills,采用 Apache 2.0 协议。对做 agent 记忆、检索增强的开发者来说,这是一个架构透明、可本地落地的记忆层方案,值得拿来研究混合检索和记忆自演化的实现。

AgentAgent记忆混合检索开源向量检索

Samsung and SK Hynix plan $590 billion chip investment as AI demand sends memory prices soaring

The Decoder · 06-29 16:17 UTC+8

在 AI 数据中心需求暴涨的推动下,三星与 SK 海力士在韩国政府支持下计划投入 5900 亿美元新建芯片工厂和封装中心。据 Jefferies 预测,到 2027 年内存价格每季度涨幅可能高达 50%,而这两家掌控着全球近 80% 的 HBM 市场。对做 AI Infra、关注算力成本的从业者来说,这预示着内存和 HBM 供给与价格将持续紧张,直接影响建集群的成本。

Infra芯片HBM内存涨价AI算力

AWS 推出开源框架 Blocks,面向 AI 智能体的后端开发工具

InfoQ 中文 · 06-29 22:00 UTC+8

AWS 推出开源框架「Blocks」,定位为面向 AI 智能体的后端开发工具,帮助开发者更便捷地搭建 agent 的后端服务。对做 agent 应用工程化的开发者来说,这又多了一个来自大厂、可直接上手的后端脚手架选项,值得关注其与现有 agent 框架的配合方式。

AgentAWSAgent框架开源后端开发

不设KPI,MiniMax发6亿港元股票,员工满年限即可全拿;曝苹果游说特朗普采购中国长鑫存储芯片;DeepSeek 与北大联合开源 DSpark | AI周报

InfoQ 中文 · 06-29 17:58 UTC+8

本期 AI 周报信息密集:MiniMax 发放 6 亿港元股票、员工满年限即可全拿且不设 KPI;有消息称苹果在游说特朗普政府采购中国长鑫存储芯片;DeepSeek 与北京大学联合开源了「DSpark」。对关注国内大模型厂商动向和芯片供应链的从业者,这几条分别牵涉人才激励、存储芯片地缘博弈和开源生态,都值得留意。

InfraMiniMaxDeepSeek行业周报芯片

Micro-Agent: Beat Frontier Models with Collaboration inside Model API

vLLM 博客 · 06-29 08:00 UTC+8

vLLM 博客介绍了「Micro-Agent」:通过「vLLM Semantic Router」把 vllm-sr/auto 变成一个有边界的微型 agent 运行时,支持置信度、评分、ReMoM、融合、工作流等多种协作模式,让模型在 API 内部就能靠协作去逼近乃至超越前沿模型的表现。对做推理服务和 agent 编排的人来说,这是一种把多模型协作下沉到 serving 层的有意思打法。

AgentvLLMMicro-Agent模型路由推理服务

GPT-5.6 preview ☀️, Grok 4.5 beta 🤖, Google limits Meta 🛑

TLDR AI · 06-29 08:00 UTC+8

本期 TLDR AI 速览三条重磅:「GPT-5.6」放出预览、「Grok 4.5」进入 beta,以及谷歌对 Meta 的某项使用做出限制。对追踪各大模型厂商节奏的人来说,OpenAI 与 xAI 新版本接连亮相,叠加平台间的相互设限,反映出前沿模型竞争与生态博弈正同时升温。

厂商动态GPT-5.6Grok模型发布行业动态

Meta restricts use of Claude Code and Codex to keep rival AI out of its training data

The Decoder · 06-29 23:47 UTC+8

据报道,Meta 正限制工程师使用 Anthropic 的「Claude」和 OpenAI 的「Codex」编程工具,目的是防止竞品 AI 的输出被无意中吸收进自家模型的训练数据。对关注大模型厂商竞争与数据合规的人来说,这一举动说明各家已开始严防训练数据被对手「污染」或蒸馏,编程助手的内部使用正成为新的竞争与防范前线。

厂商动态MetaClaude训练数据厂商竞争

v2.13.0-rc11: [release/2.13] Update manywheel docker image pin to 78e737ad (#188409)

PyTorch · 06-29 22:19 UTC+8

「PyTorch」发布 v2.13.0-rc11 候选版本,主要把 manywheel 构建用的 Docker 镜像 pin 更新到了最新的 manylinux2_28 / aarch64 builder 镜像,并确认新镜像已在 Docker Hub 发布。这属于发版流程中的构建环境维护,对依赖 PyTorch 预编译包的工程团队来说,关注的是 2.13 正式版临近、构建链路在稳步收敛。

InfraPyTorch版本发布构建

AWS Graviton5 正式发布,具备 192 个内核和经过正式验证的虚拟机隔离功能

InfoQ 中文 · 06-29 19:50 UTC+8

AWS 正式发布「Graviton5」,具备 192 个内核,并提供经过形式化验证的虚拟机隔离能力。对做 AI Infra 和云端部署的从业者来说,更高核数加上经形式化验证的隔离,意味着 ARM 服务器在算力密度和安全隔离上又进一步,值得评估其在推理和数据处理场景下的性价比。

InfraAWSGraviton5芯片云计算

Open Models, Closed Environments: Palantir Brings Secure AI to US Agencies With NVIDIA Nemotron

NVIDIA 博客 · 06-29 18:59 UTC+8

Palantir 推出基于英伟达「Nemotron」开源模型的新型智能引擎,面向美国政府机构提供可在封闭、安全环境中运行的 AI 能力。对关注开源模型落地和政企部署的人来说,这是开源基座模型进入高合规、强隔离场景的一个典型案例,也凸显了 Nemotron 在政企市场的卡位。

厂商动态PalantirNVIDIANemotron政企AI

不靠低价抢客户,月之暗面Kimi出海,凭什么硬刚海外AI“御三家”?

InfoQ 中文 · 06-29 18:03 UTC+8

月之暗面 Kimi 启动出海,文章探讨其并不靠低价抢客户,而是凭借产品与能力去硬刚海外 AI「御三家」。对关注国内大模型厂商全球化的人来说,Kimi 的出海打法和定位选择,是观察中国大模型如何在海外高端市场立足的一个有代表性的样本。

厂商动态Kimi月之暗面出海大模型厂商

Claude Mythos让梁文锋决定融资

量子位 · 06-29 16:54 UTC+8

量子位报道称,一款名为「Claude Mythos」的产品(或事件)促使梁文锋下定决心为 DeepSeek 融资,配文直言「不储备弹药根本没法打下去了」。对关注 DeepSeek 战略的人来说,这透露出在前沿模型军备竞赛加剧的背景下,即便以高效著称的 DeepSeek 也感到了资金储备的压力,融资节奏可能随之提速。

厂商动态DeepSeek梁文锋融资行业动态

viable/strict/1782740907

PyTorch · 06-29 16:09 UTC+8

「PyTorch」一次代码提交修复了组合内核(combo kernel)在动态持久化归约维度下崩溃的问题。这是编译器/内核层面的稳定性修复,对依赖 torch.compile、在动态形状下做归约运算的用户来说,能避免一类崩溃,属于值得留意的底层可靠性改进。

InfraPyTorch内核Bug修复

trunk/70c0653cd417212ab12a0541b0c1778a02abb093

PyTorch · 06-29 16:09 UTC+8

「PyTorch」主干分支合入了修复组合内核在动态持久化归约维度下崩溃的提交,与候选版本中的同名修复对应。对跟踪 PyTorch 主干、依赖编译归约的用户来说,这条记录意味着该稳定性修复已进入主线,可在后续构建中获得。

InfraPyTorch内核Bug修复

viable/strict/1782734236

PyTorch · 06-29 15:41 UTC+8

「PyTorch」移除了一处针对 SM100 及更新架构的过时测试跳过标记(xfailIfSM100OrLater),意味着相关测试在新一代 GPU 架构上已能正常通过、不再需要豁免。对关注 PyTorch 在最新 NVIDIA 架构上支持成熟度的人来说,这类清理反映了对新硬件的适配正逐步收尾。

InfraPyTorch测试GPU架构

Patch release v4.3.2

ms-swift 魔搭 · 06-29 11:20 UTC+8

「ms-swift」(魔搭)发布补丁版本 v4.3.2,属于在 v4.3.1 基础上的小幅修复更新。对使用 ms-swift 做大模型微调、训练的用户来说,建议关注其完整变更日志以确认是否包含与自己训练流程相关的修复。

训练ms-swift微调版本发布

viable/strict/1782712533: [MPS] Fix BatchNorm channels_last backward crash (#188371)

PyTorch · 06-29 08:34 UTC+8

PyTorch 修复了一个 MPS(苹果芯片 GPU 后端)上的具体 bug:当 BatchNorm2d 接收 channels_last 内存布局的输入做反向传播时会崩溃。提交里附了最小复现脚本,对照 CPU 与 MPS 两路梯度的最大绝对误差来验证修复。对在 Mac 上做训练或调试视觉模型的开发者,这类后端一致性补丁能避免静默错误或崩溃。

InfraPyTorchMPS后端BatchNorm

b9837

llama.cpp · 06-29 08:07 UTC+8

llama.cpp 发布 b9837 版本,主要新增「--reasoning-preserve」标志,配合 jinja 模板与 chat 接口,让推理过程(思维链)内容在对话中得以保留而非被裁掉。该版本照例提供覆盖 macOS、Linux、Android、Windows 及 Vulkan/ROCm/SYCL/OpenVINO 等多平台多后端的预编译包。对部署本地推理模型、需要展示或下游消费 reasoning 内容的用户值得关注。

推理优化llama.cpp推理保留本地推理

b9835

llama.cpp · 06-29 03:38 UTC+8

llama.cpp 发布 b9835 版本,修复了 Web UI 在单模型模式下「停止生成」与「跳过 reasoning」两个交互问题。同样附带 macOS、Linux、Android、Windows 以及 Vulkan、ROCm、OpenCL Adreno 等多平台预编译产物。属于面向本地推理 UI 体验的小步迭代更新。

推理优化llama.cppWeb界面版本发布

HP Inc. launches Frontier strategic partnership with OpenAI

OpenAI · 06-29 01:00 UTC+8

惠普(HP Inc.)与 OpenAI 升级「Frontier」战略合作,把 AI 规模化部署到客户体验、软件开发和企业运营等环节。这是 OpenAI 推进面向大型 PC/硬件厂商的企业级落地的又一动作,显示其 Frontier 合作计划正从单点试用走向跨业务线铺开。

厂商动态OpenAI企业合作AI落地

How to Govern Autonomous Agents in Enterprise AI Factories

NVIDIA 开发者 · 06-29 23:50 UTC+8

NVIDIA 开发者博客探讨企业「AI 工厂」中如何治理自主智能体——这些 Agent 已不止于聊天,而会检查代码、跑测试、读文档、查知识库、访问内部系统并连续运行数小时。文章面向要在生产环境约束智能体权限与行为的团队,点出可观测、权限管控与合规治理的必要性。

AgentAgent治理NVIDIA企业AI

trunk/6099a1195083934d1ef47b5b78391b6dcb09e244: Bump torch_tpu pin to fix inductor-pallas-tpu build (#188290) (#188292)

PyTorch · 06-29 23:38 UTC+8

PyTorch 将 torch_tpu 的 commit pin 升级以修复 inductor-pallas-tpu 的构建中断,捞入两个外部修复:移除已废弃的 torch.cholesky 算子(去掉相应头文件与 autocast 策略),以及在类型转换中处理新增的 BComplex32 标量类型以消除编译告警。属于维护 TPU 经 Inductor/Pallas 编译路径可用性的内部修补。

InfraPyTorchTPU构建修复

📄 论文 14 篇

「Cluster, Route, Escalate」提出聚类与级联路由框架,在保证质量前提下显著压低大模型服务成本,值得关注。

Qwen-Image-2.0-RL Technical Report

HF 精选 · 06-29 08:00 UTC+8

针对扩散模型在图像生成与编辑中视觉质量不够精细、指令遵循能力偏弱的问题,「Qwen-Image-2.0-RL」把强化学习和在线策略蒸馏(on-policy distillation)结合起来做后训练,让模型在贴合人类偏好的同时把生成质量提上去。亮点在于用 RL 对齐奖励、再用 on-policy 蒸馏把这套能力压进更高效的采样路径,兼顾了画质与指令服从度。对做文生图、图像编辑落地的人来说,这是一条把奖励对齐和推理效率一起优化的可参考思路。

后训练扩散模型强化学习图像生成Qwen
📖 阅读⬇ PDF

Cluster, Route, Escalate: Cascaded Framework for Cost-Aware LLM Serving

HF 精选 · 06-29 08:00 UTC+8

面向大模型服务的成本控制痛点,这篇提出「Cluster, Route, Escalate」级联框架:先对查询做聚类,再按质量估计把请求路由到合适规模的模型,简单问题走小模型、难题才升级到大模型。核心巧思是用聚类加质量预估来决定何时「升级」,在精度和成本之间找平衡点。对要把推理成本压下来又不想牺牲准确率的 serving 团队,这是一套可直接借鉴的级联路由方案。

推理优化LLM推理成本优化模型路由级联框架
📖 阅读⬇ PDF

GBC: Gradient-Based Connections for Optimizing Multi-Agent Systems

HF 精选 · 06-29 08:00 UTC+8

多智能体系统出了错往往说不清是哪个 agent、哪一步坏的,「GBC」(Gradient-Based Connections)把 agent 之间的交互建模成一张计算图,用基于梯度的连接权重做细粒度归因,能把错误源头定位到 token 级别。这种把多智能体协作当作可微计算图来优化的思路,让系统不只是定位问题,还能顺着梯度去优化连接。对调试和打磨复杂 multi-agent 流水线的人来说,提供了一个比黑盒试错精细得多的归因与优化抓手。

Agent多智能体梯度归因Agent优化
📖 阅读⬇ PDF

ProMSA:Progressive Multimodal Search Agents for Knowledge-Based Visual Question Answering

HF 精选 · 06-29 08:00 UTC+8

针对知识型视觉问答需要外部检索、但检索策略往往一刀切的问题,「ProMSA」做了一个渐进式多模态搜索 agent:它能根据问题自适应地选择检索策略,并用序列级强化学习来端到端优化整个搜索决策过程。巧在把「该搜什么、怎么搜」交给 RL 学出来,而不是写死规则。对做带检索的多模态问答、想让 agent 自己学会高效查证的研究者,这是一个值得参考的范式。

Agent多模态视觉问答搜索Agent强化学习
📖 阅读⬇ PDF

NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning

HF 精选 · 06-29 08:00 UTC+8

这篇发现了一个反直觉的现象:对流匹配(flow-matching)生成器做 RL 后训练时,会出现速度场范数膨胀(velocity norm inflation),悄悄拖垮感知质量,而光靠推理时修正救不回来。「NormGuard」据此主张在训练阶段就加入保留奖励的范数约束,让模型既守住奖励对齐又不掉画质。对做扩散/流模型 RL 对齐的人来说,点明了一个容易被忽视的质量塌陷根因,并给出了训练时干预这一更对症的解法。

后训练流匹配强化学习图像生成奖励对齐
📖 阅读⬇ PDF

MultiHashFormer: Hash-based Generative Language Models

HF 精选 · 06-29 08:00 UTC+8

「MultiHashFormer」尝试给语言模型换一种 token 表示:把 token 编码成哈希签名,通过 Hash Encoder 和 Hash Decoder 在 Transformer 框架内做基于哈希的自回归生成。这一思路的意义在于绕开传统巨大词表,用哈希签名来压缩和处理 token,为词表膨胀和表示效率问题提供了另一种可能。对关注模型架构创新、想探索非常规 tokenization 的研究者,这是个有想象空间的方向。

基座模型架构语言模型哈希Tokenization
📖 阅读⬇ PDF

Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents

HF 精选 · 06-29 08:00 UTC+8

语音对话 agent 一直卡在「想得慢就答得慢、答得快就想不深」的两难,这篇提出「对话填充」(conversational infill):让小而快的实时模型先保持流畅应答,同时在推理时把延迟到达的深度推理结果增量地融进对话里,相当于边说边补脑。核心是把延迟的推理输出与实时生成解耦再缝合,从而在低延迟和高智能之间架桥。对做实时语音 agent、苦于响应速度与回答质量不可兼得的团队,这是一条很实用的工程思路。

Agent语音Agent推理优化低延迟知识迁移
📖 阅读⬇ PDF

Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

HF 精选 · 06-29 08:00 UTC+8

这篇为大模型的「潜在思维」(latent thoughts)表示提出了一套公理化评测框架,用四条关于思维表示的基本功能公理去检验模型,结果发现当前各种架构的潜在思维表示在多类推理任务上都系统性地违反这些公理、表现并不一致。价值在于它不止是刷分,而是从「思维表示该满足什么性质」这个第一性原理出发去诊断缺陷,为理解和改进隐式推理表示提供了理论标尺。对做推理机制、可解释性研究的人很有参考意义。

基座推理可解释性评测潜在思维
📖 阅读⬇ PDF

Parallel Rollout Approximation for Pixel-Space Autoregressive Image Generation

HF 精选 · 06-29 08:00 UTC+8

像素空间的自回归图像生成又慢又难训,「PRA」(Parallel Rollout Approximation)用低维中间状态来近似生成轨迹,并配合并行训练来同时改善质量和效率。巧思在于不在高维像素上一步步硬算,而是借低维中间表示把串行的 rollout 近似成可并行的过程。对探索像素级自回归生成、想兼顾画质与训练吞吐的研究者,这是一个值得一看的加速方案。

基座自回归生成图像生成并行训练推理加速
📖 阅读⬇ PDF

Ko-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents

HF 精选 · 06-29 08:00 UTC+8

「Ko-WideSearch」是一个面向 Web agent 的韩语广度搜索基准,要求 agent 完整枚举某类实体的全部成员并填出带属性的表格,专门考查「搜得全不全」而非「搜得准不准」。它揭示出一个普遍短板:即便 agent 能正确识别出该找哪一类集合,在逐行回收完整成员时却频频漏行。对做 web agent、深度检索的人来说,这个基准点出了穷举式检索这一被低估的难点。

AgentWeb Agent检索基准枚举搜索
📖 阅读⬇ PDF

AgentOdyssey: Open-Ended Long-Horizon Text Game Generation for Test-Time Continual Learning Agents

HF 精选 · 06-29 08:00 UTC+8

「AgentOdyssey」用程序化生成的开放式文本游戏来评测「测试时持续学习」的 agent,在连续、长程的设定里同时考查学习、记忆、探索和规划四种能力。它的价值在于把持续学习放进不断变化、没有尽头的环境里检验,逼出 agent 在长时间跨度上积累经验和适应的真实水平,而不是一次性任务的快照。对做长程 agent、记忆与持续学习的研究者是个有分量的试金石。

AgentAgent评测持续学习长程任务文本游戏
📖 阅读⬇ PDF

To Run or Not to Run: Analyzing the Cost-Effectiveness of Code Execution in LLM-Based Program Repair

HF 精选 · 06-29 08:00 UTC+8

代码修复 agent 普遍依赖跑测试来验证补丁,但这篇分析发现这种「执行式」验证的性价比并不稳定,很多情况下跑代码的开销其实盖过了它带来的收益。研究价值在于用实证把「该不该跑」这件被默认为理所当然的事拆开算账,提醒大家执行验证不是免费午餐。对设计程序修复、代码 agent 的人来说,这提供了在准确率和算力成本间取舍的实证依据。

Agent代码修复代码Agent成本分析
📖 阅读⬇ PDF

How Much Static Structure Do Code Agents Need? A Study of Deterministic Anchoring

HF 精选 · 06-29 08:00 UTC+8

这篇研究代码 agent 到底需要多少静态结构信息:通过给 agent 注入静态分析得来的注解,作为确定性的结构锚点,帮它在代码库里导航。结果表明这些确定性锚点能提升探索的可预测性、降低 agent 行为的随机波动。对做代码 agent 的人来说,它给出一个实用结论——适量的静态结构标注能让 agent 在大型代码库里跑得更稳更可控。

Agent代码Agent静态分析代码导航
📖 阅读⬇ PDF

MemoBench: Benchmarking World Modeling in Dynamically Changing Environments

HF 精选 · 06-29 08:00 UTC+8

「MemoBench」是一个诊断式基准,专门检验视频生成模型在动态变化环境中的记忆一致性——比如物体消失后再以更新过的状态重新出现,模型还记不记得、状态对不对。它把「世界建模的记忆连贯性」这个容易被忽视的维度单拎出来做压力测试。对做视频生成、世界模型的研究者,这个基准提供了一把衡量长时一致性的诊断尺子。

基座视频生成世界模型记忆一致性评测基准
📖 阅读⬇ PDF