🗂 历史归档
每日 AI 速览

2026-06-26

生成于 2026-06-27 04:09

今日导语

今日基座与厂商博弈是绝对主线。「OpenAI」放出下一代「GPT-5.6 Sol」预览,却传出需逐客户经过美国政府批准、白宫以安全为由要求放缓发布,监管力度空前;「Anthropic」一边推「Claude Fable 5」分批重新上线、付费消费端反超「ChatGPT」,一边对「Qwen」提起诉讼,竞合白热化。芯片侧,「OpenAI」自研「Jalapeño」辣芯绕开「英伟达」正面战场,叠加「英伟达」开源「MoE」微调提速三点七倍,AI Infra 自主化加速。Agent 方向,GUI 智能体的经验探索、工具调用强化学习崩塌成因与多模型组合上限等研究密集出炉,指向更稳健的智能体训练。

🗞 行业动态 40 条

Previewing GPT-5.6 Sol: a next-generation model

OpenAI · 06-26 18:00 UTC+8

OpenAI 预览了下一代模型「GPT-5.6 Sol」,主打在编程、科学和网络安全上更强的能力,并配套了其号称最先进的安全栈。对从业者来说,这意味着代码和安全相关场景又有了一个更强的候选模型,值得关注它在实测中相对现有 SOTA 的表现和定价。

基座OpenAI新模型发布GPT-5.6

b9813

llama.cpp · 06-26 23:40 UTC+8

「llama.cpp」发布 b9813 版,在 Vulkan 后端新增了 INTEL_XE1 架构枚举,并为 Intel Xe-LPG Plus 显卡开启 coopmat1 协作矩阵支持。这对在 Intel 核显或独显上用 llama.cpp 跑本地推理的用户是个实在的加速利好,扩展了非 N 卡的硬件适配面。

Infrallama.cppIntel本地推理

AI 设计9个月就能媲美Blackwell?OpenAI “辣芯”绕开英伟达正面战场,但老黄的GPU大盘不稳了

InfoQ 中文 · 06-26 22:18 UTC+8

有报道称 OpenAI 自研芯片仅用 9 个月设计就号称能对标英伟达「Blackwell」,借此绕开与英伟达的正面战场。这折射出头部 AI 公司加速自研推理芯片、降低对单一供应商依赖的趋势,虽然短期撼动不了英伟达的 GPU 大盘,但长期供应格局正在松动,做算力采购和成本规划的人需要留意。

InfraAI芯片OpenAI英伟达

OpenAI’s Jalapeño chip is Big Tech’s spiciest move away from Nvidia

TechCrunch · AI · 06-26 22:00 UTC+8

OpenAI 公布了与 Broadcom 合作打造的自研推理芯片「Jalapeño」,加入谷歌、苹果、SpaceX 等自研芯片以摆脱单一供应商风险的行列。这是大厂去英伟达化的又一标志性动作,对关注推理成本和算力供应链的人来说,意味着未来推理硬件的选择会更多元、议价空间也在变化。

InfraAI芯片OpenAI推理硬件

Claude Fable 5分批重新上线!GPT-5.6秒跟

量子位 · 06-26 14:55 UTC+8

据量子位报道,「Claude Fable 5」分批重新上线,「GPT-5.6」也紧随其后跟进。两大顶级模型在发布节奏上的你来我往,反映出前沿厂商之间高强度的贴身竞争,对追新模型能力的从业者来说值得盯紧各自的可用性和实测差异。

厂商动态AnthropicOpenAI模型发布

英伟达MoE新开源:一行import,微调加速3.7倍

量子位 · 06-26 11:23 UTC+8

英伟达开源了一套 MoE 训练加速方案,号称一行 import 就能让微调提速 3.7 倍。它在「Transformers v5」基础上集成了专家并行、「DeepEP」和「TransformerEngine」,把混合专家训练里的通信和计算优化打包成开箱即用的能力。对做 MoE 模型微调、苦于训练慢的团队是个值得一试的现成工具。

后训练MoE训练加速英伟达

v0.5.14

SGLang · 06-26 08:51 UTC+8

推理框架「SGLang」发布 v0.5.14 版本。作为主流的高性能 LLM 服务框架之一,其版本迭代通常带来性能优化、新模型支持或调度改进,跑生产推理服务的团队可关注该版本的具体变更并评估升级。

推理优化SGLang推理框架版本发布

v1.7.0

HF TRL · 06-26 06:52 UTC+8

「HF TRL」发布 v1.7.0,把 SFT 的默认损失类型切到「chunked_nll」,平均能省约 30%、大词表模型最高省约 50% 的峰值显存,而墙钟时间持平甚至略快,且无需改动代码。注意它和「use_liger_kernel」不兼容会回退到普通 nll。对用 TRL 做监督微调、被显存卡脖子的人是个白捡的省显存利好。

后训练TRL微调显存优化

v0.24.0rc2: Fix P/D with DP Supervisor (#46628)

vLLM · 06-26 04:15 UTC+8

「vLLM」发布 v0.24.0rc2 候选版,修复了在数据并行 Supervisor 下 P/D 分离(预填充与解码分离)的一个问题。对采用 PD 分离架构、做大规模分布式推理部署的团队来说,这个修复关系到部署稳定性,值得在升级时关注。

推理优化vLLM推理部署PD分离

Production-grade AI agents for financial compliance: Lessons from Stripe

AWS 机器学习 · 06-26 22:38 UTC+8

AWS 博客拆解了 Stripe 如何为金融合规搭建生产级 AI 智能体系统,覆盖其「ReAct」智能体框架的技术架构、独立智能体服务的基础设施选型,以及人类监督在问责中的角色。文中还总结了任务拆解、编排模式和用提示缓存做成本优化等关键经验。对要把 Agent 真正落地到严肃业务的人,这是一份难得的生产实战参考。

Agent智能体生产实践金融合规

Fable 5还未解禁,Anthropic一纸诉状砸向Qwen,自家CEO却被白宫嫌“怪”踢出局!

InfoQ 中文 · 06-26 19:12 UTC+8

据 InfoQ 报道,在「Fable 5」尚未完全解禁之际,Anthropic 对「Qwen」提起诉讼,同时其 CEO 据称因被白宫嫌「怪」而出局。这一连串动态把模型版权之争、厂商间法律摩擦和 AI 公司与政府关系的微妙之处摆上台面,反映出头部 AI 厂商在竞争与监管夹缝中的复杂处境。

厂商动态Anthropic行业动态Qwen

OpenAI's GPT 5.6 rollout now requires US government approval on a "customer by customer basis"

The Decoder · 06-26 16:35 UTC+8

OpenAI 新模型「GPT-5.6」的发布被套上了行政枷锁:应美国政府要求,初期只对精选合作伙伴开放,且访问权限要按「逐个客户」审批。Sam Altman 表示这并非长期首选模型。结合此前 Anthropic「Fable」被强制下架,业界开始担忧一种针对 AI 模型的事实上的许可发牌制度正在成形——对从业者而言,这意味着前沿模型的可获取性正从纯市场行为转向受监管管控。

厂商动态OpenAI模型发布AI 监管GPT-5.6

Run a vLLM Server on HF Jobs in One Command

HuggingFace 博客 · 06-26 08:00 UTC+8

HuggingFace 演示了如何用一条命令在 HF Jobs 上拉起一个「vLLM」推理服务,把模型 serving 的环境配置、依赖与 GPU 资源调度都收敛成托管作业。对想快速验证模型或搭临时推理端点的从业者来说,省去了自建集群和繁琐部署的门槛。

推理优化vLLMHuggingFace推理部署

The White House is asking OpenAI to slow roll the release of its new model over safety concerns

TechCrunch · AI · 06-26 07:34 UTC+8

据报道,OpenAI 计划把最新的「GPT-5.6」先只交给一小撮合作伙伴而非公开放出,原因是特朗普政府以安全顾虑为由要求其放缓发布节奏。这一政府直接干预模型发布时间表的动作,标志着前沿模型上线越来越受国家安全审查左右,从业者获取顶级能力的路径开始受政策变量影响。

厂商动态OpenAIAI 监管GPT-5.6

Retrofit, don’t rebuild: Agentic overlays for transforming legacy enterprise services

AWS 机器学习 · 06-26 01:55 UTC+8

AWS 提出「agentic overlay(智能体叠加层)」方案:用一层很薄的包装把传统 REST 服务改造成能参与「A2A」交互的智能体,同时把 REST API 暴露成兼容「MCP」的工具。好处是企业无需重写业务逻辑、不复制代码,就能给现有遗留系统加上智能体能力——这是一条「翻新而非重建」的务实落地路径。

AgentMCPA2A企业落地

Optimize model training on Amazon SageMaker AI with NVIDIA Blackwell

AWS 机器学习 · 06-26 00:41 UTC+8

AWS 给出在 Amazon SageMaker 上榨干 NVIDIA「Blackwell」架构训练性能的实操指南:如何按 Blackwell 扩大的显存选择 batch size 与序列长度、为 1B 到 64B 不同规模模型挑选合适精度格式、以及有策略地用激活检查点,最终在 P6-B200 实例上跑分布式训练。对在新硬件上调优训练配置的工程师是一份可直接照搬的调参框架。

训练AI InfraBlackwell分布式训练SageMaker

AI startup Lindy ditched Claude entirely for Deepseek, saving millions as cost pressure mounts on Anthropic

The Decoder · 06-26 23:09 UTC+8

AI 初创公司 Lindy 在 AI 调用成本超过人力成本后,干脆把「Claude」全部换成「DeepSeek」,省下数百万美元,CEO 直言这是「关乎企业存亡」的选择。这一案例折射出推理成本对应用层公司的真实压力,也给 Anthropic 在价格端带来更大竞争压力——对从业者是模型选型时成本权重正在压过能力偏好的信号。

厂商动态DeepSeekAnthropic推理成本模型选型

b9811

llama.cpp · 06-26 21:06 UTC+8

「llama.cpp」发布 b9811 版本,主要绕过了 Vulkan 后端 conv2d coopmat2 路径上的一个编译器 bug,并把同样的 workaround 应用到 CONV_3D。属于面向多平台构建的稳定性修复。

推理优化llama.cppVulkan版本发布

b9810

llama.cpp · 06-26 19:46 UTC+8

「llama.cpp」b9810 版本为 HIP/MUSA 厂商头文件补上了 cublasSgemmBatched 的映射,改善在 AMD ROCm 与摩尔线程 MUSA 等非 CUDA 后端上的批量矩阵乘支持。属于扩大硬件兼容面的底层改动。

推理优化llama.cppROCmMUSA

Anthropic doesn't need junior engineers anymore thanks to AI and warns of an economic shock when other industries follow

The Decoder · 06-26 19:18 UTC+8

Anthropic 称因为 AI 已能胜任相关工作,自己不再需要初级工程师,并警告当这种情况蔓延到其他行业时会引发经济冲击。其论点是价值正从可被自动化的执行环节转向「直觉的回报」。对从业者而言,这既是头部 AI 公司对岗位结构变化的直接表态,也是一则关于职业护城河正在迁移的警示。

厂商动态AnthropicAI 就业冲击行业动态

b9804

llama.cpp · 06-26 15:17 UTC+8

「llama.cpp」b9804 版本改进了对「Mamba2」的支持:移除写死的 2 倍扩展因子,改为支持任意 expand 值,并删掉一处无效的 d_inner 对 d_state 取模检查,转换脚本里 expand 默认设为 2。这让更多非标准配置的 Mamba2 状态空间模型能被正确加载运行。

推理优化llama.cppMamba2状态空间模型

v0.30.11-rc1

Ollama · 06-26 14:18 UTC+8

「Ollama」发布 v0.30.11-rc1 预览版,新增对「Ornith 9B」模型的 renderer/parser 支持,让该模型可在 Ollama 上正确解析与渲染。属于扩充本地可跑模型清单的常规更新。

推理优化Ollama模型支持版本发布

trunk/723fb7187aa9abeebcc43b3f658f695efdad280e: Fix cache miss in FlexAttention (#188177)

PyTorch · 06-26 10:23 UTC+8

「PyTorch」修复了「FlexAttention」在 AOTAutograd 缓存上的一次缓存未命中问题。根因是此前为配合 unbacked symint 而在 torch._check 体内引入的临时 lambda 无法被 pickle,本次改动放宽了 torch.check 对该类型的处理以贴合 eager 行为。对依赖 FlexAttention 与 torch.compile 的用户能恢复正常的编译缓存命中。

InfraPyTorchFlexAttentiontorch.compile

[AINews] OpenAI reports median internal Codex output tokens grew 56x in Research, 32x in Customer Support, 27x in Engineering, and 13x in Legal since November 2025.

Latent Space · 06-26 09:12 UTC+8

据 OpenAI 内部数据,自 2025 年 11 月以来,「Codex」生成的中位输出 token 量在研究岗增长 56 倍、客服岗 32 倍、工程岗 27 倍、法务岗 13 倍。这组数字直观说明 AI 编码/写作智能体的实际使用强度正在各职能内爆发式攀升,对衡量智能体渗透速度是一个有力的量化锚点。

厂商动态OpenAICodexAgent 应用行业动态

Anthropic’s Claude is winning over paid consumers, a market owned by ChatGPT

TechCrunch · AI · 06-26 01:38 UTC+8

数据显示,尽管「ChatGPT」在整体市场遥遥领先,但在愿意为 AI 付费的消费者中,越来越多人转向 Anthropic 的「Claude」。这意味着在高价值付费人群里 Anthropic 正逐步蚕食 OpenAI 的地盘,反映出消费级 AI 竞争已从用户规模之争转向付费意愿与留存之争。

厂商动态AnthropicClaude消费级市场行业动态

最大开源第一视角数据集 EgoLive 来了,名校站台、近百家机构争相申请

InfoQ 中文 · 06-26 01:04 UTC+8

号称最大规模开源第一视角(egocentric)数据集「EgoLive」发布,背靠多所名校、近百家机构争相申请使用。第一视角数据对训练具身智能、视频理解与世界模型尤为关键,这类大规模开源数据集的出现能显著降低相关研究的数据门槛。

训练数据集第一视角具身智能

General Intuition’s $2.3B bet that video games can train AI agents for the real world

TechCrunch · AI · 06-26 00:55 UTC+8

General Intuition 完成 3.2 亿美元融资,押注用海量游戏对战录像来训练 AI 智能体,认为动作数据能帮 AI 培养出更接近人类直觉的能力,公司估值达 23 亿美元。这代表了一条用游戏 gameplay 数据迁移到真实世界智能体的训练路线,为「数据从哪来」提供了新答案。

AgentAI Agent游戏数据融资世界模型

Building agentic AI applications with a modern data mesh strategy on AWS

AWS 机器学习 · 06-26 00:35 UTC+8

AWS 介绍如何在云上搭建一套受治理、无服务器的「数据网格(data mesh)」,为生产级智能体应用提供安全、可扩展的数据底座。面向把 agentic AI 真正推上生产的团队,重点解决数据治理与供给这一常被忽视的工程前提。

Agent数据网格AWS企业落地

Which tokens does a hybrid model predict better?

HuggingFace 博客 · 06-26 00:11 UTC+8

HuggingFace 一篇博客探讨了混合架构模型(如注意力与状态空间混搭)究竟在预测哪些 token 上更有优势,试图把混合模型笼统的整体指标拆解到 token 粒度去看长短。这类细粒度分析有助于理解混合架构的真实增益来自哪里,而非只看一个平均困惑度。

基座混合架构模型分析状态空间模型

谷歌「推理之王」也跑路Meta了,当年还是李飞飞挖来的

量子位 · 06-26 16:05 UTC+8

谷歌一位「推理之王」级别的核心人物离职加盟 Meta,此人当年还是被李飞飞招揽进来的,量子位点评本轮人才流动的主题是「Coding 为王」。这反映出顶尖推理与编码方向人才在巨头间的新一轮争夺,也侧面印证编码能力已成为大模型竞争的核心战场。

厂商动态人才流动Meta谷歌行业动态

trunk/609b022362f3d5f94b3bc57f16e2b648cd598d37: [Triton 3.8] Update Triton hash (#185453)

PyTorch · 06-26 10:48 UTC+8

「PyTorch」将「Triton」的 pin 从 3.7.1 升到 3.8,目标指向 Triton release/3.8.x 分支的 tip,并额外带上两个 cherry-pick,其中关键一处通过更新 LLVM pin 修复了 gfx950 / MI350 在 bf16 推理下、torch.compile 中会静默产生 NaN 的编译错误。对在新款 AMD 加速卡上跑编译的用户是一个重要正确性修复。

InfraPyTorchTritonAMD MI350编译器修复

b9803

llama.cpp · 06-26 10:28 UTC+8

「llama.cpp」b9803 版本修复了 OpenCL 后端在关闭时未刷新不完整 profiling 批次的问题,让性能剖析数据在退出时能被正确落盘。属于面向调试与性能分析的小修复。

Infrallama.cppOpenCL版本发布

trunk/6468763e46fe7b5527a52dfbb151d63938d7288a

PyTorch · 06-26 08:55 UTC+8

「PyTorch」的 Dynamo 新增对构造 collections.deque 子类的支持(gate G28),扩大了 torch.compile 能正确追踪的 Python 容器用法范围,减少因子类化双端队列而触发的图中断。属于改善编译覆盖面的细粒度改动。

InfraPyTorchDynamotorch.compile

b9802

llama.cpp · 06-26 06:50 UTC+8

「llama.cpp」发布 b9802 版本,主要是面向 macOS/iOS、Linux、Android、Windows 等多平台及 CUDA、Vulkan、SYCL、ROCm 等多后端的常规构建产物更新。属于例行版本迭代。

Infrallama.cpp版本发布多平台构建

Patronus AI lands $50M to build ‘digital worlds’ that stress-test AI agents

TechCrunch · AI · 06-26 04:19 UTC+8

由前 Meta AI 研究者创立的智能体测试公司 Patronus AI 拿下 5000 万美元融资,主打构建「数字世界」来对 AI 智能体做压力测试,投资方称其需求近乎无法满足。随着智能体走向生产,如何在投产前系统化地评测与压测其可靠性正成为刚需赛道。

AgentAgent 评测Patronus AI融资

GitHub 推出 Copilot 桌面应用,支持并行 Agent 开发工作流

InfoQ 中文 · 06-26 03:06 UTC+8

GitHub 推出「Copilot」桌面应用,支持并行的 Agent 开发工作流,让开发者可以同时驱动多个编码智能体协同推进任务。这把多智能体协作从概念推向了主流 IDE 厂商的产品形态,反映编码工具正从单点补全走向并行的智能体编排。

AgentGitHub Copilot多智能体编码工具

AI 智能体的身份与权限挑战:Uber 和 Auth0 如何重新思考访问控制

InfoQ 中文 · 06-26 02:00 UTC+8

InfoQ 探讨 AI 智能体带来的身份与权限难题,以及 Uber 和 Auth0 如何重新设计访问控制来应对——当发起请求的是代表用户行动的智能体而非用户本人时,传统的鉴权与授权模型需要被重新思考。对要把智能体接入企业系统的团队,这是绕不开的安全工程命题。

Agent身份鉴权访问控制安全

📄 论文 20 篇

『Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It』剖析多步工具调用强化学习为何崩塌,并用监督信号修复,对 Agent 训练颇具实操价值。

Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

HF 精选 · 06-26 08:00 UTC+8

文生图模型常因缺乏完整上下文而画不对用户真正想要的画面,「Qwen-Image-Agent」把图像生成包装成一个智能体流程来补这个缺口:通过规划、推理、检索和记忆机制,逐步把零散的提示词补全为一份完整的生成上下文,再交给底层模型出图。它把过去一次性硬生图的范式,改成像人一样先查资料、想清楚、记住约束再动笔,在涉及世界知识、复杂指令和多步约束的真实场景下显著改善了出图的准确性和可控性。

Agent文生图智能体多模态Qwen
📖 阅读⬇ PDF

JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

HF 精选 · 06-26 08:00 UTC+8

投机解码靠小模型起草、大模型验证来加速推理,但起草质量和接受率始终是天花板。「JetSpec」把高效的前向起草和因果条件建模结合起来做并行树状起草,让候选草稿既生成得快、又更可能被大模型接受。在多个基准上它同时提升了推理速度和接受率,相当于在不改大模型的前提下榨出更高的有效吞吐,对做推理加速的工程团队很实用。

投机解码推理优化吞吐
📖 阅读⬇ PDF

Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It

HF 精选 · 06-26 08:00 UTC+8

多步工具调用的强化学习训练经常突然崩盘,模型一边学一边把格式和调用逻辑学坏。这项工作系统拆解了崩溃的成因——监督信号缺失和对格式过度敏感,提出用监督微调与强化学习交错进行的训练策略,并配上合适的监督信号来稳住训练。结果是多步工具使用任务上的稳定性和性能都明显改善,给做 Agent RL 调参踩坑的人提供了一份可操作的避坑指南。

后训练工具调用强化学习智能体训练
📖 阅读⬇ PDF

Discretizing Reward Models

HF 精选 · 06-26 08:00 UTC+8

奖励模型有个隐疾:对两个一样好的回答会打出不同分数,这种过度敏感会把策略学习带偏。论文指出可以用离散化技术给奖励打分分档,既保留区分好坏的判别力,又抹平那些无意义的细微分差。这样训练出的策略更稳,对做 RLHF 的人来说是一个低成本就能缓解奖励噪声的实用技巧。

后训练奖励模型RLHF对齐
📖 阅读⬇ PDF

Information-Aware KV Cache Compression for Long Reasoning

HF 精选 · 06-26 08:00 UTC+8

长链推理时 KV 缓存爆炸是显存大头,但单纯按注意力权重压缩容易丢掉关键信息。「InfoKV」引入信息论视角,把熵这样的信息量信号和注意力权重一起用来判断哪些 token 该保留,做更聪明的 KV 缓存压缩。它在压低缓存占用的同时更好地保住了长上下文推理能力,对要在有限显存上跑长推理的部署场景很有价值。

KV缓存长上下文推理优化
📖 阅读⬇ PDF

Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning

ACL 2026CCF-A推荐arXiv · 06-26 01:44 UTC+8

小尺寸开源多模态模型做 GUI 操作虽便宜又保护隐私,但规划能力弱、换个网站就不会用了。「PEEU」让智能体自己去环境里自主探索、积累操作经验,再用「事后经验」(把失败或偏离的轨迹也回收成有用监督)来强化任务规划能力。这套自给自足的经验闭环显著提升了小模型在跨网站任务上的规划和泛化表现,让本地部署的小模型也能扛起复杂 GUI 自动化。

AgentGUI智能体任务规划经验学习
Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
📖 阅读⬇ PDF

OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

HF 精选 · 06-26 08:00 UTC+8

训练语言智能体时,已经跑完的轨迹里藏着大量没被利用的监督信号。「OPID」做在线策略的技能蒸馏,从完成的轨迹中提取密集的事后监督,把稀疏的最终奖励变成步步可学的细粒度信号。这样既提高了训练的样本效率,也提升了智能体的最终性能,是缓解 Agent RL 监督稀疏问题的一条务实路线。

Agent技能蒸馏智能体训练强化学习
📖 阅读⬇ PDF

GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents

HF 精选 · 06-26 08:00 UTC+8

电脑操作智能体既可以靠看屏幕点界面,也可以靠敲命令行,但以往评测把交互方式和任务、初始状态、验证器搅在一起,没法公平比较。作者构建了一个对齐的执行层基准,覆盖 18 个应用、12 类工作流共 440 个桌面任务,让纯视觉 GUI 智能体和借助技能的 CLI 智能体在完全相同的目标、状态和验收标准下同台竞技。这样首次干净地剥离出交互模态本身造成的执行瓶颈差异,为「到底该让 Agent 点界面还是敲命令」给出了有据可依的对比。

Agent电脑操作智能体基准评测GUI
📖 阅读⬇ PDF

Running the Gauntlet: Re-evaluating the Capabilities of Agents Beyond Familiar Environments

HF 精选 · 06-26 08:00 UTC+8

现有智能体基准大多在熟悉环境里测,掩盖了它们换个陌生场景就抓瞎的问题。这个网页化基准专门用有挑战性的陌生场景考验智能体的泛化能力,结果暴露出当前系统在时间感知、图形理解和三维推理上和人类差距巨大。它提醒大家:刷高分的 Agent 离真正通用还很远,给评测设计指了一个更硬核的方向。

Agent智能体评测泛化基准
📖 阅读⬇ PDF

Confidence-Aware Tool Orchestration for Robust Video Understanding

HF 精选 · 06-26 08:00 UTC+8

视频推理里有个「盲目信任」问题:智能体默认每一帧的感知结果都靠谱,一旦画面被扰动就跟着错。「Robust-TO」把每帧的可信度量化出来融进智能体框架,用校准过的证据加权和考虑可靠性的推理,让模型对低质量帧降低信任。在真实扰动下它的准确率明显更稳,给做视频理解工具编排的人提供了一种抗噪的可靠性设计思路。

Agent视频理解工具编排智能体
📖 阅读⬇ PDF

CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies

HF 精选 · 06-26 08:00 UTC+8

「CoffeeBench」把大模型智能体丢进一个多智能体经济模拟里,让多家「公司」在 90 天周期内交互、谈判、追求利润最大化,以此考察长程经营决策能力。这个异构经济沙盒不只看单步对错,还观察不同模型的沟通模式和长期表现差异,暴露出各家模型在持续博弈中的策略高下。它为评测长程、多智能体协作与竞争提供了一个有经济学味道的新场景。

Agent多智能体长程任务基准评测
📖 阅读⬇ PDF

When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

HF 精选 · 06-26 08:00 UTC+8

路由、投票、Mixture-of-Agents 这些多模型组合法常被寄望能超越单个模型,但作者在 67 个前沿模型上发现一道硬天花板:系统准确率的上限由所有模型同时答错的「共同失败率」决定,无论怎么调相关性或集成策略都绕不过去。这意味着当模型们在同样的题上一起栽跟头时,再花哨的组合也救不回来。这个结论给迷信「多模型必然更强」的工程实践泼了盆冷水,也指明真正的增益来自降低共同失败而非堆数量。

Agent多模型集成模型路由评测
📖 阅读⬇ PDF

OpenBioRQ: Unsolved Biomedical Research Questions for Agents

HF 精选 · 06-26 08:00 UTC+8

「OpenBioRQ」收集了一批尚未解决、没有标准答案的生物医学研究问题,专门考验智能体能不能核实来源、不瞎编引用。在没有答案钥匙的开放问题上,它检验的是检索接地推理和工具使用的真实功底,结果暴露出当前模型在引用可信度和证据核查上的大量失败。这对想把 Agent 用于严肃科研场景的人是个重要警示:会查不等于查得对。

Agent生物医学智能体评测检索增强
📖 阅读⬇ PDF

How Post-Training Shapes Biological Reasoning Models

GoogleHF 精选 · 06-26 08:00 UTC+8

这项工作拆解了后训练各阶段如何塑造生物推理模型的能力:继续预训练让模型对齐生物语言,监督微调能提升领域内表现但会削弱领域外泛化,而强化学习在已对齐良好的检查点上施加时能把领域外性能找补回来。它清晰刻画了「先对齐、再 SFT、最后 RL」各步的得失权衡,给在专业科学领域做后训练的人一套关于阶段顺序的经验地图。

后训练强化学习领域适配
📖 阅读⬇ PDF

The Geometry of Updates: Fisher Alignment at Vocabulary Scale

ICML 2026CCF-A推荐arXiv · 06-26 00:30 UTC+8

在 SMILES、蛋白质、基因组序列这类科学字符串领域,候选语料常共享同一个分词器却预测不同目标,导致「激活暗区」——表征相似度指标失灵,而经典的更新几何指标在词表规模上算不动。作者用 Fisher 对齐在词表尺度上做免训练的源数据选择,在不实际训练的前提下判断哪份语料对目标任务最有用。这为科学序列建模中挑选预训练数据提供了一个计算可行又有理论依据的工具。

训练数据工程预训练科学建模
John Sweeney
📖 阅读⬇ PDF

ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

ECCV 2026CCF-B推荐HF 精选 · 06-26 08:00 UTC+8

离散视觉表征往往在语义丰富和细节保留之间二选一。「ViQ」提出一种文本对齐的视觉量化框架,让离散表征既保住语义又留住细节,还支持原生分辨率输入。这意味着多模态训练能在不牺牲画面细节的前提下用上离散 token 的高效性,对统一理解与生成的多模态架构是一块有用的基础积木。

基座视觉量化多模态表征学习
📖 阅读⬇ PDF

E-TTS: A New Embodied Test-Time Scaling Framework for Robotic Manipulation

ECCV 2026CCF-B推荐arXiv · 06-26 00:50 UTC+8

机器人操作上的测试时扩展刚起步,但有两个难题:推理虽能提升策略却没人研究它怎么随算力扩展,而具身任务天然长程,光靠当前观测做动作扩展会因缺历史信息而失灵。「E-TTS」提出面向具身场景的测试时扩展框架,把推理的扩展机制和历史信息的利用一并纳入,让机器人在执行长程操作时能用上更多算力换更好表现。它把语言模型里热门的测试时扩展思路较系统地搬进了机器人操作领域。

Agent具身智能测试时扩展机器人
Wen Ye, Peiyan Li, Tingyu Yuan, Yuan Xu, Xiangnan Wu, Chaoyang Zhao, Jing Liu, Nianfeng Liu
📖 阅读⬇ PDF

Hallucination in World Models is Predictable and Preventable

WWWCCF-A推荐arXiv · 06-26 01:38 UTC+8

动作可控的生成式世界模型画面越来越逼真,却常出现「幻觉」——画面流畅但偏离真实动力学。作者假设幻觉集中在状态-动作空间里数据覆盖稀疏的区域,并用轻量的数据中心信号既能检测又能指导缓解。为验证这点他们构建了「MMBench2」,一个 427 小时、210 个任务、带真值动作的视觉世界建模数据集。结论是世界模型的幻觉可预测也可预防,给做世界模型和具身规划的人提供了一条对症下药的治理路径。

世界模型幻觉数据集
Nicklas Hansen, Xiaolong Wang
📖 阅读⬇ PDF

Beyond Surface Forms: A Comprehensive, Mechanism-Oriented Taxonomy of Indirect Linguistic Encoding for LLM-Based Coded Language Detection

EMNLP 2026CCF-B推荐arXiv · 06-26 01:29 UTC+8

有些用户为躲避平台审核,会用隐语、谐音黑话和对抗性变形来藏起敏感含义。这项工作提出一套面向机制、不看交流意图的间接语言编码分类法,抽象出意义被改写的底层操作机制来给这些隐晦表达归类。它为大模型检测黑话和规避性表达提供了一个系统的分析框架,对做内容安全与审核模型的人理解对手的花样很有帮助。

内容安全黑话检测分类体系
Hamid Reza Firoozfar, Mohammadsadegh Abolhasani, Reza Mousavi, Paul Jen-Hwa Hu
📖 阅读⬇ PDF

Autoregressive Boltzmann Generators

ICML 2026CCF-A推荐arXiv · 06-26 01:58 UTC+8

在热力学平衡下高效采样分子构型是统计物理的老大难,「玻尔兹曼生成器」靠生成模型加精确似然和重要性采样来快速产出独立的平衡态样本,但主流做法依赖归一化流,受限于严格可逆约束而表达力不足。这篇提出自回归式的玻尔兹曼生成器,绕开可逆性的桎梏来获得更强的建模能力。这给分子模拟和计算化学里的平衡采样提供了一个更灵活的生成范式。

分子模拟生成模型科学计算
Danyal Rehman, Charlie B. Tan, Yoshua Bengio, Avishek Joey Bose, Alexander Tong
📖 阅读⬇ PDF