🗂 历史归档
每日 AI 速览

2026-06-25

生成于 2026-06-26 04:08

今日导语

今日主线集中在三处。其一,Agent 全面走向基础设施:编码 Agent 一周内被三家公司纳入团队级体系,Google 把计算机操控直接烤进「Gemini 3.5 Flash」让模型看屏并代操作,多篇论文与综述探讨 Agent 原生记忆、上下文管理与越权工具调用等工程化命题。其二,国产基座持续逼近第一梯队:Snowflake 与马斯克均认可「GLM-5.2」以零头成本对标「Opus 4.7」,并有 Agent 公司从「Claude」切换至「DeepSeek v4」以年省数百万美元。其三,推理与硬件层活跃,百度发布保持 KV 缓存恒定的长文档 OCR 小模型,高通入局数据中心处理器,「KV-Cache」量化与扩散语言模型亦有新进展。

🗞 行业动态 40 条

Google bakes computer control directly into Gemini 3.5 Flash, letting the model see and operate your screen

The Decoder · 06-25 17:04 UTC+8

谷歌把「Computer Use」能力直接内置进了「Gemini 3.5 Flash」,让模型能自主操作电脑、浏览器和移动设备。它在「OSWorld」基准上拿到 78.4 分,与「GPT-5.5」基本持平,开发者可通过「Gemini API」构建软件测试、办公自动化等 Agent。这意味着 computer-use 这类屏幕操作能力正下沉到更快更便宜的轻量模型上,对做 GUI 自动化和 Agent 落地的人降低了门槛。

GeminiComputer UseAgent

Baidu Releases Unlimited OCR, a 3B Model That Keeps the KV Cache Flat for Long-Document Parsing

MarkTechPost · 06-25 13:39 UTC+8

百度开源了「Unlimited OCR」,一个 30 亿参数的「MoE」模型,能在单次前向中解析数十页文档。它的核心是「参考滑动窗口注意力(R-SWA)」,让 KV 缓存保持恒定,因而随着输出增长显存和延迟都不上涨。该模型在「OmniDocBench v1.5」上得 93.23 分,比「DeepSeek OCR」基线高出 6.22 分,且采用「MIT」许可。对做长文档解析、苦于长输出显存爆炸的工程团队,这是个免费可商用的实用选择。

推理优化OCR长文档KV缓存优化

三家公司一周内出手,编码 Agent 进入团队基础设施时代

InfoQ 中文 · 06-25 20:50 UTC+8

一周之内三家公司接连出手,标志着编码 Agent 正从尝鲜工具走向团队级基础设施。这一动向反映出 AI 编程助手开始被当作研发流水线的标配能力来建设,而非个人随手使用的玩具,对评估编码 Agent 是否该纳入团队工程体系的技术决策者值得关注。

Agent编码Agent研发基础设施

这家Agent 公司从 Claude 切到 DeepSeek v4:一年省下数百万美元,迁移工作量却是预期的 100 倍

InfoQ 中文 · 06-25 20:43 UTC+8

一家 Agent 公司把底层模型从「Claude」切换到「DeepSeek v4」,一年省下数百万美元成本,但实际迁移工作量却是预期的 100 倍。这个案例真实地揭示了模型迁移看似只是换个 API、实则牵一发动全身的隐性成本,对正在权衡是否为省钱更换基座模型的团队是一份难得的踩坑实录。

Agent模型迁移DeepSeek成本优化

b9789

llama.cpp · 06-25 17:23 UTC+8

「llama.cpp」发布 b9789 版本,修复了对带「MTP」(多 token 预测)的 MoE 模型进行量化时的一个问题,并照例提供覆盖 macOS、Linux、Windows、Android 等多平台及 CUDA、Vulkan、ROCm、SYCL 等多后端的预编译产物。对本地部署、依赖 llama.cpp 量化运行 MoE 模型的用户,这是一次值得跟进的修复更新。

推理优化llama.cpp量化本地部署

b9788

llama.cpp · 06-25 16:47 UTC+8

「llama.cpp」b9788 版本为「SYCL」后端加入了张量并行支持(--split-mode tensor),通过新增 comm_init、comm_free、comm_allreduce_tensor 三件套实现后端专属的 all-reduce,针对双 GPU 常见场景实现了按数据量分支的退化版环形 all-reduce。这让用 Intel 等 SYCL 设备做双卡张量并行推理成为可能,对该路线的本地多卡部署者是实打实的能力补强。

推理优化llama.cppSYCL张量并行

Snowflake CEO finds GLM-5.2 competitive with Opus 4.7 at a fraction of the cost

The Decoder · 06-25 01:07 UTC+8

Snowflake 的 CEO 在一项含 103 个编码任务的基准里发现,智谱「GLM-5.2」几乎追平「Claude Opus 4.7」,而每输出 token 的成本只有其五分之一,代价是每个任务要多烧近一倍的 token。即便如此,这一价格差仍在给 Anthropic 和 OpenAI 施加真实压力,也可能动摇西方 AI 实验室的估值,对关注国产模型性价比与全球竞争格局的人是个有力信号。

厂商动态GLM性价比厂商竞争

Introducing computer use in Gemini 3.5 Flash

Google DeepMind · 06-25 00:30 UTC+8

谷歌 DeepMind 正式推出「Gemini 3.5 Flash」中的 computer use 能力,让这款轻量快模型也能看懂屏幕并自主操作电脑界面。把屏幕操作能力放进 Flash 这类高吞吐低成本档位,意味着 GUI 自动化 Agent 的部署成本被进一步压低,对想规模化跑屏幕操作智能体的开发者很有意义。

GeminiComputer UseAgent

科大讯飞发布企业服务Claw平台:一句话搞定需求到方案全流程

量子位 · 06-25 16:32 UTC+8

科大讯飞发布企业服务「Claw」平台,主打用一句话自然语言描述就走完从需求到方案的全流程。它把企业服务的需求理解、方案生成串成自动化链路,体现了大模型在 ToB 流程自动化上的落地尝试,对关注国产厂商企业级 Agent 产品化进展的人值得一看。

科大讯飞企业服务Agent

viable/strict/1782375955: Add in Aux-return support for just 1 aux (#187278)

PyTorch · 06-25 12:04 UTC+8

「PyTorch」合入了一项改动,让融合算子在返回主 GEMM 输出之外还能返回辅助输出,于是在 torch.compile 全图模式下可以写出像「relu(a @ b) 同时保留激活前结果」这样的融合前向反向 MLP。这为想在编译期做更激进算子融合、又要在反向里复用中间量的训练优化者扫清了一个表达上的障碍。

InfraPyTorch算子融合训练优化

How agents are transforming work

OpenAI · 06-25 10:00 UTC+8

OpenAI 发布新研究报告,论述 AI Agent 正在重塑工作方式,使智能体能够承担更长、更复杂的任务,并在各类岗位上扩展生产力。这类来自一线厂商的研究为评估 Agent 在真实工作流中的能力边界和落地价值提供了官方视角,对思考 Agent 如何改造组织生产力的人有参考意义。

Agent生产力OpenAI

v0.30.11

Ollama · 06-25 09:52 UTC+8

「Ollama」发布 v0.30.11,新增对 opencode 的思考能力检测、自动安装「Claude Code」与 opencode、统一并调优了 MLX runner 的投机解码,还修复了 Windows 混合显卡上 iGPU/dGPU 的 Vulkan 误判等问题。这些更新主要面向把 Ollama 当本地模型运行与集成入口的用户,提升了与编码工具链的衔接和本地推理体验。

推理优化Ollama本地部署投机解码

viable/strict/1782370771

PyTorch · 06-25 08:52 UTC+8

「PyTorch」的一项改动为 inductor 的「CUTLASS」后端补充了 neg() 和 constant() 两个 EVT 算子,用于支持「SiLU」激活的尾声融合。这类底层 epilogue 算子的补全,让编译器能把更多激活函数融进 GEMM 尾声,减少额外的访存和 kernel 启动开销,对深挖推理/训练算子融合性能的人是个细节性增益。

InfraPyTorchCUTLASS算子融合

b9784

llama.cpp · 06-25 03:57 UTC+8

「llama.cpp」b9784 版本对高通「Hexagon」NPU 后端的矩阵乘 MUL_MAT/MUL_MAT_ID 做了大幅重构,引入 32x32 分块权重重排、kernel 参数化、缓存计算图,并对 HVX 向量点积做循环展开、优化 q8_0/q8_1 动态量化格式、用 fp16 保留分块累加器等一系列优化。这是面向移动端/边缘 NPU 推理性能的深度打磨,对在高通平台上跑本地大模型的开发者意义明确。

推理优化llama.cppHexagon端侧推理

How to Design an OpenHarness Style Agent Runtime with Tools, Memory, Permissions, Skills, and Multi-Agent Coordination

MarkTechPost · 06-25 03:08 UTC+8

这篇教程带读者从零搭建一个「OpenHarness」风格的 Agent 运行时,把工具使用、带类型的工具 schema、权限、生命周期钩子、记忆、技能、上下文压缩、重试、成本追踪和多智能体协调等核心构件逐一手写出来,刻意把完整控制流摊开而非把框架当黑盒,且全程无需 API key 即可运行实验。对想真正吃透 Agent 系统内部机制、而不止于调框架的工程师,是一份很实在的拆解材料。

Agent运行时多智能体

Thinking to recall: How reasoning unlocks parametric knowledge in LLMs

Google Research · 06-25 00:51 UTC+8

Google Research 探讨了一个有意思的现象:大模型脑子里其实存了很多参数化知识,但单靠直接问往往调不出来,让它先「想一想」、走一遍推理链反而能把这些沉睡的知识激活并准确回忆出来。文章把推理与参数知识检索之间的关系拆开讲清楚,对理解为什么思维链能提升事实类问答、以及如何设计提示与训练来更好地利用模型内部知识很有启发。

基座推理参数化知识思维链大模型

Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel

HuggingFace 博客 · 06-25 00:00 UTC+8

HuggingFace 介绍了如何用英伟达「NeMo AutoModel」给 Transformer 模型做微调加速,把 NeMo 的训练优化能力对接到常见的开源模型权重上。对需要在自有数据上高效微调大模型的团队来说,这意味着更省时省卡的训练流程。

后训练微调NeMo训练加速英伟达

Amazon ups India bet with fresh $13B AI infrastructure investment

TechCrunch · AI · 06-25 20:00 UTC+8

亚马逊宣布再向印度追加 130 亿美元投资,重点砸在 AI 基础设施上。这一动作正赶上全球科技巨头争相在印度扩建算力与数据中心的浪潮,反映出印度正成为 AI 基建竞赛的新战场。

Infra亚马逊AI基础设施印度算力投资

Qualcomm enters the data center market with its own processor

The Decoder · 06-25 18:03 UTC+8

高通推出名为「Dragonfly C1000」的处理器,正式进军数据中心市场。这意味着又一家芯片大厂下场争夺数据中心算力份额,给英伟达、英特尔等现有玩家增添了新的竞争压力。

Infra高通数据中心芯片算力

上海交通大学教授冷静文确认出席AICon上海站,分享Token经济爆发下从评测到调度的全链路优化供给

InfoQ 中文 · 06-25 18:00 UTC+8

上海交通大学冷静文教授确认出席 AICon 上海站,将围绕「Token 经济爆发」这一背景,分享从模型评测到推理调度的全链路优化思路。对关注推理成本与吞吐优化的从业者来说,这类把评测与调度打通来谈供给侧效率的内容值得留意。

推理优化调度Token经济AICon

马斯克预测GLM明年Q1追平Fable,智谱唐杰:没那么久

量子位 · 06-25 12:35 UTC+8

马斯克预测智谱 GLM 将在明年一季度追平 Fable,智谱唐杰回应称「没那么久」,言下之意更乐观。这番隔空互动既反映出国产大模型在能力上正快速逼近第一梯队,也透出厂商对自家迭代节奏的强信心。

厂商动态智谱GLM国产大模型模型竞争

b9786

llama.cpp · 06-25 11:02 UTC+8

llama.cpp 发布 b9786 版本,本次更新让 OpenCL 后端支持 norm 算子的非连续行(non-contig rows),并照例提供覆盖 macOS、Linux、Android、Windows 及多种加速后端的预编译产物。对在端侧或异构设备上跑本地推理的用户是一次小而实的兼容性改进。

推理优化llama.cpp端侧推理OpenCL

b9785

llama.cpp · 06-25 09:23 UTC+8

llama.cpp 发布 b9785 版本,主要加固了 chat 模块的 caps 校验逻辑,提升对话接口的健壮性,并同步提供各平台与加速后端的构建产物。属于本地推理框架的日常稳定性维护更新。

推理优化llama.cpp本地推理稳定性

AI researchers continue to leave Google for its rivals

TechCrunch · AI · 06-25 05:42 UTC+8

顶尖 AI 研究员 Jonas Adler 与 Alexander Pritzel 从谷歌离职转投 Anthropic,此前 Noam Shazeer、John Jumper 等重量级科学家也相继出走。人才持续流向竞争对手,反映出前沿实验室之间愈演愈烈的顶尖研究人员争夺战。

厂商动态人才流动谷歌Anthropic

Gradium Launches stt-translate and s2s-translate, Real-Time Speech Translation Models Beating gpt-realtime-translate on Accuracy and Latency

MarkTechPost · 06-25 04:00 UTC+8

Gradium 发布 stt-translate 与 s2s-translate 两款实时语音翻译模型,覆盖英法德西葡五种语言共 20 个语向。其关键做法是把传统「识别-翻译-合成」三段式级联压缩为两段——单次完成转写加翻译,再接 TTS,全程走一条双工 WebSocket,并支持输出音色选择与克隆;官方称在准确率与延迟上都优于 gpt-realtime-translate 和 gemini-3.5-live-translate。对做实时语音产品的团队,这种精简管线带来的低延迟很有参考价值。

基座语音翻译实时语音级联优化

OpenAI says ChatGPT Instant now better understands what users actually want

The Decoder · 06-25 03:54 UTC+8

OpenAI 更新了使用量最大的 ChatGPT 模型「GPT-5.5 Instant」,重点改进对话质量——更准的意图识别、更好的多轮上下文连贯,以及对复杂多条件指令的更可靠处理。对依赖该模型做产品的开发者而言,这些基础对话能力的提升会直接体现在用户体验上。

厂商动态OpenAIGPT-5.5对话能力

Why the Frontier Ecosystem must be Open — Matei Zaharia and Reynold Xin, Databricks

Latent Space · 06-25 02:53 UTC+8

Databricks 技术负责人 Matei Zaharia 与 Reynold Xin 罕见同台对谈,探讨为什么前沿生态必须保持开放,以及每家公司要构建自己的「Agent Cloud」需要哪些条件。对思考企业级智能体落地路径与开放生态战略的人来说,这种来自数据平台一线的视角颇有分量。

Agent开放生态Databricks

Build a healthcare appointment agent with Amazon Nova 2 Sonic

AWS 机器学习 · 06-25 02:20 UTC+8

AWS 演示了如何用「Amazon Nova 2 Sonic」搭配 Bedrock AgentCore 构建一个医疗预约语音智能体:靠声纹认证患者、处理确认/取消/改约、采集就诊前健康信息,并在需要时转接人工。重点放在语音对话与工具编排的 Agent 工程上,能帮助医疗机构规模化处理日常来电、降低爽约率。

Agent语音Agent医疗Nova Sonic工具编排

Anthropic 解释了 Claude 如何构建自己的执行框架

InfoQ 中文 · 06-25 00:16 UTC+8

Anthropic 公开解释了 Claude 是如何构建自己的执行框架的,揭示其内部如何组织工具调用与任务执行流程。对做智能体框架与工具编排的开发者来说,能从前沿厂商的第一手设计中借鉴落地经验。

AnthropicClaude执行框架Agent

Google keeps losing top AI researchers to rivals

The Decoder · 06-25 18:04 UTC+8

The Decoder 报道称谷歌正持续流失关键 AI 研究人员,多位核心科学家接连转投竞争对手。这一趋势凸显了在前沿模型竞赛白热化之际,顶尖人才的去留正成为各大实验室的关键变量。

厂商动态人才流动谷歌实验室竞争

Optimizing cloud economics with linear elastic caching

Google Research · 06-25 18:03 UTC+8

Google Research 介绍了一种「线性弹性缓存」(linear elastic caching)方法来优化云端经济性,用算法手段在成本与缓存命中之间取得更优平衡。对关注大规模服务降本与缓存策略的基础设施工程师有参考价值。

Infra缓存云成本算法优化

viable/strict/1782385994: [ROCm] Origami enabled (#186644)

PyTorch · 06-25 14:11 UTC+8

PyTorch 合入 PR,默认启用「Origami」特性,并已通过 ROCm(AMD GPU)路径验证。这是面向 AMD 显卡生态的默认配置调整,让相关用户开箱即获得该优化。

InfraPyTorchROCmAMD

trunk/3683134c91612551840393ad2ce4a1a711f2f37e

PyTorch · 06-25 12:57 UTC+8

PyTorch 一处提交统一了「torch.compile」与「export」中动态形状(dynamic_shapes)的变量命名,使两条路径表述一致。属于编译栈的内部一致性整理,便于后续维护与用户理解。

InfraPyTorchtorch.compile动态形状

Cerebras stock plunges after earnings as CEO says margin outlook was misunderstood

TechCrunch · AI · 06-25 06:41 UTC+8

AI 芯片公司 Cerebras 上市后首份财报发布后股价大跌,CEO 称核心业务毛利率收窄的指引被市场误读。这反映出资本市场对 AI 芯片新贵的盈利能力高度敏感,毛利预期的细微变化就足以引发剧烈波动。

InfraCerebrasAI芯片财报

How Loka Built a Natural, Low-Latency Voice Agent with Amazon Nova 2 Sonic

AWS 机器学习 · 06-25 00:56 UTC+8

AWS 分享了 Loka 如何用「Amazon Nova 2 Sonic」打造自然、低延迟的语音智能体,专门解决机器人腔、反应慢导致客户挂断的痛点。文章给出了架构与实现思路,对想做流畅语音客服体验的团队有直接借鉴意义。

Agent语音Agent低延迟Nova Sonic

b9782

llama.cpp · 06-25 00:46 UTC+8

llama.cpp 发布 b9782 版本,本次清理了 common 模块中未使用的 json-partial 代码,并照常提供覆盖各平台与加速后端的预编译产物。属于本地推理框架的常规代码清理与构建更新。

Infrallama.cpp本地推理代码清理

📄 论文 17 篇

「Improved Large Language Diffusion Models」推进扩散式语言模型,值得关注其与自回归路线的能力差距收窄。

Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

HF 精选 · 06-25 08:00 UTC+8

Wan-Streamer 把视觉、音频、文本三种模态统一进一个端到端模型,瞄准的是实时音视频交互这种对延迟极其敏感的场景。它的关键设计是用因果注意力让模型只看历史、不等未来,从而支持流式生成与边听边说边看的低延迟交互,而不是传统离线推理那种攒齐整段再处理。这套思路把多模态交互式基座往真正可对话、可实时响应的方向推进了一步,对做语音助手、数字人和实时多模态 Agent 的从业者有直接借鉴价值。

基座多模态基座实时交互因果注意力
📖 阅读⬇ PDF

Improved Large Language Diffusion Models

字节 SeedHF 精选 · 06-25 08:00 UTC+8

这篇工作改进了掩码扩散语言模型,用完全双向注意力替代自回归的单向依赖,让模型在生成时能同时利用上下文两侧信息。结果是在多个基准上反超同规模自回归模型,并与成熟模型保持竞争力,进一步证明扩散式语言生成不只是新奇路线,而是有望在质量上正面叫板主流自回归范式。对关注非自回归生成、并行解码与新架构的人值得一看。

基座扩散语言模型双向注意力非自回归
📖 阅读⬇ PDF

RoPE-Aware Bit Allocation for KV-Cache Quantization

HF 精选 · 06-25 08:00 UTC+8

针对 KV-Cache 量化时一刀切分配比特会损伤注意力精度的问题,「Block-GTQ」提出感知「RoPE」的比特分配方案:根据旋转位置编码对不同维度的敏感度差异,自适应地把比特预算分给 key-cache 中更关键的部分,并配合打包式缓存服务落地。这样既压低了显存占用,又比均匀量化更好地保住了注意力准确度和下游表现,对做长上下文推理、显存吃紧的 serving 优化很实用。

KV-Cache量化RoPE推理优化
📖 阅读⬇ PDF

The Hitchhiker's Guide to Agentic AI: From Foundations to Systems

HF 精选 · 06-25 08:00 UTC+8

这是一本系统讲解如何构建自主智能体的指南,从「Transformer」架构、训练方法这些地基讲起,一路覆盖到强化学习、Agent 架构设计与生产部署等进阶话题。它的价值在于把分散在论文和工程实践里的 Agentic AI 知识体系化串联,适合想从基础到落地完整建立认知的工程师当作入门到进阶的参考读物。

Agent综述教程智能体架构
📖 阅读⬇ PDF

Autodata: An agentic data scientist to create high quality synthetic data

MetaHF 精选 · 06-25 08:00 UTC+8

「Autodata」让 AI Agent 扮演数据科学家,自动生产高质量合成训练数据,核心是通过元优化让智能体在生成数据的过程中不断自我调整策略,而非依赖固定模板硬造。实验显示这种自动化数据合成在多个任务域上都能带来性能提升,对苦于真实标注数据稀缺、想用合成数据扩充训练集的团队是一条值得参考的路子。

训练合成数据数据工程Agent
📖 阅读⬇ PDF

ReNIO: Reweighting Negative Trajectory Importance for LLM On-Policy Distillation

HF 精选 · 06-25 08:00 UTC+8

「ReNIO」改进了大模型的在策略蒸馏,针对的是训练里负样本轨迹被一视同仁、信号被稀释的问题。它的做法是按 token 级的概率比对负轨迹的重要性重新加权,让真正有价值的纠错信号被放大、噪声被压低,从而在数学推理和代码生成这类强推理任务上拿到更好的表现,对做推理模型蒸馏与 RL 后训练的人有直接启发。

在策略蒸馏推理后训练
📖 阅读⬇ PDF

RL-Index: Reinforcement Learning for Retrieval Index Reasoning

HF 精选 · 06-25 08:00 UTC+8

「RL-Index」把检索里的推理从查询时前移到建索引阶段:用大模型为文档生成解释性理由,并通过强化学习优化这些索引侧的推理内容。好处是查询时无需再做重推理,既提升了检索效果又显著降低延迟,对做 RAG、向量检索和想兼顾召回质量与响应速度的从业者是个有意思的工程思路。

Infra检索RAG强化学习
📖 阅读⬇ PDF

CAVEWOMAN: How Large Language Models Behave Under Linguistic Input and Output Compression

HF 精选 · 06-25 08:00 UTC+8

「CAVEWOMAN」用双通道评测系统地拆解了输入压缩与输出压缩对大模型的不同影响,结论相当反直觉:压缩输出能实实在在省成本,而压缩输入反而会推高成本并在多个模型和数据集上拉低准确率。这一发现提醒做提示工程和成本优化的人别想当然地砍输入 token,压错地方既费钱又掉点。

推理优化上下文压缩成本优化评测
📖 阅读⬇ PDF

Are We Ready For An Agent-Native Memory System?

HF 精选 · 06-25 08:00 UTC+8

这篇工作追问业界是否已为「Agent 原生」的记忆系统做好准备:随着大模型智能体的记忆已演化成复杂的数据管理框架,它指出需要跨多个模块和多种工作负载做系统化评测,才能真正摸清这些记忆系统的性能特征与取舍。对正在给 Agent 搭长期记忆、纠结于不同记忆方案如何选型的团队,提供了一套评估视角。

AgentAgent记忆系统评测智能体
📖 阅读⬇ PDF

V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning

HF 精选 · 06-25 08:00 UTC+8

「V-Zero」提出一套无需标注答案的细粒度视觉推理训练框架,核心是用对比式证据门控:让模型在没有标准答案标签的情况下,靠对比正负证据来甄别哪些视觉线索真正支撑结论。它在提升细粒度视觉推理能力的同时还比传统方法训练更快,对苦于视觉推理数据标注昂贵的研究者是一条省标注、提效率的路线。

后训练视觉推理无标注训练在策略蒸馏
📖 阅读⬇ PDF

Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do

ACL 2026CCF-A推荐HF 精选 · 06-25 08:00 UTC+8

这篇研究系统检视了多模态思维链推理的能力边界,发现它的有效性是高度选择性的——在某些任务上确有帮助,但在推理过程中难以持续保持对图像的「视觉自省」,容易脱离视觉证据空想。结论提醒大家别迷信多模态 CoT 万能,看图要轻、想要重,但想的过程必须时刻锚回画面,对做视觉推理与多模态评测的人是务实的能力边界提示。

基座多模态思维链视觉推理
📖 阅读⬇ PDF

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

HF 精选 · 06-25 08:00 UTC+8

这篇工作研究了 LLM Agent 在工具选择上的过度授权问题:智能体经常在低权限工具就够用时偏偏挑高权限工具,而单纯的安全对齐并不能保证它做出最小权限选择。作者提出一种后训练防御手段,能在不牺牲任务性能的前提下显著减少不必要的高权限调用,对关注 Agent 安全与工具调用权限治理的人很有现实意义。

AgentAgent安全工具调用最小权限
📖 阅读⬇ PDF

PrivacyAlign: Contextual Privacy Alignment for LLM Agents

HF 精选 · 06-25 08:00 UTC+8

「PrivacyAlign」用一套以人为本的方法让 AI Agent 的行为对齐隐私规范,先构建了一个覆盖大量隐私判断的标注数据集,再用「标注条件化」的奖励建模把人类对情境化隐私的判断注入智能体。这样训练出的 Agent 在处理敏感信息时更懂分寸,对做面向真实用户、要处理隐私数据的智能体应用的团队有参考价值。

Agent隐私对齐Agent安全奖励建模
📖 阅读⬇ PDF

Do Thinking Tokens Help with Safety?

HF 精选 · 06-25 08:00 UTC+8

这篇研究追问「思考 token」到底帮不帮安全,发现推理模型的安全结果其实在早期隐藏表示里就已可预测——模型表面上在「斟酌」,但这些思考并未实质影响最终回答;更值得警惕的是,当前的安全干预手段反而会无意中压制掉真正的斟酌信号。这一发现对依赖思维链来提升模型安全的做法提出了有力质疑,提醒对齐研究者别把推理痕迹当成安全的保障。

后训练推理模型安全对齐可解释性
📖 阅读⬇ PDF

Plans Don't Persist: Why Context Management Is Load Bearing for LLM Agents

HF 精选 · 06-25 08:00 UTC+8

这篇工作揭示了一个 Agent 工程里容易被忽视的隐患:标准 LLM 智能体其实是靠计划内容一直留在上下文里来「记住」计划,而非把它作为持久状态独立维护。一旦上下文被压缩或裁剪,计划就可能悄悄丢失。作者用重放配对诊断和压缩压力测试给出了证据,点明上下文管理对 Agent 是承重墙级别的关键,对做长程任务智能体的人是个重要警示。

Agent上下文管理长程任务
📖 阅读⬇ PDF

Constraint Tax in Open-Weight LLMs: An Empirical Study of Tool Calling Suppression Under Structured Output Constraints

HF 精选 · 06-25 08:00 UTC+8

这篇实证研究揭示了开源权重模型上的一个隐蔽坑:当「JSON Schema」约束和工具调用同时开启时,会触发「工具抑制」——模型虽仍乖乖遵守 schema,却再也调不出工具。根因在于基于语法的 token 掩码让工具调用所需的 token 在解码时变得不可达。这对依赖结构化输出又要用 function calling 的开发者是一记实用提醒,等于点出了一种约束带来的隐性税。

Agent工具调用结构化输出开源模型
📖 阅读⬇ PDF

Forecasting Future Behavior as a Learning Task

HF 精选 · 06-25 08:00 UTC+8

这篇工作把「预测未来行为」当成一个可学习的任务:训练「行为预测器」从单条轨迹去预判大型推理模型的输出,结果在准确度上超过直接用大模型预测,而所需算力却低得多。这意味着可以用一个轻量预测器替代昂贵的大模型推理来做行为预判,对关注推理成本压缩和模型行为可预测性的人提供了一个高性价比的新思路。

后训练行为预测推理成本推理模型
📖 阅读⬇ PDF