🗂 历史归档
每日 AI 速览

2026-07-02

生成于 2026-07-03 23:06
⚠️ 本页行业动态来源于互联网公开信息,可能存在不实或失准内容,请仔细辨别消息真实性

今日导语

今日主线集中在训练方法与厂商基座两端。字节发布『Seed2.0』模型卡,宣称面向真实世界复杂度冲击智能前沿,是当天最重磅的基座动态;与之呼应,一篇论文用『组标准差恒等式』把『GRPO』『Dr. GRPO』『DAPO』统一为对同一数值的三种运算,为强化学习后训练提供了难得的理论收敛视角。Infra 侧,面向『PD』分离『MoE』服务的专家局部性解码路由『ELDR』、以及流式视频生成服务系统『TurboServe』,把推理优化推向多模态与专家并行的新场景。Agent 生态同样活跃,蚂蚁『AReaL 2.0』开源为智能体加装成长系统,『SGLang』Tracing 调优与 Vercel 开源框架『Eve』一并落地。资本面,英伟达出资扶持初创以松动大厂对其芯片的掌控,微软新设 AI 部署公司投入巨资,产业格局持续重塑。

🗞 行业动态 30 条

OpenAI proposed donating 5% of its equity to a US sovereign wealth fund

TechCrunch · AI · 07-02 23:20 UTC+8

据报道,OpenAI CEO 山姆·奥特曼提议把公司 5% 的股权捐给一个美国主权财富基金,重新点燃了「让公众分享 AI 繁荣红利」的讨论。这一动作牵涉到 OpenAI 的股权结构、政企关系和它一向争议的营利—非营利定位,对关注头部 AI 公司治理走向和监管博弈的人值得留意。

厂商动态OpenAI公司治理AI政策

Nvidia is bankrolling AI startups to loosen Big Tech's grip on its chip business

The Decoder · 07-02 21:00 UTC+8

英伟达正越来越像 AI 创业圈的「央行」,通过大手笔投资初创公司来主动塑造算力市场格局,意在削弱亚马逊、微软、谷歌等大厂对其芯片生意的把控。对关注 GPU 供给、算力生态和芯片话语权之争的从业者,这反映了英伟达从卖芯片转向经营整个 AI 算力版图的战略意图。

Infra英伟达算力生态GPUAI投资

NVIDIA Unlocks AI Compute at Scale, Inviting Partners to Power the AI Infrastructure Buildout

NVIDIA 博客 · 07-02 11:34 UTC+8

英伟达宣布要在大规模层面释放 AI 算力,邀请合作伙伴一起支撑 AI 基础设施的建设。其核心判断是:AI 正从模型开发阶段转向生产级推理,算力需求转向持续运转、规模化产出 token 的「AI 工厂」,这要求能快速上线、保持高利用率、并撑得起 token 级 AI 服务经济性的大规模多租户加速计算。对布局推理基础设施和 AI 工厂的团队,这透露了英伟达对算力形态转变的判断。

Infra英伟达AI基础设施推理算力

Multi-Agent Teams Hold Experts Back

Apple ML · 07-02 08:00 UTC+8

苹果这项研究给多智能体协作泼了盆冷水:当多个大模型智能体自由互动、协调不靠预先写死的固定流程时,自组织团队的表现到底如何?作者发现,比起让强者单干,把专家凑成自由协作的团队反而会拖后腿——协调若不能事先设计好、只能在互动中涌现,效果往往不及预期。这对一窝蜂上马多智能体系统的从业者是个重要提醒:多个 Agent 未必比一个强 Agent 更好。

Agent多智能体Agent协作苹果研究

从龙蜥孵化到上游贡献:SGLang Tracing 与 AI Agent 调优实践

InfoQ 中文 · 07-02 23:12 UTC+8

这篇实践分享讲了「SGLang Tracing」从龙蜥社区孵化到向上游贡献的过程,以及基于它做 AI Agent 调优的经验。SGLang 是当下热门的大模型推理框架,给它补上链路追踪(tracing)能力,能帮工程师看清推理和 Agent 执行的全过程、定位性能瓶颈。对用 SGLang 部署服务、想做可观测性和调优的团队有直接的工程参考价值。

推理优化SGLang推理框架链路追踪Agent调优

Microsoft launches its own AI deployment company with $2.5 billion commitment

TechCrunch · AI · 07-02 21:53 UTC+8

微软成立了自己的 AI 部署公司,并承诺投入 25 亿美元,跟上亚马逊、OpenAI、Anthropic 等纷纷组建 AI 部署队伍的步伐。这类专门的 AI 部署实体,反映出巨头们正把「把 AI 真正落地到企业和场景」当成一门独立的大生意来经营,对关注企业级 AI 落地和大厂战略布局的人是个值得跟进的信号。

微软AI部署厂商动态

让Agent越用越强:AReaL 2.0开源,给智能体装上“成长系统”

InfoQ 中文 · 07-02 20:45 UTC+8

「AReaL 2.0」开源,主打给智能体装上「成长系统」,让 Agent 越用越强。它面向的是智能体在使用中持续学习、自我改进的场景,属于把强化学习/持续学习和 Agent 框架结合的方向。对想让自己的智能体不止会调用工具、还能从经验里不断进化的开发者,这个开源框架提供了现成的抓手。

AgentAReaL智能体强化学习开源框架

AI agents can now complete 16 percent of freelance jobs at pro quality, up from 2.5 percent eight months ago

The Decoder · 07-02 20:37 UTC+8

据「远程劳动指数」(Remote Labor Index)衡量,AI 智能体如今已能以专业水准完成 16% 的自由职业项目,而八个月前这一比例仅为 2.5%,短短八个月翻了两番多。这条曲线直观量化了 Agent 实际替代真实付费工作的速度,对判断智能体能力落地节奏、评估相关岗位冲击的人是很有分量的参照数据。

AI智能体能力评测自动化Agent

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

Apple ML · 07-02 08:00 UTC+8

主流视频分词器把视频压成一个时空 3D token 网格、每个 token 对应一小块局部信息,这逼着下游文生视频模型去逐一预测这些固定排布的 token。苹果提出「VideoFlexTok」,做的是可变长、由粗到细的视频分词:token 数量能灵活伸缩,先给出粗粒度的整体表示再逐步细化。这让视频表示在压缩率和信息组织上都更有弹性,对研究视频生成与视觉 token 化的人是个值得关注的新方案。

基座视频分词多模态视频生成苹果研究

On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

Apple ML · 07-02 08:00 UTC+8

苹果这项研究拷问经过强化学习微调的视觉语言模型(VLM)到底有多稳:虽然 RL 调优提升了视觉推理榜单成绩,但模型仍存在视觉 grounding 薄弱、幻觉、过度依赖文本线索的毛病。作者用可控的文本扰动——误导性图注或错误的思维链——一戳就让模型性能大幅下滑,暴露出它其实没真正「看图」而是被文字牵着走。这提醒做多模态推理的人:榜单涨分不等于视觉理解真的可靠。

后训练视觉语言模型强化学习思维链鲁棒性

Learning Structured Reasoning via Tractable Trajectory Control

Apple ML · 07-02 08:00 UTC+8

大模型的推理能力常表现为一些反复出现的词法信号(比如「wait」暗示它在自我核验),但复杂的推理轨迹在自由采样下很稀有,标准 RL 也没法保证学到多样的推理行为。苹果这项工作提出通过「可控轨迹」来做结构化推理:主动、有针对性地探索特定推理模式,并用强化学习把这些多样的推理行为固化下来。这为如何让模型稳定习得并复用丰富的推理策略提供了系统性的方法,对研究推理训练的人有参考价值。

后训练结构化推理强化学习推理模式轨迹控制

b9859

llama.cpp · 07-02 02:11 UTC+8

llama.cpp 发布 b9859 版本,OpenCL 后端这次允许从库里加载预编译的二进制内核,并新增 libdl.h 处理与 ggml-backend-dl 之间的循环依赖,还把 gemm_moe_mxfp4_f32、q8_0、q4_0/q4_1 的 MoE GEMM 等一批算子改成可从内核库按需加载。对在非 CUDA 设备(如各类支持 OpenCL 的 GPU)上跑 llama.cpp、关心量化 MoE 推理性能的用户,这些改动有助于加速内核加载与提升可移植性。

推理优化llama.cppOpenCL量化推理MoE

How Inscribe uses Amazon Bedrock to stop document fraud in seconds

AWS 机器学习 · 07-02 01:53 UTC+8

Inscribe 基于 Amazon Bedrock 搭了一套「智能体式」欺诈检测系统,让模型像资深欺诈分析师那样跨多份文件交叉推理,识别被篡改、伪造乃至 AI 生成的金融文档。上线后单次审核能在 90 秒内出结果,相比人工审核提速约 20 倍,同时保留了金融监管所要求的准确性和可解释性。对做合规风控、想把 LLM 落进受监管流程的团队是个可参考的样本。

Agent智能体应用欺诈检测Amazon Bedrock金融风控

b9858

llama.cpp · 07-02 01:11 UTC+8

llama.cpp 发布 b9858 版本,主要改动是让加载 Hugging Face 上的分片模型时直接用主分片作为模型路径,修掉了多分片模型加载的一个体验问题,同时照例覆盖 macOS/iOS、各类 Linux 后端(Vulkan、ROCm、SYCL、OpenVINO)、Android 与 Windows 的多平台构建。对本地跑量化模型的用户是个小而实用的维护更新。

Infrallama.cpp本地推理版本发布

Mastering Agentic Techniques: AI Agent Reinforcement Learning

NVIDIA 开发者 · 07-02 01:04 UTC+8

NVIDIA 开发者博客的一篇技术教程,讲怎么把强化学习用到 AI 智能体上——从对齐语言模型的 RLHF,延伸到用 RL 训练智能体的自主决策与工具使用能力。适合想把 RL 从「对齐助手」推进到「训练会干活的 Agent」这一步的工程师上手参考。

后训练强化学习AI 智能体训练方法

Vercel 推出开源 AI 智能体开发框架 Eve

InfoQ 中文 · 07-02 18:54 UTC+8

Vercel 推出并开源了 AI 智能体开发框架「Eve」,进一步补齐它围绕前端与全栈开发的 AI 工具版图。对已经在用 Vercel 生态的开发者来说,多了一个原生的智能体搭建选项。

Agent智能体框架Vercel开源

not much happened today

smol.ai AI News · 07-02 13:44 UTC+8

smol.ai 当日快讯:「Fullstack Code Arena」把编码智能体的评测扩展到数据库、API 密钥、部署和结构化工具调用,标志着评测重心从写代码转向端到端交付可上线应用;LangChain 发布带统一追踪的「LangSmith」和自动生成文档的「OpenWiki」,LlamaIndex 展示了智能体原生的解析能力。Simon Willison 等人指出,当下 Agent 的主要难点已从模型本身转到路由、可观测性与记忆这些协调层面的工程问题。

Agent智能体评测LangChain行业动态

Amortizing Maximum Inner Product Search with Learned Support Functions

Apple ML · 07-02 08:00 UTC+8

苹果这篇工作针对最大内积搜索(MIPS)这一机器学习常用子程序反复求解开销大的问题,提出「摊销式 MIPS」:训练神经网络直接预测 MIPS 的解,把对固定键库、来自已知分布的大量查询的重复求解成本一次性摊薄。其关键洞见是 MIPS 的值函数本质上是一个支撑函数,从而可以用回归方式学习逼近。对做向量检索、推荐召回等需要高频 MIPS 的场景是一条以「学习换算力」的新思路。

Infra向量检索最大内积搜索苹果

MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers

Apple ML · 07-02 08:00 UTC+8

这项工作聚焦 Transformer 中前馈模块(FFN)可解释性的老难题,提出「MemoryLLM」把 FFN 从自注意力中解耦出来,将其当作一个「上下文无关、按 token 检索」的神经记忆来研究,考察输入 token 如何在 FFN 内访问不同的记忆位置。这种即插即用又可解释的视角,为理解大模型内部知识存储与检索机制提供了新的分析工具。

基座可解释性Transformer前馈网络机制分析

Learning Unmasking Policies for Diffusion Language Models

Apple ML · 07-02 08:00 UTC+8

扩散语言模型(dLLM)里,每一步该「解掩码」哪些 token 是关键设计,此前多用置信度阈值等启发式策略。这篇工作转而去「学习」一套解掩码策略,让模型自己决定每步揭开哪些位置,在样本质量与吞吐之间取得更好平衡。对想让扩散式 LLM 在推理效率上真正兑现并行优势的研究者有直接参考价值。

扩散语言模型推理优化采样策略

Residual Context Diffusion Language Models

Apple ML · 07-02 08:00 UTC+8

当前分块式扩散语言模型靠「重掩码」机制每步只保留最有把握的少数 token、丢掉其余,等于白算了一部分。这篇「残差上下文扩散语言模型」指出被丢弃 token 仍保留着对后续步骤有用的上下文信息,把这部分计算回收再利用,从而减少浪费、提升解码效率。是对 dLLM 并行解码「算力利用率低」痛点的一次实打实优化。

扩散语言模型解码效率推理优化

Conformal Thinking: Risk Control for Reasoning on a Compute Budget

Apple ML · 07-02 08:00 UTC+8

推理型大模型靠测试时扩展提升准确率,但 token 预算给多少、自适应推理何时停,牵扯到风险与准确率的根本权衡。这篇「Conformal Thinking」把预算设定重新表述为「风险控制」问题,借用共形预测的思路,在给定计算预算下为提前停止提供带统计保证的阈值,让「该多想时多想、想不出名堂时早停」变得可控可量化。对在成本约束下部署推理模型的团队很实用。

推理优化推理模型测试时扩展风险控制成本优化

Autoresearch: The feedback loop behind self-improving agents

Latent Space · 07-02 07:52 UTC+8

Latent Space 访谈,Introspection 联合创始人 Roland Gavrilescu 讲解「autoresearch」——智能体的自我改进反馈闭环、可复用的 agent「配方」,以及为什么在这套「软件工厂」里人类仍处于核心位置。适合关注自改进 Agent 与人机协作边界的读者。

Agent自改进智能体AI 访谈智能体工程

Run NVIDIA Nemotron and OpenAI GPT OSS models on Amazon Bedrock in AWS GovCloud (US)

AWS 机器学习 · 07-02 02:14 UTC+8

AWS 把美国本土的前沿开放权重模型引入 GovCloud(美国政务云),Amazon Bedrock 现已支持 OpenAI 的开源 GPT OSS(120B 和 20B)以及 NVIDIA Nemotron 系列(Nano 9B/12B v2、Nano 30B、Super 120B)。文章还覆盖了满足数据驻留要求的推理选项与服务分级。对有合规与数据主权要求、想在政务云上用开源大模型的机构是个可落地的新选择。

Infra开源模型Amazon BedrockGPT OSSNemotron

Building a serverless A2A gateway for agent discovery, routing, and access control

AWS 机器学习 · 07-02 02:07 UTC+8

AWS 教你在其上搭一个无服务器的 A2A(Agent-to-Agent)网关,用基于路径的路由(/agents/{agentId})把多个智能体挂在同一个域名下,且标准 A2A 客户端无需改动即可对接。对要做多智能体统一接入、发现、路由与访问控制的团队是个现成的架构参考。

Agent多智能体A2A 协议网关架构AWS

Structured memory filtering with metadata in AgentCore Memory

AWS 机器学习 · 07-02 02:03 UTC+8

AWS 介绍 AgentCore Memory 里如何用元数据做结构化的记忆过滤:讲清元数据在配置、写入与检索三个环节各自怎么发挥作用,并给出多智能体、多租户等企业场景的用法和实践建议。对搭建需要按维度精细筛选记忆的智能体系统有直接帮助。

Agent智能体记忆元数据过滤多租户AWS

HippoRAG: Neurobiologically inspired RAG using Amazon Bedrock, Amazon Neptune, and personalized PageRank

AWS 机器学习 · 07-02 02:01 UTC+8

AWS 演示如何用一整套云上组件实现受神经生物学启发的「HippoRAG」:Bedrock 提供 LLM 能力,Neptune 做图数据库、Neptune Analytics 跑个性化 PageRank 等图算法,Titan Embeddings 负责向量表示,把这套模仿海马体联想记忆机制的 RAG 部署到企业级规模。对想用图结构强化检索、突破普通向量 RAG 局限的团队是完整的落地样例。

InfraRAG知识图谱个性化 PageRankAWS

Skill engineering and the case against one-shot AI design

Latent Space · 07-02 22:36 UTC+8

Latent Space 访谈,Paul Bakaus 聊他的项目「Impeccable」,以及在「loopmaxxing(拼命堆自动化循环)」时代为什么人类判断依旧不可或缺、为何 Agent 仍需要人来把方向。是对「一次成型式 AI 设计」的一次反思,主张把人的判断力设计进流程里。

Agent技能工程人机协作AI 访谈

Anthropic Redeploys Claude Fable 5 on July 1 After US Export Controls Lift, Adds New Cybersecurity Classifier

MarkTechPost · 07-02 04:41 UTC+8

MarkTechPost 报道:随着美国出口管制放开,Anthropic 于 7 月 1 日重新部署 Claude Fable 5,同时上线新的网络安全分类器,对亚马逊报告中提到的攻击手法有超过 99% 的拦截率,被标记的请求会改由 Opus 4.8 处理。公司还联合亚马逊、微软、谷歌提出了一套四要素的越狱严重程度评估框架。是一条同时关乎模型可用性与安全治理的厂商动态。

厂商动态Anthropic模型发布AI 安全越狱防护

Simplify model selection in Amazon Bedrock with the open source Model Profiler

AWS 机器学习 · 07-02 01:46 UTC+8

AWS 开源了「Amazon Bedrock Model Profiler」工具,把散落在多个 AWS API 和外部来源的模型元数据聚合到一个可搜索的统一界面,帮助在 Bedrock 上做模型选型,号称五分钟内即可部署。对面对众多模型、纠结该选哪个的开发者是个省事的辅助工具。

Infra模型选型Amazon Bedrock开源工具

📄 论文 20 篇

看点是『组标准差恒等式』一文:把三种主流『RLVR』算法证明为对同一标准化数值的不同操作,为后训练算法选择与调参给出统一坐标系。

Set Diffusion: Interpolating Token Orderings Between Autoregression and Diffusion for Fast and Flexible Decoding

ICML 2026CCF-A推荐arXiv · 07-02 14:45 UTC+8

离散扩散语言模型质量已逼近自回归,却卡在两个硬伤上:只能定长生成、且用不上「KV 缓存」,而块扩散虽然按块从左到右生成算是折中,固定大小的顺序块又限制了解码的灵活度和并行度。这篇提出「集合扩散」,把生成建模成对 token 顺序的一种插值,让模型能在纯自回归和纯扩散这两个极端之间任意滑动,从而既拿回 KV 缓存、又保留可变长和高并行的解码自由度。对追求推理速度与生成灵活性兼得的人来说,这是一条把两套范式优点合流的新路子。

推理优化离散扩散自回归解码加速KV缓存
Marianne Arriola, Volodymyr Kuleshov
📖 阅读⬇ PDF

TurboServe: Serving Streaming Video Generation Efficiently and Economically

HF 精选 · 07-02 08:00 UTC+8

流式视频生成上线服务时会遇到会话状态难维护、资源需求随时波动的麻烦,传统 serving 系统并不为这种长会话、边生成边推流的负载而设计。「TurboServe」是专门面向流式视频生成的服务系统,把调度、自动扩缩容和会话迁移三套机制整合到一起,统一管理会话状态并动态调配资源。对要把视频生成模型真正跑成可盈利线上服务的团队,它给出了一套兼顾效率与成本的落地方案。

推理优化视频生成推理服务会话调度自动扩缩容
📖 阅读⬇ PDF

ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving

MicrosoftHF 精选 · 07-02 08:00 UTC+8

在 PD 分离(预填充与解码分开部署)的 MoE 服务里,解码阶段每步激活哪些专家事先不知道,请求被随意路由就会频繁触发跨节点的专家权重搬运,拖慢吞吐。「ELDR」是一个「专家局部性感知」的解码路由器,通过预测请求接下来会激活哪些专家,把请求导向已经持有这些专家的节点,从而减少专家迁移开销、提升整体性能。对做大规模 MoE 推理部署、被专家路由通信瓶颈困扰的工程团队很有参考价值。

MoE推理PD分离专家路由推理优化
📖 阅读⬇ PDF

Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity

字节 SeedHF 精选 · 07-02 08:00 UTC+8

「Seed2.0」的模型卡瞄准真实世界的复杂任务,重点啃两块硬骨头——长尾知识的覆盖和复杂指令的准确执行,同时在推理、视觉理解和搜索能力上做增强。它的一大特色是把评测体系牢牢锚定在真实用户需求上,而非单纯刷公开榜单。对关注前沿基座模型如何面向实际落地打磨能力的从业者,这份模型卡值得一读。

基座基座模型模型发布复杂指令多模态
📖 阅读⬇ PDF

Graph-Native Reinforcement Learning Enables Traceable Scientific Hypothesis Generation through Conceptual Recombination

HF 精选 · 07-02 08:00 UTC+8

这项工作想让大模型生成科学假设时不再是黑箱拍脑袋,而是可追溯、可解释。「Graph-PRefLexOR」是一个图原生的推理模型,用「组相对策略优化」(GRPO)训练,把材料科学的假设生成拆成机制探索、图构建、模式提取、假设综合几个结构化阶段,靠概念之间的重新组合来产出新想法。结果在推理可追溯性和语义多样性上都有提升,为 AI 辅助科研提供了一条把强化学习和知识图谱结合的思路。

后训练科学发现强化学习知识图谱GRPO
📖 阅读⬇ PDF

GRPO, Dr. GRPO, and DAPO Are Three Operations on One Number: The Group-Standard-Deviation Identity

HF 精选 · 07-02 08:00 UTC+8

「GRPO」「Dr. GRPO」「DAPO」这三种看似各异的强化学习训练法,被这篇论文证明其实是围绕同一个数字——组内标准差——做的三种操作,作者称之为「组标准差恒等式」。关键洞见在于:一组采样答案之间的分歧程度(即标准差)既决定了学习是否有效,也决定了参数更新的幅度。这种统一视角把 RLVR 训练里几个热门算法的差异讲清楚了,帮从业者理解调什么、为什么调,避免把等价的东西当成互相竞争的方案。

后训练强化学习RLVRGRPO训练方法
📖 阅读⬇ PDF

Optimizing Visual Generative Models via Distribution-wise Rewards

ICML 2026CCF-A推荐arXiv · 07-02 23:08 UTC+8

给视觉生成模型做强化学习时,常规做法是对每张图单独打分(样本级奖励),但这容易被模型钻空子——为了拿高分而牺牲图像多样性、甚至冒出诡异瑕疵,即所谓奖励攻击。这篇提出用「分布级奖励」来微调生成模型:不再孤立评估单张图,而是让生成分布整体去对齐真实数据分布。这样既压住了奖励攻击导致的多样性坍缩,又让输出更贴近真实世界的图像分布,对做文生图对齐、被 reward hacking 折磨的团队是个实用改进。

后训练视觉生成强化学习奖励攻击文生图
Ruihang Li, Mengde Xu, Shuyang Gu, Leigang Qu, Fuli Feng, Han Hu, Wenjie Wang
📖 阅读⬇ PDF

PairCoder++: Pair Programming as a Universal Paradigm for Verified Code-Driven Multimodal and Structured-Artifact Generation

ACL 2026CCF-A推荐arXiv · 07-02 16:36 UTC+8

图表、科学插图、矢量图、CAD 模型、3D 场景、硬件设计——这些结构化产物本质上都是大模型写程序生成的,可单次推理很脆弱,因为决定产物是否成立的编译器、渲染器或仿真器对模型是不可见的。「PairCoder」把结对编程搬进来当通用范式:一个 Driver 智能体写代码,另一个智能体把审查环节接进真实工具链,让工具的反馈成为验证依据。这套「代码驱动 + 工具链验证」的思路为多模态与结构化产物生成提供了可靠性更高的通用框架。

Agent代码生成多智能体结对编程多模态
Junhao Chen, Xiang Li, Mingjin Chen, Boran Zhang, Henghaofan Zhang, Yibin Xu, Yuehan Cui, Fangsheng Weng
📖 阅读⬇ PDF

Multi-Objective Exploration and Preference Optimization via Mutual Information

ECML-PKDD 2026CCF-B推荐arXiv · 07-02 02:50 UTC+8

要让大模型对齐多元而互相冲突的人类价值,得靠多目标对齐去权衡不同偏好维度,现有做法是训练一个以偏好向量为条件的策略、再用在线 DPO 来调。但探索过程中的不确定性会让不同偏好向量下生成回复的奖励分布互相重叠,导致偏好难以区分。这篇引入互信息来引导多目标探索与偏好优化,让不同偏好方向下的回复分布拉开距离、更好区分,从而提升多目标对齐的效果,对做个性化、可控偏好对齐的研究者有直接借鉴。

后训练多目标对齐偏好优化互信息DPO
Hongyan Xie, Yikun Ban, Ruiyu Fang, Zixuang Huang, Deqing Wang, Jianxin Li, Shuangyong Song
📖 阅读⬇ PDF

MemSyco-Bench: Benchmarking Sycophancy in Agent Memory

HF 精选 · 07-02 08:00 UTC+8

记忆对基于大模型的智能体很关键,但检索回来的记忆会诱发「谄媚」——智能体为迎合用户而牺牲事实准确性。「MemSyco-Bench」专门测这件事:它不再只考记忆的存取能力,而是评估记忆如何影响智能体的推理和决策,看它会不会因为顺着用户的历史偏好而给出错误结论。对开发带长期记忆的 Agent、担心记忆反噬可靠性的团队,这个基准提供了必要的评测抓手。

智能体记忆谄媚评测基准Agent
📖 阅读⬇ PDF

CausalMix: Data Mixture as Causal Inference for Language Model Training

HF 精选 · 07-02 08:00 UTC+8

训练大模型时怎么配比各来源数据一直是玄学,且数据分布一旦漂移,原来调好的配比就失效、重训代价高昂。「CausalMix」把数据配比优化重新表述成一个因果推断问题,用因果视角去估计每种数据对目标的贡献,从而在分布发生变化时动态调整配比,而不必推倒重训。对做预训练数据工程、被配比调优和数据漂移困扰的团队,这提供了一个更有原则、更省算力的框架。

训练数据工程数据配比因果推断预训练
📖 阅读⬇ PDF

AutoTrainess: Teaching Language Models to Improve Language Models Autonomously

HF 精选 · 07-02 08:00 UTC+8

能不能让语言模型自己训练语言模型?「AutoTrainess」朝这个方向走:它给模型搭了一套结构化的「智能体—计算机接口」,把规划、数据准备、训练、评测、日志这一整条训练流水线拆成模型能可靠操作的动作,比直接丢给它敲命令行更靠谱。这为自动化、自主化的模型训练流程提供了一个可操作的框架,指向让 AI 参与甚至主导自身迭代的方向。

训练自主训练智能体训练流程Agent
📖 阅读⬇ PDF

The State-Prediction Separation Hypothesis

HF 精选 · 07-02 08:00 UTC+8

这篇提出「状态预测与 token 预测分离」假说:主张在 Transformer 里把预测下一个隐状态这件事,和预测下一个 token 分开来做。作者发现这样解耦之后,在不同规模下语言建模的效果和效率都有提升。这个思路给一直被 next-token 单一目标主导的架构设计提供了新的切入角度,对研究模型架构改进的人有启发。

基座模型架构Transformer语言建模状态预测
📖 阅读⬇ PDF

When LLMs Read Tables Carelessly: Measuring and Reducing Data Referencing Errors

ACL 2026CCF-A推荐HF 精选 · 07-02 08:00 UTC+8

大模型读表格时会「粗心」,引用错数据——比如把某行某列的值张冠李戴,这在数据分析类任务里是硬伤。这项工作先把这类「数据引用错误」量化度量出来,再用「批评者过滤 + 拒绝采样」的组合去减少它:让一个小模型专门当纠错的批评者。值得一提的是,仅 4B 参数的轻量模型就能达到很高的错误检出准确率,说明防住这类错误不一定要靠大模型,对做表格问答、数据分析 Agent 的团队是低成本的可靠性补丁。

后训练表格理解数据引用拒绝采样可靠性
📖 阅读⬇ PDF

Autonomous Scientific Discovery via Iterative Meta-Reflection

HF 精选 · 07-02 08:00 UTC+8

这项工作想让 AI 独立做开放式科研而不失严谨。它搭了一个自主科学发现框架,用大模型加动态代码生成去开展开放式研究,并靠「迭代式元反思」和多模态数据处理来守住统计严谨性——即让系统反复回看自己的研究过程、纠正方法上的疏漏。对探索 AI 自主科研、又担心它得出统计上不可靠结论的研究者,这提供了一条兼顾开放探索与方法把关的路径。

Agent自主科研元反思代码生成多模态
📖 阅读⬇ PDF

When More Sampling Hurts: The Modal Ceiling and Correlation Ceiling of Test-Time Scaling

HF 精选 · 07-02 08:00 UTC+8

都说测试时扩展「多采样几个再挑」能提升推理,这篇泼了盆冷水:采样超过几十个之后收益递减,甚至反而变差。作者点出两道天花板——「众数天花板」和「相关性天花板」:覆盖率(采到正确答案的概率)和选择(从中挑对)之间存在权衡,一味加采样并不能同时改善两者。这提醒做 test-time scaling 的人别盲目堆采样数,理解这两个上限才能把算力花在刀刃上。

推理优化测试时扩展推理采样test-time scaling
📖 阅读⬇ PDF

HealthAgentBench: A Unified Benchmark Suite of Realistic Agentic Healthcare Environments for Challenging Frontier AI Agents

MicrosoftHF 精选 · 07-02 08:00 UTC+8

「HealthAgentBench」是一套面向真实医疗场景的智能体评测集,覆盖 7 大类共 54 个临床工作流任务,用来考前沿 AI 智能体在复杂临床流程里的真实能力。评测发现当前智能体在医学影像和组合式推理上明显吃力,但在电子病历(EHR)数据分析上展现了潜力。对想把 Agent 用进医疗、需要清楚其能力边界的团队,这个基准给出了贴近实战的能力画像。

Agent医疗AI智能体评测评测基准临床应用
📖 阅读⬇ PDF

Model Merging as Probabilistic Inference in Fine-Tuning Parameter Space

UAI 2026CCF-B推荐arXiv · 07-02 12:30 UTC+8

模型合并想把多个单任务模型直接拼成一个多任务模型、不用再拿数据微调,但主流做法只从局部解空间的几何性质出发,很难判断每个任务方向的更新对其他任务到底有多大统计价值。这篇换了个视角,把模型合并表述成「专家乘积」框架下的概率推断,用概率的语言去给每个任务更新方向的有用程度打分。这为模型合并提供了比纯几何直觉更有原则的依据,对做多任务模型融合、想少踩合并坑的人有理论和实操参考。

训练模型合并多任务概率推断参数空间
Long Minh Bui, Tuan Anh Le Van, Tung Phi Duc, Phi Le Nguyen, Jana Doppa, Trong Nghia Hoang
📖 阅读⬇ PDF

PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception

ICML 2026CCF-A推荐HF 精选 · 07-02 08:00 UTC+8

多模态模型在榜单上分数漂亮,落到真实场景却常掉链子,二者之间的差距难以定位。「PerceptionRubrics」提出一套基于评分细则(rubric)的评测框架,靠「原子级审计」把评估拆到最小可判定的单元,再用「门控式打分」把评估结果校准到人类真实感知上,从而暴露基准分数和实际表现之间的缺口。对做多模态评测、苦于榜单分数不能反映真实体验的团队,这提供了更贴近人类感知的评估工具。

训练多模态评测评分细则人类感知评测基准
📖 阅读⬇ PDF

Path-level Hindsight Instructions for Semantic Exploration in Vision-Language Navigation

ECCV 2026CCF-B推荐arXiv · 07-02 14:11 UTC+8

训练视觉语言导航智能体离不开在线探索,它能让策略见到更广的状态分布,但探索出的轨迹会偏离专家示范,导致实际看到的视觉画面和原始语言指令对不上(语义错配)。这篇提出「Phi-Nav」统一的在线框架,用「事后诸葛(hindsight)」推理为偏离的轨迹补上路径级的事后指令,让走出来的画面重新和语言指令对齐。这样既保住了在线探索带来的鲁棒性,又修好了探索引入的语义错配,对做具身导航、被 on-policy 探索副作用困扰的研究者有实用价值。

Agent视觉语言导航在线探索事后指令具身智能
Sung June Kim, Sangpil Kim, Honglak Lee
📖 阅读⬇ PDF