🗂 历史归档
每日 AI 速览

2026-07-03

生成于 2026-07-04 04:10
⚠️ 本页行业动态来源于互联网公开信息,可能存在不实或失准内容,请仔细辨别消息真实性

今日导语

今日主线集中在三处。其一,芯片与算力自研升温,「Anthropic」传出与「Samsung」洽谈定制芯片,同时强调「Nvidia」地位不改,「WAIC 2026」则聚焦超节点与光互连能否突破单芯片物理天花板。其二,Agent 落地遇冷成焦点,「Meta」被曝智能体进展慢于「Zuckerberg」预期、转向卖算力,行业亦在反思规模化为何屡陷僵局;同期「阿里」推出通过 DOM 操控网页的「Page Agent」,开源本地浏览器代理「WebBrain」亮相。其三,记忆与长程能力受关注,多篇论文围绕记忆作为认知技能、端侧记忆代理与长时程测试床展开。此外多域「RLVR」自动化课程、混合注意力改造等训练方法也值得留意。

🗞 行业动态 36 条

b9867

llama.cpp · 07-03 22:57 UTC+8

llama.cpp 发布 b9867 版本,主要为投机解码引入 spec-draft-p-min 参数并在 DFlash 路径下支持,同时为 dflash 加上 n_min 与 n_max 的双重保护。这类改动让投机解码的草稿接受策略更可控,本地推理用户可借此更精细地权衡草稿模型的激进程度与吞吐,是 llama.cpp 持续打磨推理性能的一环。

推理优化llama.cpp投机解码本地推理

b9866

llama.cpp · 07-03 22:22 UTC+8

llama.cpp 的 b9866 版本为 CUDA 上的 topk-moe 融合算子放开了 288 个专家的支持。此前该融合只接受 2 的幂次专家数(外加特判的 576),像 Step-3.7-Flash 这种 288 专家的模型只能回退到未融合的逐层路由链,在 batch 为 1 时每 token 要多跑约 330 个细碎图节点。由于 288 是 warp size 的整数倍、现有 kernel 本就能处理,这次改动直接把它接进融合路径,为这类 MoE 模型的本地推理显著减负。

推理优化llama.cppMoECUDA优化推理加速

Meet Alibaba’s Page Agent: A JavaScript In-Page GUI Agent That Controls Web Interfaces With Natural Language Through the DOM

MarkTechPost · 07-03 04:51 UTC+8

阿里推出 Page Agent,一个以客户端 JavaScript 形式直接跑在网页里的 GUI 智能体:它把实时 DOM 当作文本来读,再根据自然语言指令去点击和输入。整套方案不需要截图、不用多模态模型、也不必改动后端。对想给现有网站快速加上自然语言操控能力的开发者来说,这条纯 DOM、轻量化的路线部署成本极低,是网页 Agent 的一种务实实现。

Agent网页Agent阿里GUI智能体DOM

Anthropic is discussing a new custom chip with Samsung

TechCrunch · AI · 07-03 02:31 UTC+8

Anthropic 正与三星洽谈合作开发一款定制 AI 芯片。此事发生在 OpenAI 联手博通官宣自研 AI 芯片约一周之后,显示头部大模型厂商纷纷向自研芯片延伸,试图摆脱对单一供应商的依赖、压低基础设施成本。对关注 AI Infra 与算力格局的人是一个值得留意的信号。

InfraAnthropic三星自研芯片AI Infra

Anthropic reportedly explores custom chip manufacturing with Samsung while insisting Nvidia still matters

The Decoder · 07-03 01:30 UTC+8

据报道,Anthropic 正与三星电子商谈代工一款定制 AI 芯片,项目尚处早期,但公司已招募芯片工程师。继 OpenAI 的『Jalapeño』之后,又一家头部 AI 公司下场做芯片以削减基础设施成本,同时 Anthropic 强调英伟达仍然重要、并非要取而代之。这反映出大模型厂商在算力自主与现有 GPU 生态之间的双轨策略。

InfraAnthropic三星自研芯片算力成本

b9864

llama.cpp · 07-03 19:30 UTC+8

llama.cpp 的 b9864 版本改进了服务端的 SSE 流式连接处理:对静默的 SSE 流每秒 ping 一次,只有连续 3 秒无响应才断开,避免慢速 prefill 期间把健康连接误杀。同时把 sse_ping_interval 做成每请求可配置的字段,全局默认仍保持 30 秒以不影响现有 API 客户端,而 WebUI 自己传 1 秒。对部署 llama.cpp 做在线服务、尤其长 prompt 场景的用户,连接稳定性更有保障。

推理优化llama.cpp流式服务SSE服务端

GPT and Claude failed Bridgewater's finance tests because the right answers were never public

The Decoder · 07-03 19:16 UTC+8

llama.cpp 的 b9862 版本移除了 gated_delta_net(GDN)之后的冗余 CUDA 拷贝。此前 GDN 会把循环状态快照写进输出尾部,图随即又把它们拷进 ssm_states_all;在 MTP 草稿长度为 3、目标解码 K=4 时会多出 4 次拷贝。改动让 CUDA 的 GDN kernel 直接把状态快照写进循环状态里,省掉这些多余拷贝,为带 GDN 的模型(如线性注意力/状态空间类)在 CUDA 上的解码提速。

后训练llama.cppCUDA优化状态空间模型推理加速

b9862

llama.cpp · 07-03 17:42 UTC+8

Bridgewater(桥水)与 Mira Murati 创办的 Thinking Machines Lab 合作,基于 Qwen3-235B 微调出一个面向金融任务的模型,据其自测准确率达 84.7%,在成本约为对手十四分之一的情况下超过了 Gemini、Claude 和 GPT。有意思的是,GPT 和 Claude 之所以在桥水的金融测试上失手,是因为这些题的正确答案从未公开过、无法从预训练语料里学到。不过这些数字尚未经外部独立验证。对看好开源模型垂直微调、以低成本打特定领域的路线是个有力案例。

推理优化垂直微调金融大模型Qwen开源模型

Meet WebBrain: An Open-Source, Local-First AI Browser Agent That Reads Pages and Automates Tasks in Chrome and Firefox

MarkTechPost · 07-03 13:55 UTC+8

WebBrain 是一款开源、本地优先的 AI 浏览器 Agent,采用 MIT 许可,支持 Chrome 和 Firefox。它能读取页面、抽取数据,并通过 Ask 与 Act 两种模式自动完成多步任务,既可接本地模型(如 llama.cpp 或 Ollama)以保护隐私,也能连任意云端 API。对想要一个可自托管、注重隐私的浏览器自动化 Agent 的用户是个现成选择。

Agent浏览器Agent开源本地优先网页自动化

Meta Watermelon 🍉, Anthropic Samsung chips 🤝, autoresearch in practice 📈

TLDR AI · 07-03 08:00 UTC+8

TLDR AI 这期速览汇总了几条要闻:Meta 代号「Watermelon」的动向、Anthropic 与三星在芯片上的合作,以及自动化科研(autoresearch)在实践中的落地进展。属于面向从业者的每日行业情报梳理,方便快速把握当天大模型与 AI 圈的关键动态。

厂商动态行业速览MetaAnthropic

llm-coding-agent 0.1a0

Simon Willison · 07-03 03:33 UTC+8

Simon Willison 发布 llm-coding-agent 0.1a0,这是又一个基于 Fable 5 的实验:他的 LLM 库已逐渐演化成一个 agent 框架,于是动手在其上搭一个类似 Claude Code 的简易编码 Agent。他先用模型生成项目 spec,再据此迭代实现,展示了如何用轻量库快速搭出一个可用的编码智能体,对想了解编码 Agent 最小实现的人有参考价值。

Agent编码Agent开源工具Fable5LLM框架

Microsoft launches $2.5 billion "Frontier Company" to embed 6,000 AI engineers inside enterprise clients

The Decoder · 07-03 03:18 UTC+8

微软斥资 25 亿美元成立名为「Frontier Company」的新部门,把 6000 名工程师直接派驻到企业客户内部,目标是把 AI 嵌入客户的核心业务流程并追求可衡量的 ROI,而非停留在实验阶段。微软借此把自己定位成中立平台,区别于 OpenAI 和 Anthropic 那种通过自家部署公司推销自家模型的打法。这反映出 AI 落地竞争正从模型本身转向企业级交付与集成能力。

厂商动态微软企业AI落地AI商业化

Best practices for multi-turn reinforcement learning in Amazon SageMaker AI

AWS 机器学习 · 07-03 01:50 UTC+8

AWS 分享在 SageMaker AI 上做多轮强化学习训练的一整套工程实践,专门针对智能体跑多步、跨轮次交互这种难训场景。核心思路是先搭一个可信赖的训练环境、配好外部评测,再设计一个真正对齐终端任务的奖励函数,并管理智能体多轮运行后状态漂移带来的变化,最后盯住能提示何时该迭代的关键指标。对想把 Agent 用 RL 训起来的团队而言,是一份少见的把「训练环境可靠性」和「奖励对齐」讲透的落地指南。

训练强化学习智能体训练方法AWS

June 2026 newsletter

Simon Willison · 07-03 22:50 UTC+8

Simon Willison 六月付费简报盘点了当月要闻,包括「Claude Fable 5」「GPT-5.6」发布与美国出口管制,并点名「GLM-5.2」成为当前最强开放权重模型,还抛出「Tokenmaxxing 时代已经结束」的判断。对追踪模型格局的人是一份浓缩的月度风向标。

厂商动态模型发布行业动态开源模型

Vercel's Andrew Qu on why agents are a new kind of software

Latent Space · 07-03 08:08 UTC+8

Vercel 软件负责人 Andrew Qu 讲述其智能体框架「eve」的诞生,以及为何智能体正成为一种全新形态的软件。他强调技能(skills)、沙箱和「可被智能体读取的网站」如今为何变得重要,对思考 Agent 时代应用架构该怎么变的开发者有启发。

Agent智能体Vercel应用架构

RAG-Anything Tutorial: Build a Multimodal Retrieval Pipeline for Text, Tables, Equations, and Images in Colab

MarkTechPost · 07-03 05:38 UTC+8

一篇 RAG-Anything 教程,演示如何在 Colab 里搭一条能同时检索文本、表格、公式和图像的多模态 RAG 流水线。它把内容转成 RAG-Anything 的 content_list 格式灌入检索系统,再配上 OpenAI 的对话、视觉、嵌入函数,实测 naive、local、global、hybrid 四种检索模式。对想快速上手多模态检索的工程师是一份可跑通的动手样例。

InfraRAG多模态检索

Using DSPy to evaluate and improve Datasette Agent's SQL system prompts

Simon Willison · 07-03 02:25 UTC+8

Simon Willison 用「DSPy」来评测并优化 Datasette Agent 的 SQL 系统提示词,并在 Claude Code for web 上用「Claude Fable 5」跑了一个异步研究任务来自动摸索用法。对想用程序化方式而非手工调 prompt 的人,是一个真实可参考的 DSPy 实战案例。

AgentDSPy提示词优化智能体

b9860

llama.cpp · 07-03 00:29 UTC+8

llama.cpp 新版本增加了 llama_ftype_name() 公共 C API,用来暴露模型文件的量化类型名称,如「Q8_0」或「Q4_K - Medium」。对基于 llama.cpp 做端侧推理、需要在程序里读取模型量化格式的开发者是个实用的小改进。

推理优化llama.cpp量化推理部署

从生成到交付,音视频 Agent 要有生产级开发套件

InfoQ 中文 · 07-03 19:48 UTC+8

文章主张音视频类 Agent 要从生成走向交付,就必须配上一套生产级的开发套件。对想把多模态生成能力真正做成可上线产品的团队,点出了工程化落地的缺口。

Agent智能体音视频多模态

Meta's AI agent push is moving slower than Zuckerberg planned

The Decoder · 07-03 19:05 UTC+8

扎克伯格在内部全员会上承认公司重组存在短板,围绕 AI 智能体做的组织调整推进得比计划要慢,而他的 AI 负责人却给出更乐观的说法。对观察 Meta AI 战略与执行落差的人是一条内部风向。

Meta智能体厂商动态

AIEWF Daily Dispatch: The great loops debate and the state of AI engineering

Latent Space · 07-03 13:11 UTC+8

AI 工程师世界博览会的每日综述,记录了大会以一场关于「loops」的辩论收尾,并带来一份 AI 工程现状报告和聚焦「下一步该造什么」的闭幕主题演讲。对把握 AI 工程社区当下关注点的人是一份现场速览。

AgentAI工程行业动态会议

viable/strict/1783070754

PyTorch · 07-03 10:27 UTC+8

PyTorch 为 XPU 后端放宽了 test_combo_kernel_no_bench_persistent_redu 相关测试的容差。属于 Intel GPU 上的测试稳定性微调,对追踪 XPU 支持成熟度的人有参考。

InfraPyTorchXPU测试

Understand to participate

Simon Willison · 07-03 01:07 UTC+8

Simon Willison 转述 Geoffrey Litt 在 AIE 上的一个框架「理解方能参与」:当编码智能体构造的改动越来越大越复杂,你必须把代码理解到足以继续与模型协作的深度,否则会背上认知债、让理解与代码真实运作渐行渐远。对天天和编码 Agent 打交道的人是个很戳的提醒。

Agent智能体编码助手观点

行业智能体时代来临:出行、货运率先破局

InfoQ 中文 · 07-03 00:21 UTC+8

文章判断行业智能体时代正在到来,出行、货运两个领域率先破局。对寻找 Agent 垂直落地场景的人,提供了两个已经跑出苗头的行业样本。

Agent智能体行业落地出行货运

如何利用 AI Agent 实现热补丁的自动化生成

InfoQ 中文 · 07-03 00:00 UTC+8

文章探讨如何借助 AI Agent 实现热补丁的自动生成。把智能体用在运维和故障修复这类高价值场景,对做 AIOps 与自动化修复的团队是个值得关注的方向。

Agent智能体热补丁AIOps

📄 论文 20 篇

「AutoMem」与「DuoMem」把记忆当作可学习的认知技能,配合「AgenticSTS」长程测试床,勾勒出智能体记忆研究的新一轮方向。

Scaling Laws for Grid-Based Approximate Nearest Neighbor Search in High Dimensions

HF 精选 · 07-03 08:00 UTC+8

这篇论文把「缩放律」的视角引入近似最近邻检索,系统比较了网格多探针(grid-based multiprobe)与图、树、划分等主流索引在维度升高时的表现。作者发现网格方法在高维下的退化速度明显更慢,缩放特性更优,因而在高维向量、且需要频繁重建索引的场景里意外地有竞争力。对做向量库和检索工程的人来说,这提示了在被 HNSW 一统天下的思维之外,网格路线在特定负载(写多、维度高)下值得重新评估。

Infra向量检索近似最近邻缩放律索引结构
📖 阅读⬇ PDF

Combating Textual Noise and Redundancy: Entropy-Aware Dense Visual Token Pruning

ECCV 2026CCF-B推荐arXiv · 07-03 01:50 UTC+8

视觉 token 剪枝是给多模态大模型提速的关键手段,但现有方法在面对密集指令和细粒度问题时常把关键线索一起剪掉。作者定位到两个病根:文本噪声在跨模态打分时四处弥散污染了相关性评估,以及标准 token 选择带来的特征碎片化。为此提出「熵感知」的密集视觉 token 剪枝方案,从信息熵角度筛选真正承载信息的 patch,在保住细粒度理解能力的同时压缩冗余,兼顾了加速与精度。

推理优化多模态视觉token剪枝VLM推理加速熵感知
Xuehui Wang, Xuankun Yang, Wei Shen
📖 阅读⬇ PDF

Denser neq Better: Limits of On-Policy Self-Distillation for Continual Post-Training

HF 精选 · 07-03 08:00 UTC+8

这项工作直面持续后训练里的一个诱人捷径——on-policy 自蒸馏。作者发现,靠模型自己产的 on-policy 数据做自蒸馏确实能加速领域内专精,但既挡不住灾难性遗忘,在分布外场景下还会直接崩掉。结论很干脆:光有 on-policy 数据不足以支撑持续学习,「更密集地自蒸馏」并不等于「更好」,想稳住持续学习还得引入别的数据或约束。对做持续微调、领域适配的团队是一记提醒。

持续学习自蒸馏后训练灾难性遗忘
📖 阅读⬇ PDF

WARP: Weight-Space Analysis for Recovering Training Data Portfolios

HF 精选 · 07-03 08:00 UTC+8

WARP 是一个从公开模型权重反推其训练数据构成的框架,思路是把训练数据在权重空间里留下的「几何足迹」挖出来。它借助模型融合和特征抽取,分析权重的几何印记,进而推断这个模型大概用了哪些数据配比训练。对模型溯源、数据审计乃至知识产权与合规都有直接意义,也给「权重不泄露就安全」的假设提了个醒。

训练模型溯源权重空间分析训练数据审计模型融合
📖 阅读⬇ PDF

Morphing into Hybrid Attention Models

字节 SeedHF 精选 · 07-03 08:00 UTC+8

FlashMorph 针对 Transformer 长上下文下的效率问题,把「哪些层该换成线性/高效注意力」这件事formalize成一个带预算约束的优化问题。它用可变形(morphable)模型加上线性化正则来做层选择,在给定算力预算内自动挑出最该改造的层,从而在长上下文场景下更聪明地构建混合注意力模型,兼顾效率与效果,而不是靠人手拍脑袋决定层的分配。

基座混合注意力长上下文线性注意力层选择
📖 阅读⬇ PDF

Breaking Failure Cascades: Step-Aware Reinforcement Learning for Medical Multimodal Reasoning

HF 精选 · 07-03 08:00 UTC+8

MRPO 是一套面向医学多模态推理的强化学习方法,专治临床影像推理里「一步错、步步错」的级联失败。它不再只用最终答案的对错来给奖励,而是引入步级(step-wise)过程奖励,逐步校准推理链条,从源头切断错误的传播。实验显示其在临床影像推理任务上超过了已有方法,为医疗这种对推理可靠性要求极高的领域提供了更稳的训练信号。

后训练医学多模态强化学习过程奖励临床推理
📖 阅读⬇ PDF

Optimizing Visual Generative Models via Distribution-wise Rewards

ICML 2026CCF-A推荐HF 精选 · 07-03 08:00 UTC+8

这项工作为视觉生成模型设计了一套新的强化学习框架,核心是用「分布级」奖励(distribution-wise rewards)替代逐样本奖励。传统 RL 微调容易把生成分布压窄、导致模式坍缩,而从整体分布层面给奖励能同时兼顾图像质量与多样性,还顺带缓解了计算效率问题。对做文生图对齐、想在提升画质的同时避免生成结果千篇一律的从业者很实用。

后训练视觉生成强化学习模式坍缩分布奖励
📖 阅读⬇ PDF

From SRA to Self-Flow: Data Augmentation or Self-Supervision?

HF 精选 · 07-03 08:00 UTC+8

这篇论文追问扩散 Transformer 里自对齐(self-alignment)方法到底为什么有效,从 SRA 一路剖到自提出的 Self-Flow。作者的结论出人意料:性能提升主要来自沿噪声维度做的数据增强,而非此前普遍认为的不同噪声层之间的 token 交互。这把一个被当成「自监督」讲的机制重新解释成了「数据增强」,为理解和改进扩散模型的训练策略澄清了方向。

训练扩散模型自对齐数据增强扩散Transformer
📖 阅读⬇ PDF

AutoMem: Automated Learning of Memory as a Cognitive Skill

HF 精选 · 07-03 08:00 UTC+8

AutoMem 把大模型的记忆管理当成一项可训练的认知技能来对待,而不是靠外挂规则堆砌。它同时自动优化记忆的结构组织和调用记忆的熟练度两方面,让模型学会「怎么记、怎么取」。在长程(long-horizon)任务上带来了显著的性能提升,为 Agent 摆脱手工设计记忆模块、走向可学习记忆提供了一条路径。

Agent记忆机制智能体长程任务可训练记忆
📖 阅读⬇ PDF

DuoMem: Towards Capable On-Device Memory Agents via Dual-Space Distillation

HF 精选 · 07-03 08:00 UTC+8

DuoMem 面向端侧记忆型 Agent,用「双空间蒸馏」把大模型的过程性解题能力搬进小模型:一路走上下文空间(context-space)蒸馏、一路走参数空间(parameter-space)蒸馏,双管齐下。结果是只加极少参数就让紧凑的学生模型学到接近大模型的解题本领,同时推理速度更快,很适合在设备端跑记忆 Agent 的落地需求。

Agent端侧部署知识蒸馏记忆智能体小模型
📖 阅读⬇ PDF

Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR

HF 精选 · 07-03 08:00 UTC+8

TAC(Transfer-Aware Curriculum)为多领域 RLVR 训练设计了一套自动课程:不再平均对待各领域,而是优先训练那些能广泛惠及其他领域的「高迁移价值」领域。它用梯度几何对齐来估计跨领域的迁移能力,据此排定学习顺序,从而更高效地培养模型的通用推理能力。对做多域强化学习、想让能力真正跨领域泛化的团队有直接借鉴。

后训练RLVR多领域训练课程学习迁移能力
📖 阅读⬇ PDF

Towards Robustness against Typographic Attack with Training-free Concept Localization

ECCV 2026CCF-B推荐arXiv · 07-03 01:55 UTC+8

CLIP 是当下绝大多数视觉语言大模型的视觉编码器底座,但它有个被忽视的致命弱点:图像里出现的无关文字会污染视觉表征,让模型偏向去读字面词义而非真正的视觉语义,这就是所谓的「排版攻击」(Typographic Attack)。本文提出一种无需训练的概念定位方法来抵御这种攻击,在推理时定位并抑制文字带来的干扰,从而提升 LVLM 视觉编码器面对图中文字时的鲁棒性。

基座CLIP排版攻击视觉鲁棒性免训练
Bohan Liu, Wenqian Ye, Guangzhi Xiong, Zhenghao He, Sanchit Sinha, Aidong Zhang
📖 阅读⬇ PDF

Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs

ICML 2026CCF-A推荐arXiv · 07-03 01:33 UTC+8

这篇论文点破了 VLA(视觉-语言-动作)模型受制于专家演示数据稀缺的根本原因:它把「怎么动」(物理能力)和「做什么」(语义对齐)两个本可分开的目标混在了一起,而只有后者才真正需要语言监督。基于这一「分解假设」,作者提出任务无关(task-agnostic)预训练,先让模型在无需语言标注的大量数据上学会运动,再叠加少量带语言的数据学语义,从而绕开昂贵三元组演示的瓶颈,为 VLA 的规模化训练提供了新范式。

AgentVLA具身智能任务无关预训练机器人
Junhao Shi, Siyin Wang, Xiaopeng Yu, Li Ji, Jingjing Gong, Xipeng Qiu
📖 阅读⬇ PDF

EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

HF 精选 · 07-03 08:00 UTC+8

EvoPolicyGym 是一个评估自主智能体「策略自进化」能力的测试平台:让 Agent 在固定预算内通过反复编辑自己的策略来迭代改进。实验揭示了一个关键规律——成功的策略进化既要有任务特定的改进机制,又离不开受反馈约束的精细化修正,二者缺一不可,纯靠盲目自我编辑并不管用。为研究自我改进型 Agent 提供了一个可控的评测环境。

Agent智能体策略进化自我改进评测基准
📖 阅读⬇ PDF

AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

HF 精选 · 07-03 08:00 UTC+8

AgenticSTS 是面向长程 LLM Agent 的有界记忆(bounded-memory)测试床,核心思路是用「有界契约」加类型化检索,每一步都现场组装一份全新的 prompt,而不是无限堆叠历史。这样可以把记忆的各个组件隔离开单独分析,弄清到底是哪部分记忆在起作用,并在复杂决策任务上验证了带来的性能提升。为长程 Agent 的记忆研究提供了干净的实验支架。

Agent长程智能体有界记忆类型化检索评测基准
📖 阅读⬇ PDF

AgenticDataBench: A Comprehensive Benchmark for Data Agents

蚂蚁HF 精选 · 07-03 08:00 UTC+8

AgenticDataBench 是一个专门评测「数据智能体」的综合基准,覆盖多个领域,配有细粒度的任务标注和基于技能的覆盖度指标。它不只看数据 Agent 能不能完成任务,还能拆解到具体技能维度看它强在哪、弱在哪。对研究能自动做数据清洗、分析、处理的 Agent 提供了标准化的衡量尺子,方便横向比较不同系统的真实能力。

Agent数据智能体评测基准技能覆盖数据处理
📖 阅读⬇ PDF

WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

HF 精选 · 07-03 08:00 UTC+8

WorldDirector 面向可控世界模拟,让视频生成具备持久的物体记忆。它的巧思在于把「语义运动规划」和「视觉渲染」解耦:由大模型协调 3D 轨迹和相机运动来规划物体该怎么动,再交给渲染环节出画面。这样既能精确控制视频里对象的运动和视角,又能在长序列中保持物体的一致性不漂移,为搭建可控、持久的世界模拟器提供了一条清晰路径。

基座世界模型可控视频生成持久记忆LLM规划
📖 阅读⬇ PDF

SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

HF 精选 · 07-03 08:00 UTC+8

SkillCoach 提出一套会自我进化的评分标准(rubric),用来评估并提升 Agent 的「技能使用」能力。它不满足于只看最终结果对不对,而是把技能的选择、遵循、组合、反思四个环节拆开来分别打分和监督,从而给出比纯结果指标更细、更有指导性的信号,帮助 Agent 真正学会用好工具和技能。对做工具调用、技能编排的 Agent 训练很有参考价值。

Agent智能体技能使用自进化评分工具调用
📖 阅读⬇ PDF

Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas

ICML 2026CCF-A推荐arXiv · 07-03 01:58 UTC+8

这篇论文把推理型大模型用到长篇电视剧的说话人识别上——即把每句台词准确归属到对应角色,这是理解复杂剧情的关键一环。作者构建了大规模基准 DramaSR-532K,含超过 900 个独特角色、53.2 万条标注对话,需要整合多种线索才能判断说话人。借助具备推理能力的 LLM,方法在这一长篇视频理解难题上取得进展,为剧集级视频理解提供了数据与方法双重支撑。

视频理解说话人识别推理大模型多模态基准
Yuxuan Li, Lingxi Xie, Xinyue Huo, Jihao Qiu, Jiacheng Shao, Pengfei Chen, Jiannan Ge, Kaiwen Duan
📖 阅读⬇ PDF

Audio-Based Understanding of Audiobook Narration Appeal

INTERSPEECH 2026CCF-B推荐arXiv · 07-03 01:43 UTC+8

这项研究从纯音频角度分析有声书朗读的吸引力,用预训练音频模型从 LibriVox 语料里抽取音色、语速、响度等声学特征,再把它们与收听数据(如观看率)关联,考察朗读质感如何影响一本有声书的受欢迎程度,以及这种影响如何随体裁、书目和受众而变化。为理解和优化有声书的朗读呈现、乃至语音合成的表现力评价提供了数据驱动的洞见。

音频理解有声书声学特征语音表现力
Shahar Elisha, Mariano Beguerisse-Díaz, Emmanouil Benetos
📖 阅读⬇ PDF