🗂 历史归档
每日 AI 速览

2026-06-24

生成于 2026-06-25 04:12

今日导语

今日主线集中在算力与智能体两端。其一,「OpenAI」携手「Broadcom」发布代号「Jalapeño」的首款自研推理芯片,与「NVIDIA」联合「AWS」的产线级部署、「DFlash」在「Blackwell」上整块草稿令牌投机解码提速最高十五倍,共同勾勒推理成本下探的主线。其二,「Anthropic」推出常驻「Slack」的「Claude Tag」多人协作智能体,并称内部六成五代码已由其编写,「Claude Code」同步大升级,卡帕西称之为第三次变革。其三,国产模型与算力动态密集:百度千帆上线「GLM-5.2」,阿里夜间「Qwen3.7」低至两折,蚂蚁百灵2.6将于「AICon」披露系统协同设计。多模态侧「Mistral OCR 4」主打可引用结构化输出,强化检索增强生成链路。

🗞 行业动态 35 条

OpenAI unveils its first custom chip, built by Broadcom

TechCrunch · AI · 06-24 22:54 UTC+8

OpenAI 发布了与 Broadcom 联手打造的首款自研芯片,代号「Jalapeño」,专为其推理系统的独特需求量身设计。这意味着 OpenAI 开始把硬件纳入自家技术栈、减少对外部 GPU 的单一依赖,对整个推理算力供应格局是一个重要信号。

厂商动态OpenAI自研芯片推理

OpenAI and Broadcom unveil "Jalapeño," a custom chip built for LLM inference

The Decoder · 06-24 21:50 UTC+8

The Decoder 进一步披露 OpenAI 与 Broadcom 合作的「Jalapeño」芯片专为大模型推理而生,计划在 2026 年底实现规模化上线运行。对从业者而言,这标志着头部模型厂商正加速自建推理硬件,推理成本与产能的话语权正在向应用方转移。

InfraOpenAI推理芯片Broadcom

fa4-v4.0.0.beta19

FlashAttention · 06-24 17:15 UTC+8

FlashAttention 4 发布 beta19 版本,亮点之一是为 Sm100 架构新增了 DeepSeek v4 的稀疏 MLA 反向传播内核,并修复了 hd256 内核需先把 q/k/v 连续化的问题。对追求极致训练与推理性能的工程团队来说,这类底层算子的持续迭代直接关系到新架构模型能否跑出最优速度。

推理优化FlashAttention算子优化稀疏注意力

DFlash Speculative Decoding Drafts Whole Token Blocks in Parallel for Up to 15x Higher Throughput on NVIDIA Blackwell

MarkTechPost · 06-24 15:21 UTC+8

加州大学圣迭戈分校的 DFlash 把投机解码里的草稿生成从自回归换成了轻量块扩散模型:一次前向就草拟出整块 token,并通过 KV 注入让草稿条件于目标模型的隐藏特征。论文报告在 Qwen3-8B 上有最高 6.08 倍的无损加速,NVIDIA 则称在 Blackwell 上固定交互性下吞吐最高提升 15 倍,且已放出 20 个检查点并支持 SGLang、vLLM 与 TensorRT-LLM。对追吞吐的推理团队这是个即插即用的提速利器。

投机解码推理优化吞吐

OpenAI and Broadcom unveil LLM-optimized inference chip

OpenAI · 06-24 14:00 UTC+8

OpenAI 官方正式公布与 Broadcom 合作的 Jalapeño 芯片,定位为面向大模型推理优化的定制 AI 芯片,目标是在性能、能效和规模三方面同时提升其 AI 系统的推理能力。这是 OpenAI 自研算力布局对外释放的明确信号,预示推理基础设施进入软硬协同自研的新阶段。

InfraOpenAI推理芯片AI Infra

1小时真机RL微调成功率破95%!HIL-ResRL:即插即用的VLA“外挂”神器

量子位 · 06-24 18:38 UTC+8

量子位报道的 HIL-ResRL 是一款即插即用的 VLA「外挂」,在真机上只用一小时强化学习微调就把任务成功率冲破 95%。它把人在回路与残差强化学习结合,给现成的 VLA 策略快速补上最后一段适配,对机器人落地中「策略能跑但不够稳」的常见困境是个高效解法。

后训练VLA强化学习机器人

v0.14.0

LMDeploy · 06-24 12:36 UTC+8

LMDeploy 发布 v0.14.0,新增 FP8 的 KV cache 量化、支持 Qwen3-Omni 与 Qwen3.5 视觉模型在 turbomind 后端推理,还加入了兼容 OpenAI Responses 的接口和 get_ppl 端点。对做推理部署的团队来说,这一版在显存占用、新模型支持和 API 兼容性上都有实打实的改进。

推理优化LMDeploy推理部署量化

Mistral OCR 4 Brings Citation-Ready Structured Output to RAG, Agentic, and Enterprise Search Pipelines

MarkTechPost · 06-24 07:43 UTC+8

Mistral 在 2026 年 6 月 23 日发布 OCR 4,从单纯的干净文本抽取升级为结构化文档输出:每个文本块都带边界框、类型分类以及逐页逐词的置信度,支持 170 种语言,可单容器自托管,并通过一个 API 把可引用、可溯源的结果直接喂给 RAG、智能体和企业搜索流水线。对做文档问答与企业检索的团队,这种「带出处」的结构化输出能显著降低幻觉与溯源成本。

基座MistralOCRRAG

How GPT-5 helped immunologist Derya Unutmaz solve a 3-year-old mystery

OpenAI · 06-24 01:00 UTC+8

OpenAI 分享了一个案例:免疫学家 Derya Unutmaz 借助 GPT-5 Pro 解开了困扰自己三年的 T 细胞行为之谜。这类一线科研人员用前沿大模型推进真实科学难题的实例,为「LLM 辅助科研」提供了具体而非空泛的佐证,也暗示模型在专业领域的推理深度正变得可用。

基座OpenAIGPT-5科研辅助

v1.3.0rc19

TensorRT-LLM · 06-24 00:49 UTC+8

TensorRT-LLM 发布 v1.3.0rc19,模型支持面进一步扩张:新增 MiniMax-M3、T5 与 BART 进入 PyTorch 后端,为 Step-3.7 的 NVFP4 启用 MTP 并移植其视觉塔,还支持了 Wan2.2 文生视频量化检查点。对依赖 TRT-LLM 部署多样化模型的团队,这一版在新模型覆盖和多项 API 对齐上都值得关注,但需留意 GB200 上 Llama 3.1 8B FP8 自动调优可能挂起的已知问题。

InfraTensorRT-LLM推理部署模型支持

刚刚,Claude Code大升级!卡帕西:LLM第三次变革

量子位 · 06-24 11:56 UTC+8

量子位报道 Claude Code 迎来大升级,Karpathy 称其代表 LLM 的「第三次变革」,而 Anthropic 约 65% 的产品代码已由 Claude 参与完成。这组数字直观说明 AI 编程助手正从辅助补全走向深度参与生产代码,对开发流程与团队协作方式的影响值得每位从业者关注。

AgentClaude CodeAI编程Anthropic

NVIDIA and AWS Collaborate to Bring AI to Production at Scale

NVIDIA 博客 · 06-24 08:05 UTC+8

NVIDIA 与 AWS 深化合作,把 AI 基础设施落到规模化生产场景:在 Amazon OpenSearch 与 EC2 上引入 NVIDIA 算力,针对低延迟推理、快速向量检索和 GPU 性价比等痛点给出更可落地的部署路径。对要在云上规模化跑 AI、又怕运维复杂度失控的企业,这提供了一条软硬协同的现实选项。

InfraNVIDIAAWSAI Infra

Datalab Releases lift: A 9B Open-Weights Vision Model That Extracts Structured JSON From PDFs Using Schemas

MarkTechPost · 06-24 03:35 UTC+8

Datalab 开源了一个 9B 视觉模型「lift」,专门把 PDF 和图片按给定 schema 抽成结构化 JSON。它靠 schema 约束解码保证输出结构永远合法,再加上专门训练的「弃权」能力——字段缺失时返回 null 而不是硬编一个值,从根上压制幻觉,在 225 份文档的基准上拿到 90.2% 字段准确率。对做文档智能、票据/合同信息抽取的从业者来说,这套「结构有效 + 不瞎填」的组合比让通用大模型自由生成 JSON 要可靠得多。

基座文档抽取视觉模型开源权重结构化输出

Anthropic’s Claude Tag is learning your company, one Slack message at a time

TechCrunch · AI · 06-24 01:00 UTC+8

Anthropic 推出「Claude Tag」,把一个常驻的 AI 队友嵌进 Slack。除了即时提效,TechCrunch 点出更深的战略意图:借此沉淀企业的组织上下文、机构知识与内部工作流,把自己嵌进客户日常协作的最底层。对评估企业级 AI 落地的人来说,这是一个「以协作入口换数据与黏性」的典型打法。

AgentAnthropic企业落地Slack

Maximize AI Factory Energy Efficiency Through Full-Stack Inference and Training Optimizations

NVIDIA 开发者 · 06-24 00:30 UTC+8

NVIDIA 这篇技术文指出,电力可占到运营一座「AI 工厂」开支的 40%,每一瓦都被花在散热开销、数据摄取、训练或推理上。文章主张通过推理与训练的全栈优化来榨取能效。对关心数据中心 TCO、算力成本与吞吐的基础设施团队,这提醒了能耗已是和算力同等量级的成本变量。

InfraAI Infra能效数据中心

b9781

llama.cpp · 06-24 23:03 UTC+8

llama.cpp 发布 b9781 版本,Vulkan 后端新增可减少图提交批次的选项,用来规避提交超时问题。对在多平台 GPU 上跑本地推理、尤其遇到 Vulkan 超时的用户是一个针对性修复。

推理优化llama.cppVulkan本地推理

OpenAI's deployment chief on Codex growth, falling AI prices, and the ROI question

The Decoder · 06-24 21:00 UTC+8

OpenAI 部署负责人 Arnaud Fournier 在采访中介绍 DeployCo 如何派自家工程师把 AI 深植进大型企业内部。他谈到 Codex 的爆发式增长、客户使用反哺模型迭代的闭环,以及为何他认为「智能」的单位价格已大幅下滑。对关注大厂落地打法与 AI 定价趋势的人,这透露了 OpenAI 走「重服务、深嵌入」企业路线的思路。

厂商动态OpenAI企业落地AI定价

b9780

llama.cpp · 06-24 18:21 UTC+8

llama.cpp 发布 b9780,修复了一个隐蔽的构建问题:此前「vulkan-shaders-gen」未能捕获 shader 编译子进程的失败,导致坏掉的 Vulkan 库被当成构建成功产出、问题拖到运行时才暴露。新版让 shader 编译失败时直接构建报错。对从源码编译 Vulkan 后端的人,这避免了「编译看似成功、实则产物已损坏」的坑。

推理优化llama.cppVulkan构建修复

Nous Research Adds /learn to Hermes Agent’s Skills System, Capturing Workflows as Slash Commands Without Hand-Writing SKILL.md

MarkTechPost · 06-24 17:21 UTC+8

Nous Research 给 Hermes 智能体的 Skills 系统加了「/learn」命令:它能从本地目录、文档链接、过往对话或粘贴的笔记,自动写出一份符合规范的 SKILL.md。整个过程由在线 agent 用自己的工具读取素材后直接成文,无需手写、也不需要单独的摄取引擎。对搭建 agent 技能体系的开发者,这把「沉淀工作流为可复用技能」的门槛降到了一条斜杠命令。

Agent技能系统Nous Research

b9777

llama.cpp · 06-24 15:44 UTC+8

llama.cpp 发布 b9777,新增对 LFM2.5-ColBERT-350M 与 LFM2.5-Embedding-350M 两个模型的支持,并在 README 中恢复了 LFM2 系列。对在本地搭建检索/向量化链路的人,这意味着可以直接用 llama.cpp 跑这两个轻量的嵌入与 ColBERT 检索模型。

推理优化llama.cpp嵌入模型检索

[AINews] Claude Tag: Multiplayer, Proactive, Persistent Agents in Slack

Latent Space · 06-24 15:14 UTC+8

Latent Space 的 AINews 聚焦 Anthropic「Claude Tag」,将其定位为 Slack 里「多人协作、主动发起、持久存在」的智能体——相当于 Claude 终于把 Slackbot 形态升级到了真正的常驻 agent。对关注 agent 产品形态演进的人,这点出了从「被动问答」到「主动持久队友」的方向转变。

AnthropicAgentSlack

b9776

llama.cpp · 06-24 12:01 UTC+8

llama.cpp 发布 b9776,针对 Vulkan 后端的 FlashAttention,在 softmax 之前先施加 bias,以避免数值溢出。对用 Vulkan 跑长上下文或特定模型遇到精度异常的用户是一个针对性的数值稳定性修复。

推理优化llama.cppVulkanFlashAttention

Claude Tag 💬, Seedance 2.5 🎥, Mistral OCR 4 🧠

TLDR AI · 06-24 08:00 UTC+8

TLDR AI 的一期摘要并列了三条要闻:Anthropic 的「Claude Tag」、字节系视频模型「Seedance 2.5」以及「Mistral OCR 4」。对想快速扫描当日多模态与协作 AI 动态的人,这是一份索引式的更新清单。

厂商动态资讯速览多模态

使用Azure Container Apps Sandboxes安全运行不受信任的AI智能体代码

InfoQ 中文 · 06-24 01:12 UTC+8

InfoQ 这篇文章讲如何用 Azure Container Apps Sandboxes 安全地运行不受信任的 AI 智能体代码。对要让 agent 自主执行代码、又担心安全隔离的团队,沙箱化运行是规避风险的关键工程实践,这给出了一条在云上落地的具体路径。

Agent代码沙箱Azure

Build a protein research copilot with Amazon Bedrock AgentCore

AWS 机器学习 · 06-24 00:39 UTC+8

AWS 演示如何用 Amazon Bedrock AgentCore 搭一个蛋白质研究助手,组合了三种能力:用自然语言解析提取结构化检索参数、用专用语言模型对蛋白质嵌入做向量相似检索、再对结果生成 AI 科研摘要。对做垂直领域科研 copilot 的人,这是一个「NL 解析 + 向量检索 + 生成式总结」三段式 RAG 的完整范例。

AgentRAG向量检索

trunk/246b6bd6b4568fbf9e46c711467fefde02eb9aa2

PyTorch · 06-24 23:09 UTC+8

PyTorch 提交了一个修复:在 flatbuffer 加载器中为移动端 JIT 的「Function.class_type」加上边界检查。这是面向 PyTorch Mobile 部署的一处健壮性与安全加固。

InfraPyTorch移动端安全加固

百度智能云发布百度千帆Token Plan企业版,提供GLM-5.2等模型

量子位 · 06-24 19:09 UTC+8

百度智能云发布「百度千帆 Token Plan 企业版」,并率先完成对智谱「GLM-5.2」的适配,可向企业提供包含 GLM-5.2 在内的多款模型。对采购模型 API 的企业用户,这意味着可在千帆平台上以套餐方式直接调用最新的 GLM-5.2。

厂商动态百度千帆GLM模型平台

阿里QoderWork推“峰谷Token”,夜间使用Qwen3.7低至2折

量子位 · 06-24 12:34 UTC+8

阿里 QoderWork 推出「峰谷 Token」机制,夜间使用 Qwen3.7 价格低至两折,覆盖 QoderWork、Qoder Desktop 等产品。对成本敏感、可把批量任务挪到夜间错峰跑的团队,这是一个直接降低模型调用成本的计费策略。

厂商动态阿里QwenToken计费

b9775

llama.cpp · 06-24 00:49 UTC+8

llama.cpp 发布 b9775,让 server 在创建 draft 上下文失败时进行检查报错。这是面向投机解码(draft 模型)场景的一处健壮性修复,避免出错时静默异常。

Infrallama.cpp投机解码健壮性

b9774

llama.cpp · 06-24 00:18 UTC+8

llama.cpp 发布 b9774,扩展了 Vulkan 后端对一批算子(SQR/SQRT/SIN/COS/CLAMP/LEAKY_RELU/NORM)的后端测试支持,统一走 unary.comp、并让 NORM 支持非连续张量,同时为 CUDA/WebGPU 修正了算子支持判断。对维护 llama.cpp 多后端算子覆盖的开发者,这提升了 Vulkan 路径的算子完备性与测试覆盖。

Infrallama.cppVulkan算子

📄 论文 20 篇

智能体数据与世界模型成今日论文焦点:「OpenThoughts-Agent」给出智能体模型的数据配方,「Qwen-AgentWorld」探索通用智能体的语言世界模型,而「Escaping the Self-Confirmation Trap」提出执行—蒸馏—验证范式以破解经验自我确认陷阱,三者共同指向智能体训练数据与反馈闭环的工程化。

OpenThoughts-Agent: Data Recipes for Agentic Models

HF 精选 · 06-24 08:00 UTC+8

OpenThoughts-Agent 把目光放在智能体模型最稀缺的环节——训练数据怎么造,开源了一整套数据清洗与配比的流水线。它通过系统化的对照实验摸清哪些数据配方对 agentic 能力真正有效,并把这套方法做成可规模化扩展的训练数据生产线。在同等条件下训出的智能体性能优于既有方案,对想自己训 agent 又苦于没有高质量轨迹数据的团队尤其有参考价值。

训练智能体训练数据开源
📖 阅读⬇ PDF

Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

KDD 2026CCF-A推荐通义千问HF 精选 · 06-24 08:00 UTC+8

预训练里数据怎么混、什么阶段喂什么,长期靠经验拍脑袋。这篇提出 Holistic Data Scheduler,把在线数据配比建模成强化学习问题,用一个多目标奖励函数来同时平衡训练效率和最终性能,让调度器在训练过程中动态调整各数据源的采样比例。相比静态配比,它能更高效地利用数据预算,为大模型预训练的数据工程提供了一条可自动优化的路径。

训练预训练数据工程强化学习
📖 阅读⬇ PDF

Qwen-AgentWorld: Language World Models for General Agents

通义千问HF 精选 · 06-24 08:00 UTC+8

Qwen-AgentWorld 用语言来充当世界模型,让智能体在真正动手前先在「想象」中模拟环境的演变。它把跨多个领域的环境状态用语言建模出来,使 agent 能低成本地大规模推演行动后果,再把这些模拟经验用于提升下游任务表现。这种以语言世界模型驱动的仿真,为通用智能体提供了一种不依赖真实环境采样的训练与规划手段。

Agent智能体世界模型Qwen
📖 阅读⬇ PDF

Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning

HF 精选 · 06-24 08:00 UTC+8

智能体从自己的经验里学习时容易陷入「自我确认陷阱」——把自己犯的错也当成正确经验固化下来。EDV 提出执行-蒸馏-验证三阶段框架,引入多个异构智能体协作来交叉构建可靠经验,让不同 agent 互相把关,从而过滤掉那些自证式的错误轨迹。这一思路为 agent 的经验学习提供了更可信的数据来源,缓解了单体自学习反复强化错误的顽疾。

Agent智能体经验学习多智能体
📖 阅读⬇ PDF

DREAM: Dense Retrieval Embeddings via Autoregressive Modeling

HF 精选 · 06-24 08:00 UTC+8

DREAM 探索一条无需人工标注就能训练稠密检索向量的路子。它借助自回归语言模型自身的注意力机制来衡量文档与查询的相关性,把语言模型内部的注意力信号当作监督信号去监督 query-document 的相似度,从而摆脱对标注样本的依赖。对于缺少标注检索数据的场景,这种自监督的稠密向量训练方式提供了一个有吸引力的替代方案。

Infra稠密检索向量表示自监督
📖 阅读⬇ PDF

World Models in Pieces: Structural Certification for General Agents

ICML 2026CCF-A推荐arXiv · 06-24 01:21 UTC+8

这篇从理论上戳破了通用智能体的一个迷思:在「大世界」假设下,智能体不可能样样精通,能力注定是碎片化地分布在世界模型的各个局部。作者先证明通用 agent 并非真正通用,使得传统最坏情况分析失去意义——它无法区分智能体是在关键瓶颈处出错还是在无关紧要处失败。为此提出结构化认证这一以状态转移为局部单元的框架,给智能体能力的评估换了一种更有判别力的尺度。

Agent智能体理论评测
Yikai Lu, Yifei Wu, Xinyu Lu, Tongxin Li
📖 阅读⬇ PDF

NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

HF 精选 · 06-24 08:00 UTC+8

NatureBench 想回答一个尖锐的问题:编程智能体究竟是在做科学发现,还是只是在复刻论文里已有的方法。它从《Nature》系列论文中提炼出 90 个跨学科任务,刻意区分「复现」与「发现」两种能力来考核 AI coding agent。结果颇为清醒:当前智能体主要靠把已知方法论翻译成代码,真正意义上的科学创新能力仍然欠缺,给「AI 做科研」的乐观预期泼了盆冷水。

Agent编程智能体评测基准科学发现
📖 阅读⬇ PDF

MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

HF 精选 · 06-24 08:00 UTC+8

MobileForge 解决移动端 GUI 智能体适配新 App 时严重依赖人工标注的痛点,做到了免标注适配。它让 agent 直接在真实 App 交互中获得动作落点的接地信号,再配合分层的反馈引导式策略优化,从粗到细地纠正操作策略。这样无需为每个新应用准备标注数据就能高效迁移,显著降低了 GUI 智能体落地到海量 App 的成本。

AgentGUI智能体移动端免标注
📖 阅读⬇ PDF

MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

HF 精选 · 06-24 08:00 UTC+8

长流程的手机 GUI 任务常常因为中途丢失关键信息而失败。MemGUI-Agent 提出主动式上下文管理,核心是把「管理上下文」本身当成一种动作(Context-as-Action),让 agent 主动决定记住、提取或更新哪些关键信息,从而在很长的操作序列里始终保留住对完成任务至关重要的线索。这种端到端设计提升了长程移动 GUI 任务的成功率。

AgentGUI智能体长程任务上下文管理
📖 阅读⬇ PDF

AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

HF 精选 · 06-24 08:00 UTC+8

AOHP 把 AI 智能体当成操作系统里的一等公民来设计,开源了一套基于 Android 的 OS 级 agent 框架。它在系统层面为 agent 量身定制交互机制,让智能体能更直接、安全地调度系统能力,从而提高任务完成率、压低执行开销,同时兼顾个性化与安全。对于想把 agent 深度嵌入手机操作系统而非停留在应用层的探索,这是一个值得参考的开源底座。

AgentOS级智能体Android开源
📖 阅读⬇ PDF

LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

HF 精选 · 06-24 08:00 UTC+8

LingxiDiagBench 面向中文精神科问诊与诊断场景,构建了一个大规模多智能体评测基准来考察大模型的临床能力。它用多智能体来模拟动态问诊的交互过程,而不只是给定病历做静态判断。评测揭示出一个关键落差:模型把问诊「聊」得不错,并不等于诊断就准,动态多轮问诊与最终诊断准确率之间存在明显鸿沟,为医疗大模型的评估敲了警钟。

Agent医疗大模型评测基准多智能体
📖 阅读⬇ PDF

Semantic Browsing: Controllable Diversity for Image Generation

ECCV 2026CCF-B推荐HF 精选 · 06-24 08:00 UTC+8

文生图模型生成的变体往往杂乱无章、难以按意图调控。这项工作提出「语义浏览」,让用户能基于有意义的语义维度去结构化地探索图像变体,把多样性从随机抖动变成可控的、沿语义方向的导航。这样创作者可以有目的地在生成结果之间游走筛选,而不是反复抽卡碰运气,提升了文生图在实际创作中的可用性。

基座文生图可控生成多样性
📖 阅读⬇ PDF

FLAT: Feedforward Latent Triangle Splatting for Geometrically Accurate Scene Generation

HF 精选 · 06-24 08:00 UTC+8

FLAT 把视频扩散模型改造成能从隐空间直接解码出显式表面图元的生成器,目标是几何精确的三维场景生成。它不再让模型隐式地理解几何,而是前馈式地吐出三角面片这类显式表面基元,兼顾了高质量重建、更好的几何准确度与实时渲染能力。这种把扩散先验与显式三维表示结合的做法,为快速生成可渲染的真实三维场景提供了新思路。

基座三维生成扩散模型实时渲染
📖 阅读⬇ PDF

Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning

HF 精选 · 06-24 08:00 UTC+8

这篇用一个反事实基准拷问文生图模型到底有没有因果推理能力。它发现模型生成不出违反常理的反事实场景,原因在于它们死死绑定了视觉与文本的共现模式,靠的是模式匹配而非真正的因果理解。借「归纳主义的火鸡」这一隐喻,作者犀利地指出当前文生图的「理解」相当浅薄,为评估生成模型的因果与组合能力提供了一面照妖镜。

基座文生图因果推理评测基准
📖 阅读⬇ PDF

DiffusionBench: On Holistic Evaluation of Diffusion Transformers

HF 精选 · 06-24 08:00 UTC+8

扩散 Transformer 的进展长期被局限在 ImageNet 类别条件生成这一个口子里评测,难以反映真实能力。研究者提出 NanoGen 这一统一的训练与评测框架,并配套 DiffusionBench,主张要走出单一基准、做更全面的整体评估,才能看清扩散 Transformer 是否真的在进步。这对动辄宣称刷新生成指标的研究是一种必要的方法学纠偏。

基座扩散Transformer评测基准生成模型
📖 阅读⬇ PDF

ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection

上海 AI LabHF 精选 · 06-24 08:00 UTC+8

ReMMD 面向真实世界里那种多语言、配多张图、形态复杂的多模态虚假信息检测难题,搭建了一套智能体化的核查框架。它能处理跨语言与多图的复杂内容,并融合多种验证手段进行交叉核实,在取得更优检测效果的同时还压低了计算开销。对于内容平台应对日益狡猾的图文造假,这套兼顾效果与成本的方案颇具实用价值。

Agent多模态虚假信息检测智能体
📖 阅读⬇ PDF

World Value Models for Robotic Manipulation

字节 SeedHF 精选 · 06-24 08:00 UTC+8

World Value Model 把世界模型和价值估计结合起来,为机器人操作中「任务进展到哪一步了」给出准确判断。它能从好坏混杂的数据里估出可靠的任务进度信号,进而指导策略学习,让机器人即便用质量参差不齐的演示数据也能学得更好。这种用价值信号衡量任务进程的思路,缓解了机器人学习对高质量演示的苛刻依赖。

Agent机器人世界模型价值估计
📖 阅读⬇ PDF

ChartWalker: Benchmarking the Cross-Chart RAG Task

HF 精选 · 06-24 08:00 UTC+8

ChartWalker 首次把检索增强生成推向「跨图表」这一更难的多模态分析任务。它通过分层知识图谱构建和结构感知的采样,让模型能在多张图表之间检索并整合信息,去回答需要跨图综合的分析性问题。这填补了 RAG 在图表理解上多停留于单图的空白,为多模态数据分析类应用提供了新基准与方法。

AgentRAG图表理解多模态
📖 阅读⬇ PDF

EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

HF 精选 · 06-24 08:00 UTC+8

长程机器人操作里,靠密集视频帧记忆既冗余又抓不住重点。EventVLA 提出事件驱动的稀疏视觉证据记忆:用视觉锚点标记关键时刻,再配一个动态的关键帧证据记忆模块,只把真正重要的视觉证据存下来供长时序决策调用。这让视觉-语言-动作策略在长程操作任务上表现更稳,也更省记忆开销。

AgentVLA机器人长程任务
📖 阅读⬇ PDF

InSight: Self-Guided Skill Acquisition via Steerable VLAs

HF 精选 · 06-24 08:00 UTC+8

InSight 让视觉-语言-动作模型能自己学新技能,关键是把 VLA 做成在基元动作层面可被引导的(steerable)。基于这种可操控性,它能自动生成演示数据来驱动技能习得,省去人工逐一示范的繁重过程。这条自引导的技能获取路线,为 VLA 模型扩展动作技能库提供了更自动化、可扩展的方式。

AgentVLA技能学习机器人
📖 阅读⬇ PDF