🗂 历史归档
每日 AI 速览

2026-06-20

生成于 2026-06-22 08:12

今日导语

今日主线高度集中在「智能体」与「评测」两条脉络:从结构化状态的「LedgerAgent」、全自动提示优化「FAPO」,到空间推理「S-Agent」与真实世界自我改进的机器人框架「ENPIRE」,智能体正从对话走向带记忆、带工具、可闭环自我迭代;与此呼应,多篇工作(多语言代码基准「Multi-LCB」、项目级「JAMER」、智能体榜单预测效度反思)共同指向「评测要更贴近真实部署」。基座侧,FP4 预训练配方「UFP4」与线性注意力蒸馏「Taylor-Calibrate」聚焦低精度与高效架构降本。厂商层面,美国政府下架 Anthropic「Fable 5」「Mythos 5」引发安全治理争议,叠加 AlphaFold 之父加盟、谷歌连失大将,人才与监管同时升温。

🗞 行业动态 6 条

Is the US government’s Anthropic ban accidentally helping the brand?

TechCrunch · AI · 06-20 00:08 UTC+8

美国政府以国家安全为由要求 Anthropic 下架最新的「Fable 5」与「Mythos 5」两款模型,起因是亚马逊研究者据称找到绕过「Fable 5」防护的方法。文章探讨这一封禁是否反而为品牌带来声量,关注模型安全治理与监管走向的从业者值得一读。

厂商动态Anthropic模型安全监管

撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型

量子位 · 06-20 18:42 UTC+8

三名 00 后用两个月做出号称史上最快的流式音视频社交模型,速度比同类快 7 倍、成本仅为「Veo 3」的两千分之一。它代表了实时多模态生成在速度与成本上的激进优化,对低延迟音视频应用方向有参考价值。

基座多模态实时生成成本优化音视频

Quoting Sean Lynch

Simon Willison · 06-20 06:45 UTC+8

Sean Lynch 在评论中提出,相较于 skills 与命令行,MCP 真正的价值在于把鉴权流程隔离到智能体上下文窗口乃至整个执行环境之外;其理想形态或许就是 API 的「鉴权网关」。这为理解 MCP 协议的定位与价值边界提供了一个犀利视角。

MCPAgent协议鉴权

Data2Story turns a CSV file into a verified interactive news article using seven AI agents

The Decoder · 06-20 17:51 UTC+8

「Data2Story」用七个 AI 智能体像编辑部一样协作,把一份 CSV 文件变成带图表、网络检索与可核验来源链接的交互式新闻报道,其中 93% 的陈述可溯源、74% 的读者更偏好其产出。它是多智能体协作在数据新闻自动化上的一次扎实落地。

多智能体Agent数据新闻自动化

诺奖得主、AlphaFold之父投奔Anthropic!谷歌48小时连跑俩大将

量子位 · 06-20 17:42 UTC+8

诺奖得主、AlphaFold 之父被曝加盟 Anthropic,谷歌在 48 小时内接连流失两员大将,外界同时追问「Gemini 3.5 Pro」的进展。这反映出顶尖 AI 人才争夺战的白热化与谷歌、Anthropic 之间的此消彼长。

厂商动态人才流动Anthropic谷歌

📄 论文 20 篇

📭 今日暂无当天新论文——周末 / 节假日 arxiv 不公告、HuggingFace 每日精选也不更新。以下为近期精选 20 篇

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

蚂蚁HF 精选 · 06-19 08:00 UTC+8

重新审视大模型 FP4 预训练中的「收缩偏差」问题,从几何角度解释其成因与系统性影响,并提出基于随机哈达玛变换的统一 4 比特训练方案「UFP4」。在多种架构上,它消除了 E2M1 量化引入的偏差、提升了训练稳定性,对追求低精度训练降本的团队是一份可落地的配方。

Infra低精度训练FP4预训练训练稳定性
📖 阅读⬇ PDF

Context-Aware RL for Agentic and Multimodal LLMs

HF 精选 · 06-19 08:00 UTC+8

「ContextRL」用强化学习奖励模型对支撑「问题-答案」对的上下文进行筛选,从而提升智能体与多模态大模型的长程推理能力。在多类基准上优于常规方法,为长上下文场景下「该读什么」提供了可训练的解法。

后训练强化学习Agent多模态长程推理
📖 阅读⬇ PDF

Thinking with Visual Grounding

HF 精选 · 06-19 08:00 UTC+8

提出「视觉锚定式思考」,让视觉语言模型在自然语言推理过程中显式锚定到具体视觉证据,而非凭空臆测。通过可扩展的数据合成与强化学习显著提升推理准确率,是缓解多模态幻觉、提升可解释性的实用方向。

后训练多模态视觉推理强化学习幻觉缓解
📖 阅读⬇ PDF

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

ICLR 2026HF 精选 · 06-19 08:00 UTC+8

「Multi-LCB」把代码评测基准「LiveCodeBench」从单语言扩展到十二种编程语言,同时保留防污染机制与统一评测协议。它弥补了现有基准过度偏向主流语言的缺陷,为更公平地评估大模型多语言编码能力提供了标尺。

基座代码评测Benchmark多语言防数据污染
📖 阅读⬇ PDF

Playful Agentic Robot Learning

HF 精选 · 06-19 08:00 UTC+8

提出「玩耍式智能体机器人学习」,让具身机器人通过自主探索和「玩」习得可复用技能,再迁移到下游任务上提升表现而无需额外训练。这为降低机器人数据采集与标注成本提供了自监督式的新思路。

Agent具身智能机器人自监督技能复用
📖 阅读⬇ PDF

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

HF 精选 · 06-19 08:00 UTC+8

「S-Agent」是一个空间推理框架,为视觉语言模型加上时序记忆与分层空间工具,使其能从多视角图像中持续理解三维世界。它把「空间工具调用」引入推理流程,推动模型从二维看图迈向连续 3D 场景理解。

空间智能Agent工具调用3D理解
📖 阅读⬇ PDF

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

HF 精选 · 06-19 08:00 UTC+8

「ENPIRE」是一个面向真实世界的机器人策略自我改进框架,通过环境反馈、策略精炼与进化式代码优化构成闭环,自动完成策略迭代。它把「自动化机器人研究」推向可在物理世界自主运转的形态。

具身智能机器人自我改进Agent
📖 阅读⬇ PDF

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

HF 精选 · 06-19 08:00 UTC+8

「LedgerAgent」为工具调用智能体引入独立的「账本」来结构化维护任务状态,提升客服等场景下对业务策略的遵从度与状态管理能力。它针对智能体「忘记规则、状态漂移」的痛点给出了显式状态记录的解法。

Agent工具调用状态管理策略遵从
📖 阅读⬇ PDF

No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

HF 精选 · 06-19 08:00 UTC+8

针对「零资源」编程语言的代码生成难题,研究构建了相应基准,并提出将继续预训练与「权重差迁移」结合的方法,以更低算力打造专用的指令遵循模型。它为长尾、小众语言的代码助手落地提供了低成本路线。

训练代码生成低资源语言继续预训练Benchmark
📖 阅读⬇ PDF

Duration Aware Scheduling for ASR Serving Under Workload Drift

HF 精选 · 06-19 08:00 UTC+8

提出面向语音识别服务的「时长感知调度」,利用音频长度预测处理耗时,用 SJF 与 HRRN 算法在保持吞吐的同时显著降低中位延迟。这是一份贴近生产的 ASR serving 优化方案,对负载漂移场景尤为实用。

推理优化推理服务调度优化ASR延迟优化
📖 阅读⬇ PDF

Understanding the Behaviors of Environment-aware Information Retrieval

ACL 2026CCF-A推荐HF 精选 · 06-19 08:00 UTC+8

研究「环境感知信息检索」的行为:用强化学习训练大模型针对不同检索器调整查询构造策略,发现不同检索器有各自最优的查询风格,并通过检索器专属引导与模型扩展提升效果。这为 RAG 中「为不同后端写不同查询」提供了实证依据。

Agent信息检索强化学习RAG查询优化
📖 阅读⬇ PDF

FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

HF 精选 · 06-19 08:00 UTC+8

「FlowBender」是一个反馈感知的闭环训练框架,针对扩散与流模型的约束满足问题,训练网络利用推理时反馈自我纠正对齐误差,在多任务上优于传统监督与引导式方法。它让生成模型具备「边生成边纠错」的自我校正能力。

扩散模型流模型自我纠错约束满足
📖 阅读⬇ PDF