🗂 历史归档
每日 AI 速览

2026-06-18

生成于 2026-06-22 07:27

今日导语

今日主线集中在三处。其一,开放权重基座迎来重磅:智谱「GLM-5.2」以 7530 亿参数 MoE、MIT 许可与百万 token 上下文,被广泛视为当前最强纯文本开放模型,并以「IndexShare」稀疏注意力支撑长上下文推理,被拿来对标「GPT-5.5」与「Opus 4.8」,同日还有 Poolside、Cohere 的开放模型同台。其二,强化学习的工程化继续深耕,从加速 rollout 的自投机解码、缓解熵坍缩的「STARE」,到让模型自造训练环境与按奖励方差在线合成数据,方向都在解决「训得稳、训得起、训得久」。其三,Agent 评测密集出炉,「CEO-Bench」「MyPCBench」「iOSWorld」「RNG-Bench」分别把长程经营、电脑使用、移动个性化与记忆能力纳入考量,划出当前智能体的真实上限。

🗞 行业动态 14 条

not much happened today

smol.ai AI News · 06-18 13:44 UTC+8

智谱「GLM-5.2」成为领先的开放权重模型,凭借「IndexShare」稀疏注意力实现高效的百万 token 推理,被评价为可比肩「GPT-5.5」与「Opus 4.8」但缺乏视觉支持;同日还有 Poolside 的「Laguna M.1」长程编码 MoE 与 Cohere 支持 4bit 量化、可经 Ollama 本地部署的「North Mini Code」。对关注开源基座的从业者,这是当天开放权重阵营的密集进展。

基座开源模型厂商动态稀疏注意力

GLM-5.2 is probably the most powerful text-only open weights LLM

Simon Willison · 06-18 07:58 UTC+8

Simon Willison 评 GLM-5.2 或为当前最强纯文本开放权重大模型:Z.ai 于 6 月 16 日以 MIT 许可放出全量权重,规模 7530 亿参数、激活 400 亿的 MoE,支持百万 token 上下文,仅接受文本输入(视觉另有非开源的 GLM-5V 系列)。对自部署与二次开发者,MIT 许可加上这一参数规模意味着极高的可用性与改造空间。

基座开源模型GLM厂商动态

Beyond LoRA: Can you beat the most popular fine-tuning technique?

HuggingFace 博客 · 06-18 08:00 UTC+8

HuggingFace 博客探讨「超越 LoRA」:能否在最流行的微调技术之外做得更好,对比并审视若干替代性参数高效微调方案。对在 LoRA 与其他 PEFT 方法间做选型的工程师,这是一篇值得参考的方法对比。

训练微调PEFT训练方法

Triton 3.7.1 Release Notes

Triton · 06-18 22:39 UTC+8

「Triton 3.7.1」补丁版发布,仅修复两处回归而无新功能:一是为「FenceAsync」补上共享内存写与异步拷贝之间缺失的栅栏以避免读到未写完的数据,二是 InstCombine 利用已知零位收缩相加常量。对写 Triton 内核的开发者,第一条修复直接关乎结果正确性。

InfraAI InfraTriton算子

Improving health intelligence in ChatGPT

OpenAI · 06-18 19:00 UTC+8

OpenAI 介绍「GPT-5.5 Instant」如何改进 ChatGPT 在健康与养生方面的回答:更强的推理、更好的上下文把握、更清晰的表达,并经医生参与的评测验证。对关注大模型垂直落地的读者,这是 OpenAI 在健康场景加固可靠性的一步。

OpenAI健康应用厂商动态

v0.30.10

Ollama · 06-18 12:26 UTC+8

「Ollama」发布 v0.30.10:Command A 与 North 系列模型现可经 MLX 引擎在 Apple Silicon 上运行,底层 llama.cpp 引擎更新至 build 9672 并修复了 MLX 构建产物。对在 Mac 上做本地推理的用户,这扩展了可本地运行的模型阵容。

InfraAI Infra本地推理Ollama

Is it agentic enough? Benchmarking open models on your own tooling

HuggingFace 博客 · 06-18 08:00 UTC+8

HuggingFace 博客讨论「是否足够 agentic」:用你自己的工具链来给开放模型做基准测试,评估它们在真实工具调用场景下的智能体能力。对挑选 Agent 底座模型的团队,这提供了贴合自身工具环境的评测思路。

Agent评测开源模型

Amazon SageMaker AI Async Inference now supports inline request payloads

AWS 机器学习 · 06-18 04:56 UTC+8

AWS 宣布 SageMaker AI 异步推理支持内联请求负载:可直接在「InvokeEndpointAsync」请求体中携带推理数据,免去每次调用前先把输入上传到 S3 的步骤。对在 SageMaker 上做异步推理的工程师,这简化了调用链路、降低了延迟与复杂度。

推理优化AI Infra云推理AWS

Using AI to help physicians diagnose rare genetic diseases affecting children

OpenAI · 06-18 16:00 UTC+8

OpenAI 介绍研究者用其推理模型协助诊断儿童罕见遗传病,在此前未解病例中新识别出 18 例诊断。对关注推理模型科学落地的读者,这是大模型在医学诊断中产生实质价值的一个具体案例。

厂商动态OpenAI推理模型医疗应用

France Advances Europe’s AI Future With NVIDIA Technologies

NVIDIA 博客 · 06-18 14:00 UTC+8

NVIDIA 博客介绍法国借助 NVIDIA 技术推进欧洲 AI 进程:AI 工厂与国家算力上线、AI 智能体投入生产、初创企业部署应用、开放前沿模型与工业平台落地。对关注主权 AI 与算力基建的读者,这是欧洲算力布局的一则进展。

厂商动态AI Infra算力基建NVIDIA

Get back hours every day with autonomous agents in Amazon Quick

AWS 机器学习 · 06-18 04:35 UTC+8

AWS 在 Amazon Quick 中推出可持续自主工作的智能体、帮助排定优先级的活动信息流,以及跨所有数据源一问即得洞察的能力。对关注企业级 Agent 落地的读者,这体现了云厂商把自主智能体嵌入办公数据场景的方向。

Agent企业应用AWS

Context intelligence for your data and AI agents at scale

AWS 机器学习 · 06-18 01:17 UTC+8

AWS 提出面向数据与 AI 智能体的规模化「上下文智能」:把散落在数据湖、数仓、湖仓、数据库与流中的上下文乃至未成文的机构知识,安全地提供给智能体以支撑可信决策。对做企业 Agent 的团队,这点明了上下文供给是可信决策的前提。

Agent数据AWS

📄 论文 20 篇

扩散语言模型「Sumi」从零预训练对标自回归,叠加多个直击 rollout 效率、熵坍缩与数据枯竭的强化学习训练新法,是今日最值得细读的几篇。

Sumi: Open Uniform Diffusion Language Model from Scratch

HF 精选 · 06-18 08:00 UTC+8

从零预训练的大规模均匀扩散语言模型「Sumi」,在知识与推理任务上取得了与自回归模型相当的表现,同时揭示出二者在常识推理上的差异。对从业者而言,这是扩散式语言建模能否成为自回归范式替代路线的一个重要开放权重参照。

基座扩散语言模型预训练模型架构
📖 阅读⬇ PDF

EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

HF 精选 · 06-18 08:00 UTC+8

「EfficientRollout」提出一种系统感知的自投机解码框架,用于加速强化学习的 rollout 采样,能让草稿模型随策略演进自适应并优化投机解码方案。对做 RL 训练的团队而言,rollout 往往是吞吐瓶颈,该方法直击训练侧的采样效率。

强化学习推理优化投机解码
📖 阅读⬇ PDF

The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

HF 精选 · 06-18 08:00 UTC+8

该工作提出判别器引导的强化学习「DRL」,用预训练表征空间中的判别器作为最优奖励信号,修正 score/flow matching 生成模型的对齐问题,在无需人类偏好的情况下同时提升视觉保真度与语义质量。对多模态生成从业者,这是一条绕开人工标注的对齐新思路。

后训练流匹配强化学习多模态生成
📖 阅读⬇ PDF

Native Active Perception as Reasoning for Omni-Modal Understanding

ICML 2026CCF-A推荐HF 精选 · 06-18 08:00 UTC+8

「OmniAgent」是一个全模态智能体,通过迭代式「观察—思考—行动」的主动感知循环处理长视频理解,靠高效的选择性处理以小博大,超过更大的模型。对多模态 Agent 从业者,它示范了把主动感知当作推理来做的范式。

多模态Agent长视频理解
📖 阅读⬇ PDF

Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

NVIDIAHF 精选 · 06-18 08:00 UTC+8

该工作提出统一的空间视觉语言模型框架,通过强化学习把语言演绎与三维几何推理双路径结合,实现跨任务、跨域的鲁棒空间推理。对具身与空间理解方向,这为视觉语言模型补上了几何推理这一短板。

后训练视觉语言模型空间推理强化学习
📖 阅读⬇ PDF

MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

HF 精选 · 06-18 08:00 UTC+8

「MaineCoon」是首个面向社交世界的实时音视频自回归世界模型,借助新的训练技巧与推理框架实现高帧率与长时序生成。对世界模型与多模态生成方向,它把实时性与音视频联合建模推进到了社交交互场景。

基座世界模型音视频生成多模态
📖 阅读⬇ PDF

CEO-Bench: Can Agents Play the Long Game?

HF 精选 · 06-18 08:00 UTC+8

「CEO-Bench」让语言模型智能体在 Python 接口下经营一家模拟创业公司长达 500 天,考察其长期规划、噪声处理、适应性与多任务协调能力。对评测 Agent 长程能力的研究者,它把评测时间跨度拉长到「能否打持久战」的维度。

Agent评测基准长程规划
📖 阅读⬇ PDF

MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

HF 精选 · 06-18 08:00 UTC+8

「MyPCBench」在模拟 Linux 桌面与真实 Web 应用环境中评测电脑使用 Agent 作为个人助理的能力,结果显示「Claude Opus 4.6」以 55.4% 的任务完成率居首,但在跨应用任务与长轨迹上仍吃力。对做 computer-use Agent 的团队,它给出了清醒的能力上限参照。

Agent电脑使用评测基准
📖 阅读⬇ PDF

Learning User Simulators with Turing Rewards

HF 精选 · 06-18 08:00 UTC+8

该工作用基于图灵测试的奖励训练语言模型作用户模拟器,使其在对话与论坛讨论场景下生成与真人难以区分的回复。对需要高保真用户模拟来训练或评测对话 Agent 的团队,这提供了一条以「真假难辨」为目标的训练路径。

后训练用户模拟强化学习对话
📖 阅读⬇ PDF

iOSWorld: A Benchmark for Personally Intelligent Phone Agents

HF 精选 · 06-18 08:00 UTC+8

「iOSWorld」是首个交互式原生 iOS 模拟器基准,具备跨多个应用的持久用户身份,用于评测个性化移动端 Agent 的能力。对做手机端 Agent 的团队,它把「记得你是谁」的个性化维度引入了移动评测。

Agent移动端评测基准
📖 阅读⬇ PDF