智谱「GLM-5.2」成为领先的开放权重模型,凭借「IndexShare」稀疏注意力实现高效的百万 token 推理,被评价为可比肩「GPT-5.5」与「Opus 4.8」但缺乏视觉支持;同日还有 Poolside 的「Laguna M.1」长程编码 MoE 与 Cohere 支持 4bit 量化、可经 Ollama 本地部署的「North Mini Code」。对关注开源基座的从业者,这是当天开放权重阵营的密集进展。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
智谱「GLM-5.2」成为领先的开放权重模型,凭借「IndexShare」稀疏注意力实现高效的百万 token 推理,被评价为可比肩「GPT-5.5」与「Opus 4.8」但缺乏视觉支持;同日还有 Poolside 的「Laguna M.1」长程编码 MoE 与 Cohere 支持 4bit 量化、可经 Ollama 本地部署的「North Mini Code」。对关注开源基座的从业者,这是当天开放权重阵营的密集进展。
GLM-5.2 is probably the most powerful text-only open weights LLM
Simon Willison 评 GLM-5.2 或为当前最强纯文本开放权重大模型:Z.ai 于 6 月 16 日以 MIT 许可放出全量权重,规模 7530 亿参数、激活 400 亿的 MoE,支持百万 token 上下文,仅接受文本输入(视觉另有非开源的 GLM-5V 系列)。对自部署与二次开发者,MIT 许可加上这一参数规模意味着极高的可用性与改造空间。
Beyond LoRA: Can you beat the most popular fine-tuning technique?
HuggingFace 博客探讨「超越 LoRA」:能否在最流行的微调技术之外做得更好,对比并审视若干替代性参数高效微调方案。对在 LoRA 与其他 PEFT 方法间做选型的工程师,这是一篇值得参考的方法对比。
「Triton 3.7.1」补丁版发布,仅修复两处回归而无新功能:一是为「FenceAsync」补上共享内存写与异步拷贝之间缺失的栅栏以避免读到未写完的数据,二是 InstCombine 利用已知零位收缩相加常量。对写 Triton 内核的开发者,第一条修复直接关乎结果正确性。
Cursor 1.5T新模型放弃Kimi基座!600亿美元股票换Cursor,马斯克第一刀砍向微软GitHub
据 InfoQ 报道,Cursor 1.5T 新模型放弃 Kimi 基座,并涉及 600 亿美元股票换 Cursor、马斯克将矛头指向微软 GitHub 等行业博弈。对关注编码 Agent 与厂商格局的读者,这折射出编码工具与基座绑定关系的快速变动。
Improving health intelligence in ChatGPT
OpenAI 介绍「GPT-5.5 Instant」如何改进 ChatGPT 在健康与养生方面的回答:更强的推理、更好的上下文把握、更清晰的表达,并经医生参与的评测验证。对关注大模型垂直落地的读者,这是 OpenAI 在健康场景加固可靠性的一步。
「Ollama」发布 v0.30.10:Command A 与 North 系列模型现可经 MLX 引擎在 Apple Silicon 上运行,底层 llama.cpp 引擎更新至 build 9672 并修复了 MLX 构建产物。对在 Mac 上做本地推理的用户,这扩展了可本地运行的模型阵容。
Is it agentic enough? Benchmarking open models on your own tooling
HuggingFace 博客讨论「是否足够 agentic」:用你自己的工具链来给开放模型做基准测试,评估它们在真实工具调用场景下的智能体能力。对挑选 Agent 底座模型的团队,这提供了贴合自身工具环境的评测思路。
Amazon SageMaker AI Async Inference now supports inline request payloads
AWS 宣布 SageMaker AI 异步推理支持内联请求负载:可直接在「InvokeEndpointAsync」请求体中携带推理数据,免去每次调用前先把输入上传到 S3 的步骤。对在 SageMaker 上做异步推理的工程师,这简化了调用链路、降低了延迟与复杂度。
Terraform MCP Server 发布,助力 AI 助手对接 Terraform 基础设施
据 InfoQ 报道,「Terraform MCP Server」发布,帮助 AI 助手对接 Terraform 基础设施。对关注 MCP 协议与基础设施自动化的读者,这把 IaC 操作纳入了 AI 助手可调用的工具生态。
Using AI to help physicians diagnose rare genetic diseases affecting children
OpenAI 介绍研究者用其推理模型协助诊断儿童罕见遗传病,在此前未解病例中新识别出 18 例诊断。对关注推理模型科学落地的读者,这是大模型在医学诊断中产生实质价值的一个具体案例。
France Advances Europe’s AI Future With NVIDIA Technologies
NVIDIA 博客介绍法国借助 NVIDIA 技术推进欧洲 AI 进程:AI 工厂与国家算力上线、AI 智能体投入生产、初创企业部署应用、开放前沿模型与工业平台落地。对关注主权 AI 与算力基建的读者,这是欧洲算力布局的一则进展。
Get back hours every day with autonomous agents in Amazon Quick
AWS 在 Amazon Quick 中推出可持续自主工作的智能体、帮助排定优先级的活动信息流,以及跨所有数据源一问即得洞察的能力。对关注企业级 Agent 落地的读者,这体现了云厂商把自主智能体嵌入办公数据场景的方向。
Context intelligence for your data and AI agents at scale
AWS 提出面向数据与 AI 智能体的规模化「上下文智能」:把散落在数据湖、数仓、湖仓、数据库与流中的上下文乃至未成文的机构知识,安全地提供给智能体以支撑可信决策。对做企业 Agent 的团队,这点明了上下文供给是可信决策的前提。
Sumi: Open Uniform Diffusion Language Model from Scratch
从零预训练的大规模均匀扩散语言模型「Sumi」,在知识与推理任务上取得了与自回归模型相当的表现,同时揭示出二者在常识推理上的差异。对从业者而言,这是扩散式语言建模能否成为自回归范式替代路线的一个重要开放权重参照。
📖 阅读⬇ PDFEfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts
「EfficientRollout」提出一种系统感知的自投机解码框架,用于加速强化学习的 rollout 采样,能让草稿模型随策略演进自适应并优化投机解码方案。对做 RL 训练的团队而言,rollout 往往是吞吐瓶颈,该方法直击训练侧的采样效率。
📖 阅读⬇ PDFThe Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
该工作提出判别器引导的强化学习「DRL」,用预训练表征空间中的判别器作为最优奖励信号,修正 score/flow matching 生成模型的对齐问题,在无需人类偏好的情况下同时提升视觉保真度与语义质量。对多模态生成从业者,这是一条绕开人工标注的对齐新思路。
📖 阅读⬇ PDFSTARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
针对「GRPO」训练中常见的策略熵坍缩,「STARE」用基于意外度的 token 级优势重加权配合目标熵调节,维持强化学习训练的稳定性。对调 RLHF/RLVR 的工程师而言,熵坍缩是常见失败模式,该方法提供了一种可落地的稳定化手段。
📖 阅读⬇ PDFThink Again or Think Longer? Selective Verification for Budget-Aware Reasoning
该研究提出「选择性验证」,在测试时动态决定何时对答案进行验证,相比一律验证或自一致性方法在准确率与效率上都更优。对部署推理模型、需要平衡算力预算与正确率的团队,这是一种预算感知的测试时扩展策略。
📖 阅读⬇ PDFFrom Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning
该框架让策略模型分析自身失败并提出配置修改,从而自动重新设计强化学习训练环境,效果超过更大的闭源模型与固定环境基线。对 Agent 训练而言,它把环境设计本身纳入自优化闭环,是「让模型造训练场」的有趣探索。
📖 阅读⬇ PDFNative Active Perception as Reasoning for Omni-Modal Understanding
「OmniAgent」是一个全模态智能体,通过迭代式「观察—思考—行动」的主动感知循环处理长视频理解,靠高效的选择性处理以小博大,超过更大的模型。对多模态 Agent 从业者,它示范了把主动感知当作推理来做的范式。
📖 阅读⬇ PDFReinforcing Dual-Path Reasoning in Spatial Vision Language Models
该工作提出统一的空间视觉语言模型框架,通过强化学习把语言演绎与三维几何推理双路径结合,实现跨任务、跨域的鲁棒空间推理。对具身与空间理解方向,这为视觉语言模型补上了几何推理这一短板。
📖 阅读⬇ PDFMaineCoon: Pursuing A Real-Time Audio-Visual Social World Model
「MaineCoon」是首个面向社交世界的实时音视频自回归世界模型,借助新的训练技巧与推理框架实现高帧率与长时序生成。对世界模型与多模态生成方向,它把实时性与音视频联合建模推进到了社交交互场景。
📖 阅读⬇ PDF「SciOrch」用一个轻量编排模型来调度多个前沿大模型协同解决前沿多模态科学推理任务,借助蒙特卡洛树搜索训练与 GRPO 式优化在提升表现的同时显著降低 API 成本。对多智能体与模型路由方向,这是兼顾效果与成本的编排范例。
📖 阅读⬇ PDFRODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents
「RODS」针对多轮工具调用强化学习中的样本枯竭问题,依据奖励方差动态合成新数据,以持续提供有信息量的训练样本。对训练工具使用型 Agent 的团队,它缓解了高质量轨迹数据难以为继的痛点。
📖 阅读⬇ PDFREVES: REvision and VErification--Augmented Training for Test-Time Scaling
「REVES」是一个两阶段迭代框架,交替进行数据增强与策略优化,利用中间纠错步骤提升大模型推理能力,在编程基准与约束满足问题上表现领先。对做推理训练的从业者,它把「修订与验证」显式纳入训练循环。
📖 阅读⬇ PDF新基准「RNG-Bench」用两个可控难度的游戏评测多模态基础模型重建过往观测并据此决策的能力,并引入记忆缺口指标以区分遗忘与决策不佳。对评测多模态 Agent 记忆与长程交互的研究者,它填补了非马尔可夫场景的评测空白。
📖 阅读⬇ PDFGuava: An Effective and Universal Harness for Embodied Manipulation
「Guava」是一个面向具身工具使用的通用 harness 框架,把高层推理与外部模块结合,让紧凑模型也能在极少训练数据下完成复杂操作任务。对具身智能方向,它展示了用框架弥补小模型能力的工程路径。
📖 阅读⬇ PDFTrust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding
该工作提出质量感知的自蒸馏方法,通过正确性门控与概率缩放增强坐标 token 的教师信号,提升视觉语言模型在「GUI 定位」上的表现。对做 GUI/电脑使用 Agent 的团队,这是一种提升点击定位精度的训练技巧。
📖 阅读⬇ PDFCEO-Bench: Can Agents Play the Long Game?
「CEO-Bench」让语言模型智能体在 Python 接口下经营一家模拟创业公司长达 500 天,考察其长期规划、噪声处理、适应性与多任务协调能力。对评测 Agent 长程能力的研究者,它把评测时间跨度拉长到「能否打持久战」的维度。
📖 阅读⬇ PDFMyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents
「MyPCBench」在模拟 Linux 桌面与真实 Web 应用环境中评测电脑使用 Agent 作为个人助理的能力,结果显示「Claude Opus 4.6」以 55.4% 的任务完成率居首,但在跨应用任务与长轨迹上仍吃力。对做 computer-use Agent 的团队,它给出了清醒的能力上限参照。
📖 阅读⬇ PDFWhen Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?
该理论工作分析了基于轨迹级结果监督的离线强化学习的统计难度,指出悲观式 actor-critic 方法可缓解部分困难,但某些广义结果型问题存在根本性壁垒。对 RL 理论与算法设计者,它厘清了轨迹级监督何时可学、何时不可。
📖 阅读⬇ PDFLearning User Simulators with Turing Rewards
该工作用基于图灵测试的奖励训练语言模型作用户模拟器,使其在对话与论坛讨论场景下生成与真人难以区分的回复。对需要高保真用户模拟来训练或评测对话 Agent 的团队,这提供了一条以「真假难辨」为目标的训练路径。
📖 阅读⬇ PDFiOSWorld: A Benchmark for Personally Intelligent Phone Agents
「iOSWorld」是首个交互式原生 iOS 模拟器基准,具备跨多个应用的持久用户身份,用于评测个性化移动端 Agent 的能力。对做手机端 Agent 的团队,它把「记得你是谁」的个性化维度引入了移动评测。
📖 阅读⬇ PDF