OpenAI proposed donating 5% of its equity to a US sovereign wealth fund
据报道,OpenAI CEO 山姆·奥特曼提议把公司 5% 的股权捐给一个美国主权财富基金,重新点燃了「让公众分享 AI 繁荣红利」的讨论。这一动作牵涉到 OpenAI 的股权结构、政企关系和它一向争议的营利—非营利定位,对关注头部 AI 公司治理走向和监管博弈的人值得留意。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
OpenAI proposed donating 5% of its equity to a US sovereign wealth fund
据报道,OpenAI CEO 山姆·奥特曼提议把公司 5% 的股权捐给一个美国主权财富基金,重新点燃了「让公众分享 AI 繁荣红利」的讨论。这一动作牵涉到 OpenAI 的股权结构、政企关系和它一向争议的营利—非营利定位,对关注头部 AI 公司治理走向和监管博弈的人值得留意。
Nvidia is bankrolling AI startups to loosen Big Tech's grip on its chip business
英伟达正越来越像 AI 创业圈的「央行」,通过大手笔投资初创公司来主动塑造算力市场格局,意在削弱亚马逊、微软、谷歌等大厂对其芯片生意的把控。对关注 GPU 供给、算力生态和芯片话语权之争的从业者,这反映了英伟达从卖芯片转向经营整个 AI 算力版图的战略意图。
NVIDIA Unlocks AI Compute at Scale, Inviting Partners to Power the AI Infrastructure Buildout
英伟达宣布要在大规模层面释放 AI 算力,邀请合作伙伴一起支撑 AI 基础设施的建设。其核心判断是:AI 正从模型开发阶段转向生产级推理,算力需求转向持续运转、规模化产出 token 的「AI 工厂」,这要求能快速上线、保持高利用率、并撑得起 token 级 AI 服务经济性的大规模多租户加速计算。对布局推理基础设施和 AI 工厂的团队,这透露了英伟达对算力形态转变的判断。
Multi-Agent Teams Hold Experts Back
苹果这项研究给多智能体协作泼了盆冷水:当多个大模型智能体自由互动、协调不靠预先写死的固定流程时,自组织团队的表现到底如何?作者发现,比起让强者单干,把专家凑成自由协作的团队反而会拖后腿——协调若不能事先设计好、只能在互动中涌现,效果往往不及预期。这对一窝蜂上马多智能体系统的从业者是个重要提醒:多个 Agent 未必比一个强 Agent 更好。
从龙蜥孵化到上游贡献:SGLang Tracing 与 AI Agent 调优实践
这篇实践分享讲了「SGLang Tracing」从龙蜥社区孵化到向上游贡献的过程,以及基于它做 AI Agent 调优的经验。SGLang 是当下热门的大模型推理框架,给它补上链路追踪(tracing)能力,能帮工程师看清推理和 Agent 执行的全过程、定位性能瓶颈。对用 SGLang 部署服务、想做可观测性和调优的团队有直接的工程参考价值。
Microsoft launches its own AI deployment company with $2.5 billion commitment
微软成立了自己的 AI 部署公司,并承诺投入 25 亿美元,跟上亚马逊、OpenAI、Anthropic 等纷纷组建 AI 部署队伍的步伐。这类专门的 AI 部署实体,反映出巨头们正把「把 AI 真正落地到企业和场景」当成一门独立的大生意来经营,对关注企业级 AI 落地和大厂战略布局的人是个值得跟进的信号。
让Agent越用越强:AReaL 2.0开源,给智能体装上“成长系统”
「AReaL 2.0」开源,主打给智能体装上「成长系统」,让 Agent 越用越强。它面向的是智能体在使用中持续学习、自我改进的场景,属于把强化学习/持续学习和 Agent 框架结合的方向。对想让自己的智能体不止会调用工具、还能从经验里不断进化的开发者,这个开源框架提供了现成的抓手。
据「远程劳动指数」(Remote Labor Index)衡量,AI 智能体如今已能以专业水准完成 16% 的自由职业项目,而八个月前这一比例仅为 2.5%,短短八个月翻了两番多。这条曲线直观量化了 Agent 实际替代真实付费工作的速度,对判断智能体能力落地节奏、评估相关岗位冲击的人是很有分量的参照数据。
VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
主流视频分词器把视频压成一个时空 3D token 网格、每个 token 对应一小块局部信息,这逼着下游文生视频模型去逐一预测这些固定排布的 token。苹果提出「VideoFlexTok」,做的是可变长、由粗到细的视频分词:token 数量能灵活伸缩,先给出粗粒度的整体表示再逐步细化。这让视频表示在压缩率和信息组织上都更有弹性,对研究视频生成与视觉 token 化的人是个值得关注的新方案。
On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs
苹果这项研究拷问经过强化学习微调的视觉语言模型(VLM)到底有多稳:虽然 RL 调优提升了视觉推理榜单成绩,但模型仍存在视觉 grounding 薄弱、幻觉、过度依赖文本线索的毛病。作者用可控的文本扰动——误导性图注或错误的思维链——一戳就让模型性能大幅下滑,暴露出它其实没真正「看图」而是被文字牵着走。这提醒做多模态推理的人:榜单涨分不等于视觉理解真的可靠。
Learning Structured Reasoning via Tractable Trajectory Control
大模型的推理能力常表现为一些反复出现的词法信号(比如「wait」暗示它在自我核验),但复杂的推理轨迹在自由采样下很稀有,标准 RL 也没法保证学到多样的推理行为。苹果这项工作提出通过「可控轨迹」来做结构化推理:主动、有针对性地探索特定推理模式,并用强化学习把这些多样的推理行为固化下来。这为如何让模型稳定习得并复用丰富的推理策略提供了系统性的方法,对研究推理训练的人有参考价值。
llama.cpp 发布 b9859 版本,OpenCL 后端这次允许从库里加载预编译的二进制内核,并新增 libdl.h 处理与 ggml-backend-dl 之间的循环依赖,还把 gemm_moe_mxfp4_f32、q8_0、q4_0/q4_1 的 MoE GEMM 等一批算子改成可从内核库按需加载。对在非 CUDA 设备(如各类支持 OpenCL 的 GPU)上跑 llama.cpp、关心量化 MoE 推理性能的用户,这些改动有助于加速内核加载与提升可移植性。
How Inscribe uses Amazon Bedrock to stop document fraud in seconds
Inscribe 基于 Amazon Bedrock 搭了一套「智能体式」欺诈检测系统,让模型像资深欺诈分析师那样跨多份文件交叉推理,识别被篡改、伪造乃至 AI 生成的金融文档。上线后单次审核能在 90 秒内出结果,相比人工审核提速约 20 倍,同时保留了金融监管所要求的准确性和可解释性。对做合规风控、想把 LLM 落进受监管流程的团队是个可参考的样本。
llama.cpp 发布 b9858 版本,主要改动是让加载 Hugging Face 上的分片模型时直接用主分片作为模型路径,修掉了多分片模型加载的一个体验问题,同时照例覆盖 macOS/iOS、各类 Linux 后端(Vulkan、ROCm、SYCL、OpenVINO)、Android 与 Windows 的多平台构建。对本地跑量化模型的用户是个小而实用的维护更新。
Mastering Agentic Techniques: AI Agent Reinforcement Learning
NVIDIA 开发者博客的一篇技术教程,讲怎么把强化学习用到 AI 智能体上——从对齐语言模型的 RLHF,延伸到用 RL 训练智能体的自主决策与工具使用能力。适合想把 RL 从「对齐助手」推进到「训练会干活的 Agent」这一步的工程师上手参考。
Vercel 推出并开源了 AI 智能体开发框架「Eve」,进一步补齐它围绕前端与全栈开发的 AI 工具版图。对已经在用 Vercel 生态的开发者来说,多了一个原生的智能体搭建选项。
smol.ai 当日快讯:「Fullstack Code Arena」把编码智能体的评测扩展到数据库、API 密钥、部署和结构化工具调用,标志着评测重心从写代码转向端到端交付可上线应用;LangChain 发布带统一追踪的「LangSmith」和自动生成文档的「OpenWiki」,LlamaIndex 展示了智能体原生的解析能力。Simon Willison 等人指出,当下 Agent 的主要难点已从模型本身转到路由、可观测性与记忆这些协调层面的工程问题。
Amortizing Maximum Inner Product Search with Learned Support Functions
苹果这篇工作针对最大内积搜索(MIPS)这一机器学习常用子程序反复求解开销大的问题,提出「摊销式 MIPS」:训练神经网络直接预测 MIPS 的解,把对固定键库、来自已知分布的大量查询的重复求解成本一次性摊薄。其关键洞见是 MIPS 的值函数本质上是一个支撑函数,从而可以用回归方式学习逼近。对做向量检索、推荐召回等需要高频 MIPS 的场景是一条以「学习换算力」的新思路。
MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers
这项工作聚焦 Transformer 中前馈模块(FFN)可解释性的老难题,提出「MemoryLLM」把 FFN 从自注意力中解耦出来,将其当作一个「上下文无关、按 token 检索」的神经记忆来研究,考察输入 token 如何在 FFN 内访问不同的记忆位置。这种即插即用又可解释的视角,为理解大模型内部知识存储与检索机制提供了新的分析工具。
Learning Unmasking Policies for Diffusion Language Models
扩散语言模型(dLLM)里,每一步该「解掩码」哪些 token 是关键设计,此前多用置信度阈值等启发式策略。这篇工作转而去「学习」一套解掩码策略,让模型自己决定每步揭开哪些位置,在样本质量与吞吐之间取得更好平衡。对想让扩散式 LLM 在推理效率上真正兑现并行优势的研究者有直接参考价值。
Residual Context Diffusion Language Models
当前分块式扩散语言模型靠「重掩码」机制每步只保留最有把握的少数 token、丢掉其余,等于白算了一部分。这篇「残差上下文扩散语言模型」指出被丢弃 token 仍保留着对后续步骤有用的上下文信息,把这部分计算回收再利用,从而减少浪费、提升解码效率。是对 dLLM 并行解码「算力利用率低」痛点的一次实打实优化。
Conformal Thinking: Risk Control for Reasoning on a Compute Budget
推理型大模型靠测试时扩展提升准确率,但 token 预算给多少、自适应推理何时停,牵扯到风险与准确率的根本权衡。这篇「Conformal Thinking」把预算设定重新表述为「风险控制」问题,借用共形预测的思路,在给定计算预算下为提前停止提供带统计保证的阈值,让「该多想时多想、想不出名堂时早停」变得可控可量化。对在成本约束下部署推理模型的团队很实用。
Autoresearch: The feedback loop behind self-improving agents
Latent Space 访谈,Introspection 联合创始人 Roland Gavrilescu 讲解「autoresearch」——智能体的自我改进反馈闭环、可复用的 agent「配方」,以及为什么在这套「软件工厂」里人类仍处于核心位置。适合关注自改进 Agent 与人机协作边界的读者。
Run NVIDIA Nemotron and OpenAI GPT OSS models on Amazon Bedrock in AWS GovCloud (US)
AWS 把美国本土的前沿开放权重模型引入 GovCloud(美国政务云),Amazon Bedrock 现已支持 OpenAI 的开源 GPT OSS(120B 和 20B)以及 NVIDIA Nemotron 系列(Nano 9B/12B v2、Nano 30B、Super 120B)。文章还覆盖了满足数据驻留要求的推理选项与服务分级。对有合规与数据主权要求、想在政务云上用开源大模型的机构是个可落地的新选择。
Building a serverless A2A gateway for agent discovery, routing, and access control
AWS 教你在其上搭一个无服务器的 A2A(Agent-to-Agent)网关,用基于路径的路由(/agents/{agentId})把多个智能体挂在同一个域名下,且标准 A2A 客户端无需改动即可对接。对要做多智能体统一接入、发现、路由与访问控制的团队是个现成的架构参考。
Structured memory filtering with metadata in AgentCore Memory
AWS 介绍 AgentCore Memory 里如何用元数据做结构化的记忆过滤:讲清元数据在配置、写入与检索三个环节各自怎么发挥作用,并给出多智能体、多租户等企业场景的用法和实践建议。对搭建需要按维度精细筛选记忆的智能体系统有直接帮助。
AWS 演示如何用一整套云上组件实现受神经生物学启发的「HippoRAG」:Bedrock 提供 LLM 能力,Neptune 做图数据库、Neptune Analytics 跑个性化 PageRank 等图算法,Titan Embeddings 负责向量表示,把这套模仿海马体联想记忆机制的 RAG 部署到企业级规模。对想用图结构强化检索、突破普通向量 RAG 局限的团队是完整的落地样例。
Skill engineering and the case against one-shot AI design
Latent Space 访谈,Paul Bakaus 聊他的项目「Impeccable」,以及在「loopmaxxing(拼命堆自动化循环)」时代为什么人类判断依旧不可或缺、为何 Agent 仍需要人来把方向。是对「一次成型式 AI 设计」的一次反思,主张把人的判断力设计进流程里。
MarkTechPost 报道:随着美国出口管制放开,Anthropic 于 7 月 1 日重新部署 Claude Fable 5,同时上线新的网络安全分类器,对亚马逊报告中提到的攻击手法有超过 99% 的拦截率,被标记的请求会改由 Opus 4.8 处理。公司还联合亚马逊、微软、谷歌提出了一套四要素的越狱严重程度评估框架。是一条同时关乎模型可用性与安全治理的厂商动态。
Simplify model selection in Amazon Bedrock with the open source Model Profiler
AWS 开源了「Amazon Bedrock Model Profiler」工具,把散落在多个 AWS API 和外部来源的模型元数据聚合到一个可搜索的统一界面,帮助在 Bedrock 上做模型选型,号称五分钟内即可部署。对面对众多模型、纠结该选哪个的开发者是个省事的辅助工具。
离散扩散语言模型质量已逼近自回归,却卡在两个硬伤上:只能定长生成、且用不上「KV 缓存」,而块扩散虽然按块从左到右生成算是折中,固定大小的顺序块又限制了解码的灵活度和并行度。这篇提出「集合扩散」,把生成建模成对 token 顺序的一种插值,让模型能在纯自回归和纯扩散这两个极端之间任意滑动,从而既拿回 KV 缓存、又保留可变长和高并行的解码自由度。对追求推理速度与生成灵活性兼得的人来说,这是一条把两套范式优点合流的新路子。
TurboServe: Serving Streaming Video Generation Efficiently and Economically
流式视频生成上线服务时会遇到会话状态难维护、资源需求随时波动的麻烦,传统 serving 系统并不为这种长会话、边生成边推流的负载而设计。「TurboServe」是专门面向流式视频生成的服务系统,把调度、自动扩缩容和会话迁移三套机制整合到一起,统一管理会话状态并动态调配资源。对要把视频生成模型真正跑成可盈利线上服务的团队,它给出了一套兼顾效率与成本的落地方案。
📖 阅读⬇ PDFELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving
在 PD 分离(预填充与解码分开部署)的 MoE 服务里,解码阶段每步激活哪些专家事先不知道,请求被随意路由就会频繁触发跨节点的专家权重搬运,拖慢吞吐。「ELDR」是一个「专家局部性感知」的解码路由器,通过预测请求接下来会激活哪些专家,把请求导向已经持有这些专家的节点,从而减少专家迁移开销、提升整体性能。对做大规模 MoE 推理部署、被专家路由通信瓶颈困扰的工程团队很有参考价值。
📖 阅读⬇ PDFSeed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity
「Seed2.0」的模型卡瞄准真实世界的复杂任务,重点啃两块硬骨头——长尾知识的覆盖和复杂指令的准确执行,同时在推理、视觉理解和搜索能力上做增强。它的一大特色是把评测体系牢牢锚定在真实用户需求上,而非单纯刷公开榜单。对关注前沿基座模型如何面向实际落地打磨能力的从业者,这份模型卡值得一读。
📖 阅读⬇ PDF这项工作想让大模型生成科学假设时不再是黑箱拍脑袋,而是可追溯、可解释。「Graph-PRefLexOR」是一个图原生的推理模型,用「组相对策略优化」(GRPO)训练,把材料科学的假设生成拆成机制探索、图构建、模式提取、假设综合几个结构化阶段,靠概念之间的重新组合来产出新想法。结果在推理可追溯性和语义多样性上都有提升,为 AI 辅助科研提供了一条把强化学习和知识图谱结合的思路。
📖 阅读⬇ PDFGRPO, Dr. GRPO, and DAPO Are Three Operations on One Number: The Group-Standard-Deviation Identity
「GRPO」「Dr. GRPO」「DAPO」这三种看似各异的强化学习训练法,被这篇论文证明其实是围绕同一个数字——组内标准差——做的三种操作,作者称之为「组标准差恒等式」。关键洞见在于:一组采样答案之间的分歧程度(即标准差)既决定了学习是否有效,也决定了参数更新的幅度。这种统一视角把 RLVR 训练里几个热门算法的差异讲清楚了,帮从业者理解调什么、为什么调,避免把等价的东西当成互相竞争的方案。
📖 阅读⬇ PDFOptimizing Visual Generative Models via Distribution-wise Rewards
给视觉生成模型做强化学习时,常规做法是对每张图单独打分(样本级奖励),但这容易被模型钻空子——为了拿高分而牺牲图像多样性、甚至冒出诡异瑕疵,即所谓奖励攻击。这篇提出用「分布级奖励」来微调生成模型:不再孤立评估单张图,而是让生成分布整体去对齐真实数据分布。这样既压住了奖励攻击导致的多样性坍缩,又让输出更贴近真实世界的图像分布,对做文生图对齐、被 reward hacking 折磨的团队是个实用改进。
图表、科学插图、矢量图、CAD 模型、3D 场景、硬件设计——这些结构化产物本质上都是大模型写程序生成的,可单次推理很脆弱,因为决定产物是否成立的编译器、渲染器或仿真器对模型是不可见的。「PairCoder」把结对编程搬进来当通用范式:一个 Driver 智能体写代码,另一个智能体把审查环节接进真实工具链,让工具的反馈成为验证依据。这套「代码驱动 + 工具链验证」的思路为多模态与结构化产物生成提供了可靠性更高的通用框架。
Multi-Objective Exploration and Preference Optimization via Mutual Information
要让大模型对齐多元而互相冲突的人类价值,得靠多目标对齐去权衡不同偏好维度,现有做法是训练一个以偏好向量为条件的策略、再用在线 DPO 来调。但探索过程中的不确定性会让不同偏好向量下生成回复的奖励分布互相重叠,导致偏好难以区分。这篇引入互信息来引导多目标探索与偏好优化,让不同偏好方向下的回复分布拉开距离、更好区分,从而提升多目标对齐的效果,对做个性化、可控偏好对齐的研究者有直接借鉴。
MemSyco-Bench: Benchmarking Sycophancy in Agent Memory
记忆对基于大模型的智能体很关键,但检索回来的记忆会诱发「谄媚」——智能体为迎合用户而牺牲事实准确性。「MemSyco-Bench」专门测这件事:它不再只考记忆的存取能力,而是评估记忆如何影响智能体的推理和决策,看它会不会因为顺着用户的历史偏好而给出错误结论。对开发带长期记忆的 Agent、担心记忆反噬可靠性的团队,这个基准提供了必要的评测抓手。
📖 阅读⬇ PDFCausalMix: Data Mixture as Causal Inference for Language Model Training
训练大模型时怎么配比各来源数据一直是玄学,且数据分布一旦漂移,原来调好的配比就失效、重训代价高昂。「CausalMix」把数据配比优化重新表述成一个因果推断问题,用因果视角去估计每种数据对目标的贡献,从而在分布发生变化时动态调整配比,而不必推倒重训。对做预训练数据工程、被配比调优和数据漂移困扰的团队,这提供了一个更有原则、更省算力的框架。
📖 阅读⬇ PDFAutoTrainess: Teaching Language Models to Improve Language Models Autonomously
能不能让语言模型自己训练语言模型?「AutoTrainess」朝这个方向走:它给模型搭了一套结构化的「智能体—计算机接口」,把规划、数据准备、训练、评测、日志这一整条训练流水线拆成模型能可靠操作的动作,比直接丢给它敲命令行更靠谱。这为自动化、自主化的模型训练流程提供了一个可操作的框架,指向让 AI 参与甚至主导自身迭代的方向。
📖 阅读⬇ PDFThe State-Prediction Separation Hypothesis
这篇提出「状态预测与 token 预测分离」假说:主张在 Transformer 里把预测下一个隐状态这件事,和预测下一个 token 分开来做。作者发现这样解耦之后,在不同规模下语言建模的效果和效率都有提升。这个思路给一直被 next-token 单一目标主导的架构设计提供了新的切入角度,对研究模型架构改进的人有启发。
📖 阅读⬇ PDFWhen LLMs Read Tables Carelessly: Measuring and Reducing Data Referencing Errors
大模型读表格时会「粗心」,引用错数据——比如把某行某列的值张冠李戴,这在数据分析类任务里是硬伤。这项工作先把这类「数据引用错误」量化度量出来,再用「批评者过滤 + 拒绝采样」的组合去减少它:让一个小模型专门当纠错的批评者。值得一提的是,仅 4B 参数的轻量模型就能达到很高的错误检出准确率,说明防住这类错误不一定要靠大模型,对做表格问答、数据分析 Agent 的团队是低成本的可靠性补丁。
📖 阅读⬇ PDFAutonomous Scientific Discovery via Iterative Meta-Reflection
这项工作想让 AI 独立做开放式科研而不失严谨。它搭了一个自主科学发现框架,用大模型加动态代码生成去开展开放式研究,并靠「迭代式元反思」和多模态数据处理来守住统计严谨性——即让系统反复回看自己的研究过程、纠正方法上的疏漏。对探索 AI 自主科研、又担心它得出统计上不可靠结论的研究者,这提供了一条兼顾开放探索与方法把关的路径。
📖 阅读⬇ PDFWhen More Sampling Hurts: The Modal Ceiling and Correlation Ceiling of Test-Time Scaling
都说测试时扩展「多采样几个再挑」能提升推理,这篇泼了盆冷水:采样超过几十个之后收益递减,甚至反而变差。作者点出两道天花板——「众数天花板」和「相关性天花板」:覆盖率(采到正确答案的概率)和选择(从中挑对)之间存在权衡,一味加采样并不能同时改善两者。这提醒做 test-time scaling 的人别盲目堆采样数,理解这两个上限才能把算力花在刀刃上。
📖 阅读⬇ PDF「HealthAgentBench」是一套面向真实医疗场景的智能体评测集,覆盖 7 大类共 54 个临床工作流任务,用来考前沿 AI 智能体在复杂临床流程里的真实能力。评测发现当前智能体在医学影像和组合式推理上明显吃力,但在电子病历(EHR)数据分析上展现了潜力。对想把 Agent 用进医疗、需要清楚其能力边界的团队,这个基准给出了贴近实战的能力画像。
📖 阅读⬇ PDFModel Merging as Probabilistic Inference in Fine-Tuning Parameter Space
模型合并想把多个单任务模型直接拼成一个多任务模型、不用再拿数据微调,但主流做法只从局部解空间的几何性质出发,很难判断每个任务方向的更新对其他任务到底有多大统计价值。这篇换了个视角,把模型合并表述成「专家乘积」框架下的概率推断,用概率的语言去给每个任务更新方向的有用程度打分。这为模型合并提供了比纯几何直觉更有原则的依据,对做多任务模型融合、想少踩合并坑的人有理论和实操参考。
PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception
多模态模型在榜单上分数漂亮,落到真实场景却常掉链子,二者之间的差距难以定位。「PerceptionRubrics」提出一套基于评分细则(rubric)的评测框架,靠「原子级审计」把评估拆到最小可判定的单元,再用「门控式打分」把评估结果校准到人类真实感知上,从而暴露基准分数和实际表现之间的缺口。对做多模态评测、苦于榜单分数不能反映真实体验的团队,这提供了更贴近人类感知的评估工具。
📖 阅读⬇ PDFPath-level Hindsight Instructions for Semantic Exploration in Vision-Language Navigation
训练视觉语言导航智能体离不开在线探索,它能让策略见到更广的状态分布,但探索出的轨迹会偏离专家示范,导致实际看到的视觉画面和原始语言指令对不上(语义错配)。这篇提出「Phi-Nav」统一的在线框架,用「事后诸葛(hindsight)」推理为偏离的轨迹补上路径级的事后指令,让走出来的画面重新和语言指令对齐。这样既保住了在线探索带来的鲁棒性,又修好了探索引入的语义错配,对做具身导航、被 on-policy 探索副作用困扰的研究者有实用价值。