Is the US government’s Anthropic ban accidentally helping the brand?
美国政府以国家安全为由要求 Anthropic 下架最新的「Fable 5」与「Mythos 5」两款模型,起因是亚马逊研究者据称找到绕过「Fable 5」防护的方法。文章探讨这一封禁是否反而为品牌带来声量,关注模型安全治理与监管走向的从业者值得一读。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
Is the US government’s Anthropic ban accidentally helping the brand?
美国政府以国家安全为由要求 Anthropic 下架最新的「Fable 5」与「Mythos 5」两款模型,起因是亚马逊研究者据称找到绕过「Fable 5」防护的方法。文章探讨这一封禁是否反而为品牌带来声量,关注模型安全治理与监管走向的从业者值得一读。
The US banned Anthropic’s Fable 5 release, but the numbers don’t seem to care
同一则美国政府封禁 Anthropic「Fable 5」发布的事件,本文聚焦数据层面:尽管遭遇监管下架,相关使用与热度数据似乎并未受到明显影响。它从市场反应角度补充了封禁事件的另一面。
撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型
三名 00 后用两个月做出号称史上最快的流式音视频社交模型,速度比同类快 7 倍、成本仅为「Veo 3」的两千分之一。它代表了实时多模态生成在速度与成本上的激进优化,对低延迟音视频应用方向有参考价值。
Sean Lynch 在评论中提出,相较于 skills 与命令行,MCP 真正的价值在于把鉴权流程隔离到智能体上下文窗口乃至整个执行环境之外;其理想形态或许就是 API 的「鉴权网关」。这为理解 MCP 协议的定位与价值边界提供了一个犀利视角。
Data2Story turns a CSV file into a verified interactive news article using seven AI agents
「Data2Story」用七个 AI 智能体像编辑部一样协作,把一份 CSV 文件变成带图表、网络检索与可核验来源链接的交互式新闻报道,其中 93% 的陈述可溯源、74% 的读者更偏好其产出。它是多智能体协作在数据新闻自动化上的一次扎实落地。
诺奖得主、AlphaFold之父投奔Anthropic!谷歌48小时连跑俩大将
诺奖得主、AlphaFold 之父被曝加盟 Anthropic,谷歌在 48 小时内接连流失两员大将,外界同时追问「Gemini 3.5 Pro」的进展。这反映出顶尖 AI 人才争夺战的白热化与谷歌、Anthropic 之间的此消彼长。
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
重新审视大模型 FP4 预训练中的「收缩偏差」问题,从几何角度解释其成因与系统性影响,并提出基于随机哈达玛变换的统一 4 比特训练方案「UFP4」。在多种架构上,它消除了 E2M1 量化引入的偏差、提升了训练稳定性,对追求低精度训练降本的团队是一份可落地的配方。
📖 阅读⬇ PDFContext-Aware RL for Agentic and Multimodal LLMs
「ContextRL」用强化学习奖励模型对支撑「问题-答案」对的上下文进行筛选,从而提升智能体与多模态大模型的长程推理能力。在多类基准上优于常规方法,为长上下文场景下「该读什么」提供了可训练的解法。
📖 阅读⬇ PDFThinking with Visual Grounding
提出「视觉锚定式思考」,让视觉语言模型在自然语言推理过程中显式锚定到具体视觉证据,而非凭空臆测。通过可扩展的数据合成与强化学习显著提升推理准确率,是缓解多模态幻觉、提升可解释性的实用方向。
📖 阅读⬇ PDFMulti-LCB: Extending LiveCodeBench to Multiple Programming Languages
「Multi-LCB」把代码评测基准「LiveCodeBench」从单语言扩展到十二种编程语言,同时保留防污染机制与统一评测协议。它弥补了现有基准过度偏向主流语言的缺陷,为更公平地评估大模型多语言编码能力提供了标尺。
📖 阅读⬇ PDFPlayful Agentic Robot Learning
提出「玩耍式智能体机器人学习」,让具身机器人通过自主探索和「玩」习得可复用技能,再迁移到下游任务上提升表现而无需额外训练。这为降低机器人数据采集与标注成本提供了自监督式的新思路。
📖 阅读⬇ PDFS-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
「S-Agent」是一个空间推理框架,为视觉语言模型加上时序记忆与分层空间工具,使其能从多视角图像中持续理解三维世界。它把「空间工具调用」引入推理流程,推动模型从二维看图迈向连续 3D 场景理解。
📖 阅读⬇ PDFBeyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
指出智能体基准里的「聚合分数排行榜」无法刻画部署相关维度、且排名不稳定,主张以预测效度与分布外标准重建评测框架。这提醒从业者:榜单高分未必等于真实可用,选型需看更贴近落地的指标。
📖 阅读⬇ PDFENPIRE: Agentic Robot Policy Self-Improvement in the Real World
「ENPIRE」是一个面向真实世界的机器人策略自我改进框架,通过环境反馈、策略精炼与进化式代码优化构成闭环,自动完成策略迭代。它把「自动化机器人研究」推向可在物理世界自主运转的形态。
📖 阅读⬇ PDFFAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines
「FAPO」实现对多步大模型流水线的全自动提示优化,将提示词编辑与结构性改动相结合,在多个基准与安全任务上取得更优表现。对维护复杂 LLM 工作流的工程团队,它提供了减少人工调参的自动化路径。
📖 阅读⬇ PDFLedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
「LedgerAgent」为工具调用智能体引入独立的「账本」来结构化维护任务状态,提升客服等场景下对业务策略的遵从度与状态管理能力。它针对智能体「忘记规则、状态漂移」的痛点给出了显式状态记录的解法。
📖 阅读⬇ PDFTaylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation
「Taylor-Calibrate」提出一种有原则的初始化方法,借助教师模型的注意力统计量与对齐步骤,改进混合线性注意力模型从预训练 Transformer 的蒸馏转换。它让线性注意力的高效推理更易从现成模型中「继承」而来,降低重训成本。
📖 阅读⬇ PDF针对「零资源」编程语言的代码生成难题,研究构建了相应基准,并提出将继续预训练与「权重差迁移」结合的方法,以更低算力打造专用的指令遵循模型。它为长尾、小众语言的代码助手落地提供了低成本路线。
📖 阅读⬇ PDFDuration Aware Scheduling for ASR Serving Under Workload Drift
提出面向语音识别服务的「时长感知调度」,利用音频长度预测处理耗时,用 SJF 与 HRRN 算法在保持吞吐的同时显著降低中位延迟。这是一份贴近生产的 ASR serving 优化方案,对负载漂移场景尤为实用。
📖 阅读⬇ PDFUnderstanding the Behaviors of Environment-aware Information Retrieval
研究「环境感知信息检索」的行为:用强化学习训练大模型针对不同检索器调整查询构造策略,发现不同检索器有各自最优的查询风格,并通过检索器专属引导与模型扩展提升效果。这为 RAG 中「为不同后端写不同查询」提供了实证依据。
📖 阅读⬇ PDFConfigurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why
「ACIE」是一套已在临床部署的智能体式 RAG 系统,用于从复杂病历语境中抽取医疗信息,在核医学医师的 7326 次判定中达到 96.5% 的采纳率。它以真实落地数据展示了 agentic RAG 在高风险专业场景的可用边界与失效点。
📖 阅读⬇ PDF「LegalHalluLens」对法律工作流中的 AI 进行分型幻觉审计,识别不同主张类型下的具体错误模式与方向性偏差,并用校准的多智能体辩论来缓解。它为高合规要求的法律 AI 提供了可诊断、可干预的可信部署框架。
📖 阅读⬇ PDFJAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines
「JAMER」基于游戏 jam 比赛数据,构建了面向专业游戏引擎的项目级代码框架数据集与基准,用于评测大模型的代码生成与工程级编程能力。它把代码评测从函数级别推向真实项目级别,更贴近实际开发场景。
📖 阅读⬇ PDFFreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining
「FreeStyle」是一个风格-内容双参考的可控生成框架,通过挖掘社区 LoRA 大规模构造风格-内容三元组,并用解耦机制解决内容泄漏问题,还配套了评测基准。它把社区已有的海量微调资产转化为可控图像生成的训练养料。
📖 阅读⬇ PDFFlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows
「FlowBender」是一个反馈感知的闭环训练框架,针对扩散与流模型的约束满足问题,训练网络利用推理时反馈自我纠正对齐误差,在多任务上优于传统监督与引导式方法。它让生成模型具备「边生成边纠错」的自我校正能力。
📖 阅读⬇ PDFMoebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
「Moebius」是一个仅 0.2B 参数的轻量图像修复框架,通过新颖的局部-全局交互模块与自适应蒸馏策略,以远小的参数量和推理时间达到 10B 级别的效果。它展示了在生成式修复任务上「小模型逼近大模型」的工程价值。
📖 阅读⬇ PDF