Daybreak: Tools for securing every organization in the world
OpenAI 推出名为 Daybreak 的安全工具集,包含「Codex Security」和专攻网络安全的「GPT-5.5-Cyber」模型,主打大规模地发现、验证并修补软件漏洞。对从业者而言,这意味着大模型正被系统化地推向自动化漏洞挖掘与补丁生成,安全工程的工作流可能因此被重塑。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
Daybreak: Tools for securing every organization in the world
OpenAI 推出名为 Daybreak 的安全工具集,包含「Codex Security」和专攻网络安全的「GPT-5.5-Cyber」模型,主打大规模地发现、验证并修补软件漏洞。对从业者而言,这意味着大模型正被系统化地推向自动化漏洞挖掘与补丁生成,安全工程的工作流可能因此被重塑。
MoonMath AI 开源了一款面向 AMD MI300X 的 HIP 注意力算子,用单指令 asm 包装和八波次流水线,在所有形状和舍入模式上都跑赢了 AMD 自家的 AITER v3。对做推理优化和押注 AMD 算力的团队来说,这是 MI300X 生态里一个实打实跑得更快、且开源可复用的底层 kernel。
The 7 Types of Agent Memory: A Technical Guide for AI Engineers
这篇技术指南系统梳理了智能体记忆的七种类型——工作、语义、情景、程序、检索、参数化与前瞻记忆,逐一讲清各自存什么、放在哪、何时该用,并配了对比表和可运行的 Python 代码。对正在为无状态大模型补上记忆能力的工程师,是一份实用的体系化参考。
llama.cpp 发布 b9760 版,重点重构并泛化了 server 的输入文件 schema,接通了 input_video、可直接接收原始 base64 输入,为多模态服务铺路。对基于 llama.cpp 自建推理服务的用户,意味着视频等多模态输入的接入会更顺手。
NVIDIA 在 ISC 大会上发布面向科学计算的新软件,覆盖化学材料发现到暗物质搜寻,包括 DAQIRI 库、ALCHEMI NIM 微服务以及即将推出的 cuPhoton 参考代码,用 AI 加速科研工作流。它体现了 NVIDIA 把 AI 基础设施进一步推向材料模拟、实验天文等硬核科学场景的布局。
llama.cpp 发布 b9758 版,为 SYCL 后端的 bin_bcast 算子和一元算子加上了 bf16 支持,并兼容 2026.0 之前的旧版 Intel 编译器。对在 Intel GPU 上跑 llama.cpp 的用户,这扩展了 bf16 精度的算子覆盖与编译器兼容性。
llama.cpp 发布 b9757 版,在 top-n-sigma 采样器里去掉了无条件执行的 softmax 加排序,省去这步冗余计算来加快采样。是一处小而实在的采样路径性能优化。
Patch the Planet: a Daybreak initiative to support open source maintainers
OpenAI 在 Daybreak 框架下推出「Patch the Planet」计划,借助 AI 加专家复核,帮助开源项目维护者发现、验证并修复漏洞。它把厂商的自动化漏洞修复能力直接对准了开源生态的维护短板,对长期人手不足的开源安全是一种外部补给。
Getty Images strikes multi-year deal to put licensed photos in ChatGPT search
Getty Images 与 OpenAI 达成多年期授权协议,把正版图库照片引入 ChatGPT 的搜索结果。此举为 ChatGPT 搜索补上了合规的图片来源,也是大模型厂商以正版授权规避版权风险的又一例。
Google Deepmind and A24 team up on AI filmmaking research
Google DeepMind 与电影工作室 A24 达成长期 AI 电影制作研究合作,据《华尔街日报》Google 还向 A24 投资约 7500 万美元。这标志着前沿 AI 实验室与内容创作方在生成式影像上的深度绑定,押注 AI 在影视创作流程中的应用。
PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters
PP-OCRv6 登陆 Hugging Face,支持 50 种语言,提供从 150 万到 3450 万参数的多档模型,让使用者按精度与算力需求自由取舍。对需要多语种 OCR 又想控体积的应用,这是一套覆盖面广、轻重可选的现成方案。
NAIRR Science Program Reshapes Scientific Research, Powered by NVIDIA AI Infrastructure
美国国家科学基金会的 NAIRR 科研计划在两年里支撑了 700 多个项目,覆盖蛋白质预测到传染病暴发管理,其算力由 NVIDIA AI 基础设施提供,包括一项让研究者获得专属访问的云端资源。它展示了国家级 AI 算力共享计划如何把基础设施红利输送到广泛的科研一线。
据 smol.ai 简报,OpenAI 扩展 Daybreak,推出主打闭环补丁生成的 GPT-5.5-Cyber,已扫描超 3000 万次提交、覆盖 cURL 和 Python 等重要项目,并因政策与出口管制引发争议,与 Anthropic 对 Mythos/Fable 的受限放开形成对比;另有 Sakana Fugu 发布可学习模型选择与委派的编排 API,但因基线不透明遭质疑。这两条线索分别指向 AI 安全能力的厂商博弈和多模型编排路线。
Orchestration models 🤖, DeepMind exodus 👋, loop engineering 🔄
TLDR AI 简报当日点了三条线索:模型编排(orchestration)成为热点、DeepMind 出现人才流失,以及围绕智能体的「循环工程」(loop engineering)。它快速勾勒了当天值得关注的行业走向与人事动向。
Samsung Electronics brings ChatGPT and Codex to employees
三星电子向全球员工部署 ChatGPT Enterprise 和 Codex,成为 OpenAI 规模最大的企业级落地之一。这印证了头部制造企业正把生成式 AI 与代码助手大规模铺进日常工作流,是企业 AI 采用加速的又一标志性案例。
Temporary Cloudflare Accounts for AI agents
Cloudflare 推出「临时账户」功能:无需注册账号,用 npx wrangler deploy --temporary 就能把 Workers 项目部署到一个存活 60 分钟的临时项目里。虽然打着「给 AI 智能体用」的旗号,但对任何想零门槛快速试跑部署的开发者同样好用,很适合智能体自动化生成并验证代码的场景。
At ISC, JUPITER Shows What Exascale Science Looks Like
在 ISC 大会上,欧洲首台百亿亿次超算 JUPITER 亮相,搭载 NVIDIA Grace Hopper 超级芯片与 Quantum-X800 InfiniBand 网络,并用四个落地项目展示了 exascale 算力能做什么。它是欧洲在顶级 AI/HPC 基础设施上迈入百亿亿次时代的标志。
NVIDIA Vera CPU Opens the Way for Agentic Scientific AI at Los Alamos National Laboratory
洛斯阿拉莫斯国家实验室将与 HPE、NVIDIA 合建三台新超算,采用 NVIDIA Vera CPU 和 Vera Rubin 平台,为科学场景的智能体式 AI 加速。它显示下一代 Vera CPU 正被国家实验室用来推动「面向科学的 agentic AI」落地。
Hotter Than a Hot Tub: The 45°C Breakthrough to Cool AI’s Biggest Machines
NVIDIA 介绍其最新 AI 服务器的冷却液工作温度可高达 45 摄氏度,远高于普通热水浴的 38–40 度,而正是这个更高的温度上限让大规模 AI 机器的散热更节能。它点出在数据中心能效压力下,提高冷却温度阈值是降低能耗的一条务实工程路径。
Factored Gossip DiLoCo: Reducing Blocking Communication in DiLoCo
DiLoCo 虽然把同步频率降到很低,但每次外层同步仍是高带宽、强阻塞的全局操作,一旦遇到掉队节点或瞬时通信故障就会卡住整轮训练,难以走出高带宽数据中心。这篇工作把「精确同步」松弛为基于 mixing/gossip 的「近似同步」,让节点两两混合参数而非全员对齐,从而在延迟和丢包下平滑降级而非彻底阻塞。由此可把 DiLoCo 的同步拆解成非阻塞的因子化通信,对在松散、跨地域、廉价互联环境下做大规模分布式训练很有现实意义。
CFPO: Counterfactual Policy Optimization for Multimodal Reasoning
大视觉语言模型在多模态推理上能力很强,但主流强化学习范式缺少显式的反事实与因果机制,导致模型常常忽略图像证据、转而依赖语言先验,在长链思维里还会出现幻觉漂移、答非所「看」。CFPO 提出反事实策略优化,通过构造反事实样本逼迫模型把奖励真正归因到视觉证据上、而非语言捷径,从根上强化视觉接地与因果学习。这对治理多模态推理的「视而不见」和长推理幻觉提供了比常规 RLHF 更有针对性的训练思路。
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models
多模态扩散语言模型在做区域级感知时往往逐区域串行处理,推理偏慢。PerceptionDLM 通过结构化的注意力掩码配合高效提示设计,让模型在一次前向里并行感知多个图像区域,在不牺牲描述质量的前提下显著加速推理。它展示了扩散式语言模型在密集视觉理解场景下兼顾速度与质量的一条可行路径。
📖 阅读⬇ PDFScaling LLM Knowledge Boundaries via Distribution-Optimized Synthesis
用合成数据做知识注入是扩展大模型知识边界的关键,但现有做法只会卡在预设 token 数或固定配比上停手,对知识在各领域的分布毫无感知,结果某些领域数据稀疏、某些领域严重冗余。这篇工作从分布视角重审知识注入,假设存在一个能最大化知识边界扩张的最优知识分布,并据此优化合成数据的领域配比。把「合成多少」变成「按分布合成」,为更高效地拓展模型知识面提供了量化依据。
GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents
当多个主体共享同一套智能体记忆时,既要保证记忆有用、又要做好访问控制和按需遗忘,现有记忆智能体在这种多主体、权限各异的机构级部署里很不可靠。GateMem 提出一个面向「多主体共享记忆治理」的基准,专门衡量在不同授权语境下效用、访问控制与遗忘之间的平衡。它把智能体记忆从单用户玩具推向了需要权限隔离的真实机构部署,点出了一个被长期忽视的安全与治理短板。
📖 阅读⬇ PDF个性化幻灯片生成需要智能体既记住用户长期偏好、又能在多轮修改里稳住本轮约束,还能复用过往操作经验。MemSlides 用分层记忆把长期用户画像、会话级工作记忆和可复用的工具记忆三者拆开管理,从而在多轮局部修订中既保持个性化稳定、又能可靠地只改该改的地方。这种把记忆按时效与用途分层的设计,对做稳定可控的文档类智能体颇有借鉴价值。
📖 阅读⬇ PDFMCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval
传统 RAG 在复杂研究任务里做段落级检索时,容易在海量 chunk 中选错或选冗。MCompassRAG 把主题级元数据当作「语义罗盘」来引导 chunk 选择,先用话题元数据收窄范围再做细粒度检索,从而同时提升检索效率与精度。这是一种轻量却实用的检索改进,适合知识密集的长文研究场景。
📖 阅读⬇ PDFMulti-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models
掩码扩散模型一次性并行解码,缺少自回归式的回头反思,难以在生成中迭代纠错。这篇提出「反思式掩码」,通过轻量后训练让模型能多轮重新掩码并局部精修自己的输出,从而在不改动架构的前提下激发出多轮推理能力。它为扩散类语言模型补上了迭代式 self-refine 这块短板,思路简洁且无需重训底座。
📖 阅读⬇ PDFSproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG
长文档 RAG 既要细粒度又要语义连贯,传统切块常割裂上下文,靠额外 LLM 调用做摘要又费钱。SproutRAG 用学习到的句间注意力把句级 chunk 组织成语义连贯的单元,并以注意力引导的树搜索做多粒度检索,全程不需要额外的 LLM 调用或摘要。它在长文档检索上兼顾粒度、连贯与成本,是一种偏工程友好的 RAG 结构设计。
📖 阅读⬇ PDFWorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
具身智能体在长时序任务里要靠记忆应对部分可观测的环境,但缺乏系统的评测标尺。WorldLines 用家居场景构建了一套考察长期记忆的基准,配套的 ObsMem 框架则专门处理部分可观测下的观测-记忆转换与决策难题。它把「长时序、有状态的具身智能体」拉到可量化评测的台面上,对做家务机器人和具身规划很有参考意义。
📖 阅读⬇ PDFCharacterizing Narrative Content in Web-scale LLM Pretraining Data
这篇对网页规模的大模型预训练语料做了系统的叙事结构分析,发现训练数据里的叙事模式是可测量、多维度的,并且随内容来源和主题显著变化。它为理解「模型究竟从什么样的文本里学习」提供了一面数据侧的镜子,提醒从业者预训练语料的叙事构成本身就是一个值得刻画和调控的变量。
📖 阅读⬇ PDFGeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning
视觉-语言-动作模型在机器人操作里常受限于三维重建不准和记忆管理混乱。GeneralVLA-2 引入 GeoFuse-MV3D 改进多视角几何重建、让动作规划更具几何感知,并用强化版 KnowledgeBank 做更好的受治理记忆管理。两者结合提升了机器人操作的感知与规划可靠性,是 VLA 走向更稳健落地的一步。
📖 阅读⬇ PDF在真实 B2B 对话分类里,把大量示例塞进上下文做 in-context learning 既贵又随上下文变长而脆弱。这篇提出把示例「蒸馏」成任务指令,用提炼后的指令替代海量样例,token 用量直降 99% 还反而提升了性能,并在上下文增长时更稳健。对要在生产环境控成本、控稳定性的对话分类应用相当实用。
📖 阅读⬇ PDFStylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
这篇研究发现多模态大模型的社会偏见,主要由少数几个人类视觉线索驱动,其中穿着风格和社会经济地位线索对模型判断的影响最大。也就是说模型会「以貌取人」,凭服饰等表层视觉特征形成带偏见的判断。该结论为定位和缓解多模态模型偏见提供了可操作的抓手——盯住那几个高影响的视觉属性。
📖 阅读⬇ PDFOnly Ask What You Don't Know: Grounded Delta Planning for Efficient Multi-step RAG
多跳问答里的 RAG 要么在多轮检索中层层放大错误,要么过度生成推理步、徒增成本却不提精度。GDP-RAG 提出「接地的增量规划」,只针对尚缺的信息增量去检索:先做初步检索为规划提供事实地基,再用「缺口条件」的规划只问那些自己还不知道的东西。一句话概括就是「只问你不知道的」,在控制检索轮数和成本的同时提升多跳准确率。
批量知识编辑里,多条编辑因概念重叠、句法共享造成语义表示纠缠,干扰累积导致编辑精度下降。这篇提出「正交表示编辑」,通过把各条编辑的表示推向相互正交来解耦语义纠缠,从而在不重训的前提下减少批量编辑间的相互干扰。它直指批量知识编辑的核心痛点,为模型事实更新的可扩展性提供了一条解纠缠思路。