OpenAI unveils its first custom chip, built by Broadcom
OpenAI 发布了与 Broadcom 联手打造的首款自研芯片,代号「Jalapeño」,专为其推理系统的独特需求量身设计。这意味着 OpenAI 开始把硬件纳入自家技术栈、减少对外部 GPU 的单一依赖,对整个推理算力供应格局是一个重要信号。
每天 04:00(Asia/Shanghai)自动抓「昨天」一天的新内容。
跨年累积的 AI 精选:顶会顶刊高被引论文(全领域,按**具体会刊**分组)+ 各厂商实验室论文与官方动态;多源召回 + 大模型相关性精筛,每周自动维护;支持自助检索 arXiv 添加并自动归类。
OpenAI unveils its first custom chip, built by Broadcom
OpenAI 发布了与 Broadcom 联手打造的首款自研芯片,代号「Jalapeño」,专为其推理系统的独特需求量身设计。这意味着 OpenAI 开始把硬件纳入自家技术栈、减少对外部 GPU 的单一依赖,对整个推理算力供应格局是一个重要信号。
OpenAI and Broadcom unveil "Jalapeño," a custom chip built for LLM inference
The Decoder 进一步披露 OpenAI 与 Broadcom 合作的「Jalapeño」芯片专为大模型推理而生,计划在 2026 年底实现规模化上线运行。对从业者而言,这标志着头部模型厂商正加速自建推理硬件,推理成本与产能的话语权正在向应用方转移。
FlashAttention 4 发布 beta19 版本,亮点之一是为 Sm100 架构新增了 DeepSeek v4 的稀疏 MLA 反向传播内核,并修复了 hd256 内核需先把 q/k/v 连续化的问题。对追求极致训练与推理性能的工程团队来说,这类底层算子的持续迭代直接关系到新架构模型能否跑出最优速度。
加州大学圣迭戈分校的 DFlash 把投机解码里的草稿生成从自回归换成了轻量块扩散模型:一次前向就草拟出整块 token,并通过 KV 注入让草稿条件于目标模型的隐藏特征。论文报告在 Qwen3-8B 上有最高 6.08 倍的无损加速,NVIDIA 则称在 Blackwell 上固定交互性下吞吐最高提升 15 倍,且已放出 20 个检查点并支持 SGLang、vLLM 与 TensorRT-LLM。对追吞吐的推理团队这是个即插即用的提速利器。
OpenAI and Broadcom unveil LLM-optimized inference chip
OpenAI 官方正式公布与 Broadcom 合作的 Jalapeño 芯片,定位为面向大模型推理优化的定制 AI 芯片,目标是在性能、能效和规模三方面同时提升其 AI 系统的推理能力。这是 OpenAI 自研算力布局对外释放的明确信号,预示推理基础设施进入软硬协同自研的新阶段。
1小时真机RL微调成功率破95%!HIL-ResRL:即插即用的VLA“外挂”神器
量子位报道的 HIL-ResRL 是一款即插即用的 VLA「外挂」,在真机上只用一小时强化学习微调就把任务成功率冲破 95%。它把人在回路与残差强化学习结合,给现成的 VLA 策略快速补上最后一段适配,对机器人落地中「策略能跑但不够稳」的常见困境是个高效解法。
LMDeploy 发布 v0.14.0,新增 FP8 的 KV cache 量化、支持 Qwen3-Omni 与 Qwen3.5 视觉模型在 turbomind 后端推理,还加入了兼容 OpenAI Responses 的接口和 get_ppl 端点。对做推理部署的团队来说,这一版在显存占用、新模型支持和 API 兼容性上都有实打实的改进。
Mistral 在 2026 年 6 月 23 日发布 OCR 4,从单纯的干净文本抽取升级为结构化文档输出:每个文本块都带边界框、类型分类以及逐页逐词的置信度,支持 170 种语言,可单容器自托管,并通过一个 API 把可引用、可溯源的结果直接喂给 RAG、智能体和企业搜索流水线。对做文档问答与企业检索的团队,这种「带出处」的结构化输出能显著降低幻觉与溯源成本。
How GPT-5 helped immunologist Derya Unutmaz solve a 3-year-old mystery
OpenAI 分享了一个案例:免疫学家 Derya Unutmaz 借助 GPT-5 Pro 解开了困扰自己三年的 T 细胞行为之谜。这类一线科研人员用前沿大模型推进真实科学难题的实例,为「LLM 辅助科研」提供了具体而非空泛的佐证,也暗示模型在专业领域的推理深度正变得可用。
TensorRT-LLM 发布 v1.3.0rc19,模型支持面进一步扩张:新增 MiniMax-M3、T5 与 BART 进入 PyTorch 后端,为 Step-3.7 的 NVFP4 启用 MTP 并移植其视觉塔,还支持了 Wan2.2 文生视频量化检查点。对依赖 TRT-LLM 部署多样化模型的团队,这一版在新模型覆盖和多项 API 对齐上都值得关注,但需留意 GB200 上 Llama 3.1 8B FP8 自动调优可能挂起的已知问题。
刚刚,Claude Code大升级!卡帕西:LLM第三次变革
量子位报道 Claude Code 迎来大升级,Karpathy 称其代表 LLM 的「第三次变革」,而 Anthropic 约 65% 的产品代码已由 Claude 参与完成。这组数字直观说明 AI 编程助手正从辅助补全走向深度参与生产代码,对开发流程与团队协作方式的影响值得每位从业者关注。
NVIDIA and AWS Collaborate to Bring AI to Production at Scale
NVIDIA 与 AWS 深化合作,把 AI 基础设施落到规模化生产场景:在 Amazon OpenSearch 与 EC2 上引入 NVIDIA 算力,针对低延迟推理、快速向量检索和 GPU 性价比等痛点给出更可落地的部署路径。对要在云上规模化跑 AI、又怕运维复杂度失控的企业,这提供了一条软硬协同的现实选项。
Datalab 开源了一个 9B 视觉模型「lift」,专门把 PDF 和图片按给定 schema 抽成结构化 JSON。它靠 schema 约束解码保证输出结构永远合法,再加上专门训练的「弃权」能力——字段缺失时返回 null 而不是硬编一个值,从根上压制幻觉,在 225 份文档的基准上拿到 90.2% 字段准确率。对做文档智能、票据/合同信息抽取的从业者来说,这套「结构有效 + 不瞎填」的组合比让通用大模型自由生成 JSON 要可靠得多。
Anthropic’s Claude Tag is learning your company, one Slack message at a time
Anthropic 推出「Claude Tag」,把一个常驻的 AI 队友嵌进 Slack。除了即时提效,TechCrunch 点出更深的战略意图:借此沉淀企业的组织上下文、机构知识与内部工作流,把自己嵌进客户日常协作的最底层。对评估企业级 AI 落地的人来说,这是一个「以协作入口换数据与黏性」的典型打法。
Maximize AI Factory Energy Efficiency Through Full-Stack Inference and Training Optimizations
NVIDIA 这篇技术文指出,电力可占到运营一座「AI 工厂」开支的 40%,每一瓦都被花在散热开销、数据摄取、训练或推理上。文章主张通过推理与训练的全栈优化来榨取能效。对关心数据中心 TCO、算力成本与吞吐的基础设施团队,这提醒了能耗已是和算力同等量级的成本变量。
llama.cpp 发布 b9781 版本,Vulkan 后端新增可减少图提交批次的选项,用来规避提交超时问题。对在多平台 GPU 上跑本地推理、尤其遇到 Vulkan 超时的用户是一个针对性修复。
OpenAI's deployment chief on Codex growth, falling AI prices, and the ROI question
OpenAI 部署负责人 Arnaud Fournier 在采访中介绍 DeployCo 如何派自家工程师把 AI 深植进大型企业内部。他谈到 Codex 的爆发式增长、客户使用反哺模型迭代的闭环,以及为何他认为「智能」的单位价格已大幅下滑。对关注大厂落地打法与 AI 定价趋势的人,这透露了 OpenAI 走「重服务、深嵌入」企业路线的思路。
llama.cpp 发布 b9780,修复了一个隐蔽的构建问题:此前「vulkan-shaders-gen」未能捕获 shader 编译子进程的失败,导致坏掉的 Vulkan 库被当成构建成功产出、问题拖到运行时才暴露。新版让 shader 编译失败时直接构建报错。对从源码编译 Vulkan 后端的人,这避免了「编译看似成功、实则产物已损坏」的坑。
Claude Tag embeds Anthropic's AI in Slack, already writes 65 percent of internal code, company says
Anthropic 的「Claude Tag」让团队在 Slack 任意频道 @Claude 即可派活,把 AI 直接接进协作流。公司称该工具在其内部产品团队已生成了 65% 的代码。对评估 AI 编码与协作工具实效的人,这个自报的内部使用比例是一个值得参考的强信号。
Nous Research 给 Hermes 智能体的 Skills 系统加了「/learn」命令:它能从本地目录、文档链接、过往对话或粘贴的笔记,自动写出一份符合规范的 SKILL.md。整个过程由在线 agent 用自己的工具读取素材后直接成文,无需手写、也不需要单独的摄取引擎。对搭建 agent 技能体系的开发者,这把「沉淀工作流为可复用技能」的门槛降到了一条斜杠命令。
v0.24.0rc1: [CI/Build] Fix topk histogram build on SM75 (#46550)
vLLM 发布 v0.24.0rc1 候选版,其中修复了在 SM75 架构上 topk 直方图的构建问题。对在较老一代 NVIDIA GPU 上部署 vLLM 的用户是一个保障编译可用性的补丁。
llama.cpp 发布 b9777,新增对 LFM2.5-ColBERT-350M 与 LFM2.5-Embedding-350M 两个模型的支持,并在 README 中恢复了 LFM2 系列。对在本地搭建检索/向量化链路的人,这意味着可以直接用 llama.cpp 跑这两个轻量的嵌入与 ColBERT 检索模型。
[AINews] Claude Tag: Multiplayer, Proactive, Persistent Agents in Slack
Latent Space 的 AINews 聚焦 Anthropic「Claude Tag」,将其定位为 Slack 里「多人协作、主动发起、持久存在」的智能体——相当于 Claude 终于把 Slackbot 形态升级到了真正的常驻 agent。对关注 agent 产品形态演进的人,这点出了从「被动问答」到「主动持久队友」的方向转变。
llama.cpp 发布 b9776,针对 Vulkan 后端的 FlashAttention,在 softmax 之前先施加 bias,以避免数值溢出。对用 Vulkan 跑长上下文或特定模型遇到精度异常的用户是一个针对性的数值稳定性修复。
Claude Tag 💬, Seedance 2.5 🎥, Mistral OCR 4 🧠
TLDR AI 的一期摘要并列了三条要闻:Anthropic 的「Claude Tag」、字节系视频模型「Seedance 2.5」以及「Mistral OCR 4」。对想快速扫描当日多模态与协作 AI 动态的人,这是一份索引式的更新清单。
腾讯云发布边缘 Web 与 AI Agent 托管平台 EdgeOne Makers:一键开发部署,分钟级全球上线
腾讯云发布边缘 Web 与 AI Agent 托管平台「EdgeOne Makers」,主打一键开发部署、分钟级全球上线。对想把 agent 应用低门槛部署到边缘节点、追求全球低延迟分发的开发者,这提供了一个开箱即用的托管选项。
使用Azure Container Apps Sandboxes安全运行不受信任的AI智能体代码
InfoQ 这篇文章讲如何用 Azure Container Apps Sandboxes 安全地运行不受信任的 AI 智能体代码。对要让 agent 自主执行代码、又担心安全隔离的团队,沙箱化运行是规避风险的关键工程实践,这给出了一条在云上落地的具体路径。
Build a protein research copilot with Amazon Bedrock AgentCore
AWS 演示如何用 Amazon Bedrock AgentCore 搭一个蛋白质研究助手,组合了三种能力:用自然语言解析提取结构化检索参数、用专用语言模型对蛋白质嵌入做向量相似检索、再对结果生成 AI 科研摘要。对做垂直领域科研 copilot 的人,这是一个「NL 解析 + 向量检索 + 生成式总结」三段式 RAG 的完整范例。
trunk/246b6bd6b4568fbf9e46c711467fefde02eb9aa2
PyTorch 提交了一个修复:在 flatbuffer 加载器中为移动端 JIT 的「Function.class_type」加上边界检查。这是面向 PyTorch Mobile 部署的一处健壮性与安全加固。
百度智能云发布百度千帆Token Plan企业版,提供GLM-5.2等模型
百度智能云发布「百度千帆 Token Plan 企业版」,并率先完成对智谱「GLM-5.2」的适配,可向企业提供包含 GLM-5.2 在内的多款模型。对采购模型 API 的企业用户,这意味着可在千帆平台上以套餐方式直接调用最新的 GLM-5.2。
蚂蚁集团副总裁周俊确认出席AICon上海站,分享百灵 2.6 的系统协同设计及挑战
蚂蚁集团副总裁周俊确认出席 AICon 上海站,将分享百灵大模型 2.6 的系统协同设计及其面临的挑战。对关注国产大模型工程实现与系统协同思路的人,这是一个了解蚂蚁百灵技术路线的现场窗口。
Mistral's new OCR model beats competitors in 72 percent of blind test cases, company says
Mistral AI 发布新 OCR 模型「OCR 4」,能从 PDF、Word、PowerPoint 等文档中读取文本。公司称在盲测中其表现于 72% 的对比案例里胜过竞品。对做文档解析、文档智能链路的从业者,这是又一个值得纳入选型对比的 OCR 选项。
阿里QoderWork推“峰谷Token”,夜间使用Qwen3.7低至2折
阿里 QoderWork 推出「峰谷 Token」机制,夜间使用 Qwen3.7 价格低至两折,覆盖 QoderWork、Qoder Desktop 等产品。对成本敏感、可把批量任务挪到夜间错峰跑的团队,这是一个直接降低模型调用成本的计费策略。
llama.cpp 发布 b9775,让 server 在创建 draft 上下文失败时进行检查报错。这是面向投机解码(draft 模型)场景的一处健壮性修复,避免出错时静默异常。
llama.cpp 发布 b9774,扩展了 Vulkan 后端对一批算子(SQR/SQRT/SIN/COS/CLAMP/LEAKY_RELU/NORM)的后端测试支持,统一走 unary.comp、并让 NORM 支持非连续张量,同时为 CUDA/WebGPU 修正了算子支持判断。对维护 llama.cpp 多后端算子覆盖的开发者,这提升了 Vulkan 路径的算子完备性与测试覆盖。
OpenThoughts-Agent: Data Recipes for Agentic Models
OpenThoughts-Agent 把目光放在智能体模型最稀缺的环节——训练数据怎么造,开源了一整套数据清洗与配比的流水线。它通过系统化的对照实验摸清哪些数据配方对 agentic 能力真正有效,并把这套方法做成可规模化扩展的训练数据生产线。在同等条件下训出的智能体性能优于既有方案,对想自己训 agent 又苦于没有高质量轨迹数据的团队尤其有参考价值。
📖 阅读⬇ PDFHolistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning
预训练里数据怎么混、什么阶段喂什么,长期靠经验拍脑袋。这篇提出 Holistic Data Scheduler,把在线数据配比建模成强化学习问题,用一个多目标奖励函数来同时平衡训练效率和最终性能,让调度器在训练过程中动态调整各数据源的采样比例。相比静态配比,它能更高效地利用数据预算,为大模型预训练的数据工程提供了一条可自动优化的路径。
📖 阅读⬇ PDFQwen-AgentWorld: Language World Models for General Agents
Qwen-AgentWorld 用语言来充当世界模型,让智能体在真正动手前先在「想象」中模拟环境的演变。它把跨多个领域的环境状态用语言建模出来,使 agent 能低成本地大规模推演行动后果,再把这些模拟经验用于提升下游任务表现。这种以语言世界模型驱动的仿真,为通用智能体提供了一种不依赖真实环境采样的训练与规划手段。
📖 阅读⬇ PDF智能体从自己的经验里学习时容易陷入「自我确认陷阱」——把自己犯的错也当成正确经验固化下来。EDV 提出执行-蒸馏-验证三阶段框架,引入多个异构智能体协作来交叉构建可靠经验,让不同 agent 互相把关,从而过滤掉那些自证式的错误轨迹。这一思路为 agent 的经验学习提供了更可信的数据来源,缓解了单体自学习反复强化错误的顽疾。
📖 阅读⬇ PDFDREAM: Dense Retrieval Embeddings via Autoregressive Modeling
DREAM 探索一条无需人工标注就能训练稠密检索向量的路子。它借助自回归语言模型自身的注意力机制来衡量文档与查询的相关性,把语言模型内部的注意力信号当作监督信号去监督 query-document 的相似度,从而摆脱对标注样本的依赖。对于缺少标注检索数据的场景,这种自监督的稠密向量训练方式提供了一个有吸引力的替代方案。
📖 阅读⬇ PDFWorld Models in Pieces: Structural Certification for General Agents
这篇从理论上戳破了通用智能体的一个迷思:在「大世界」假设下,智能体不可能样样精通,能力注定是碎片化地分布在世界模型的各个局部。作者先证明通用 agent 并非真正通用,使得传统最坏情况分析失去意义——它无法区分智能体是在关键瓶颈处出错还是在无关紧要处失败。为此提出结构化认证这一以状态转移为局部单元的框架,给智能体能力的评估换了一种更有判别力的尺度。
NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
NatureBench 想回答一个尖锐的问题:编程智能体究竟是在做科学发现,还是只是在复刻论文里已有的方法。它从《Nature》系列论文中提炼出 90 个跨学科任务,刻意区分「复现」与「发现」两种能力来考核 AI coding agent。结果颇为清醒:当前智能体主要靠把已知方法论翻译成代码,真正意义上的科学创新能力仍然欠缺,给「AI 做科研」的乐观预期泼了盆冷水。
📖 阅读⬇ PDFMobileForge 解决移动端 GUI 智能体适配新 App 时严重依赖人工标注的痛点,做到了免标注适配。它让 agent 直接在真实 App 交互中获得动作落点的接地信号,再配合分层的反馈引导式策略优化,从粗到细地纠正操作策略。这样无需为每个新应用准备标注数据就能高效迁移,显著降低了 GUI 智能体落地到海量 App 的成本。
📖 阅读⬇ PDFMemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management
长流程的手机 GUI 任务常常因为中途丢失关键信息而失败。MemGUI-Agent 提出主动式上下文管理,核心是把「管理上下文」本身当成一种动作(Context-as-Action),让 agent 主动决定记住、提取或更新哪些关键信息,从而在很长的操作序列里始终保留住对完成任务至关重要的线索。这种端到端设计提升了长程移动 GUI 任务的成功率。
📖 阅读⬇ PDFAOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction
AOHP 把 AI 智能体当成操作系统里的一等公民来设计,开源了一套基于 Android 的 OS 级 agent 框架。它在系统层面为 agent 量身定制交互机制,让智能体能更直接、安全地调度系统能力,从而提高任务完成率、压低执行开销,同时兼顾个性化与安全。对于想把 agent 深度嵌入手机操作系统而非停留在应用层的探索,这是一个值得参考的开源底座。
📖 阅读⬇ PDFLingxiDiagBench 面向中文精神科问诊与诊断场景,构建了一个大规模多智能体评测基准来考察大模型的临床能力。它用多智能体来模拟动态问诊的交互过程,而不只是给定病历做静态判断。评测揭示出一个关键落差:模型把问诊「聊」得不错,并不等于诊断就准,动态多轮问诊与最终诊断准确率之间存在明显鸿沟,为医疗大模型的评估敲了警钟。
📖 阅读⬇ PDFSemantic Browsing: Controllable Diversity for Image Generation
文生图模型生成的变体往往杂乱无章、难以按意图调控。这项工作提出「语义浏览」,让用户能基于有意义的语义维度去结构化地探索图像变体,把多样性从随机抖动变成可控的、沿语义方向的导航。这样创作者可以有目的地在生成结果之间游走筛选,而不是反复抽卡碰运气,提升了文生图在实际创作中的可用性。
📖 阅读⬇ PDFFLAT: Feedforward Latent Triangle Splatting for Geometrically Accurate Scene Generation
FLAT 把视频扩散模型改造成能从隐空间直接解码出显式表面图元的生成器,目标是几何精确的三维场景生成。它不再让模型隐式地理解几何,而是前馈式地吐出三角面片这类显式表面基元,兼顾了高质量重建、更好的几何准确度与实时渲染能力。这种把扩散先验与显式三维表示结合的做法,为快速生成可渲染的真实三维场景提供了新思路。
📖 阅读⬇ PDFAre Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning
这篇用一个反事实基准拷问文生图模型到底有没有因果推理能力。它发现模型生成不出违反常理的反事实场景,原因在于它们死死绑定了视觉与文本的共现模式,靠的是模式匹配而非真正的因果理解。借「归纳主义的火鸡」这一隐喻,作者犀利地指出当前文生图的「理解」相当浅薄,为评估生成模型的因果与组合能力提供了一面照妖镜。
📖 阅读⬇ PDFDiffusionBench: On Holistic Evaluation of Diffusion Transformers
扩散 Transformer 的进展长期被局限在 ImageNet 类别条件生成这一个口子里评测,难以反映真实能力。研究者提出 NanoGen 这一统一的训练与评测框架,并配套 DiffusionBench,主张要走出单一基准、做更全面的整体评估,才能看清扩散 Transformer 是否真的在进步。这对动辄宣称刷新生成指标的研究是一种必要的方法学纠偏。
📖 阅读⬇ PDFReMMD 面向真实世界里那种多语言、配多张图、形态复杂的多模态虚假信息检测难题,搭建了一套智能体化的核查框架。它能处理跨语言与多图的复杂内容,并融合多种验证手段进行交叉核实,在取得更优检测效果的同时还压低了计算开销。对于内容平台应对日益狡猾的图文造假,这套兼顾效果与成本的方案颇具实用价值。
📖 阅读⬇ PDFWorld Value Models for Robotic Manipulation
World Value Model 把世界模型和价值估计结合起来,为机器人操作中「任务进展到哪一步了」给出准确判断。它能从好坏混杂的数据里估出可靠的任务进度信号,进而指导策略学习,让机器人即便用质量参差不齐的演示数据也能学得更好。这种用价值信号衡量任务进程的思路,缓解了机器人学习对高质量演示的苛刻依赖。
📖 阅读⬇ PDFChartWalker: Benchmarking the Cross-Chart RAG Task
ChartWalker 首次把检索增强生成推向「跨图表」这一更难的多模态分析任务。它通过分层知识图谱构建和结构感知的采样,让模型能在多张图表之间检索并整合信息,去回答需要跨图综合的分析性问题。这填补了 RAG 在图表理解上多停留于单图的空白,为多模态数据分析类应用提供了新基准与方法。
📖 阅读⬇ PDFEventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies
长程机器人操作里,靠密集视频帧记忆既冗余又抓不住重点。EventVLA 提出事件驱动的稀疏视觉证据记忆:用视觉锚点标记关键时刻,再配一个动态的关键帧证据记忆模块,只把真正重要的视觉证据存下来供长时序决策调用。这让视觉-语言-动作策略在长程操作任务上表现更稳,也更省记忆开销。
📖 阅读⬇ PDFInSight: Self-Guided Skill Acquisition via Steerable VLAs
InSight 让视觉-语言-动作模型能自己学新技能,关键是把 VLA 做成在基元动作层面可被引导的(steerable)。基于这种可操控性,它能自动生成演示数据来驱动技能习得,省去人工逐一示范的繁重过程。这条自引导的技能获取路线,为 VLA 模型扩展动作技能库提供了更自动化、可扩展的方式。
📖 阅读⬇ PDF