🗂 历史归档
每日 AI 速览

2026-07-05

生成于 2026-07-06 04:08
⚠️ 本页行业动态来源于互联网公开信息,可能存在不实或失准内容,请仔细辨别消息真实性

今日导语

字节跳动发布「Seed2.0」模型卡,展示多模态与复杂现实任务的前沿能力。AI Infra层面,MoE服务专家路由优化(ELDR)、视频生成服务框架TurboServe与PyTorch编译器迭代密集推进,pxpipe更可将token成本降低70%。Agent研究向纵深发展:AutoMem让模型自主学习记忆技能,DiscoBench评测搜索Agent在查询歧义时主动澄清的能力,SkillCoach则以自我进化评分表强化技能运用。Meta明确转向出售GPU算力,华为更新「韬定律」论文,巨头竞争向基础设施蔓延。

🗞 行业动态 18 条

b9874

llama.cpp · 07-05 23:55 UTC+8

llama.cpp 为 CUDA 后端增加了量化张量拼接操作,直接加速量化模型在 GPU 上的序列处理。

llama.cppCUDA量化推理优化

Better Models: Worse Tools

Simon Willison · 07-05 06:53 UTC+8

新 Claude 模型(如 Opus 4.8)在调用工具时会凭空添加额外字段,导致工具调用被拒,反映出更强的模型能力反而可能带来更差的工具遵循性。

Claude工具调用模型行为Agent

b9873

llama.cpp · 07-05 05:11 UTC+8

llama.cpp 为 K/V 旋转输入添加空缓冲区保护,修复了在投机解码等仅存 K/V 不计算注意力的场景下因未分配缓冲区导致的崩溃。

推理优化llama.cpp投机解码K/V缓存稳定性

华为更新韬定律论文!

量子位 · 07-05 21:38 UTC+8

华为更新「韬定律」论文,明确展示了所放弃的技术路线,对理解其模型缩放规律与研发方向具有重要参考价值。

厂商动态华为缩放定律论文更新技术路线

Alibaba reportedly bans employees from using Claude Code

TechCrunch · AI · 07-05 00:32 UTC+8

据报道阿里巴巴已将 Claude Code 归类为高风险软件并禁止员工使用,可能出于安全与数据合规考虑,反映了国内大厂对外部 AI 编程工具的谨慎态度。

厂商动态阿里巴巴Claude Code安全合规内部禁令

📄 论文 20 篇

📭 今日暂无当天新论文——周末 / 节假日 arxiv 不公告、HuggingFace 每日精选也不更新。以下为近期精选 20 篇

Morphing into Hybrid Attention Models

字节 SeedHF 精选 · 07-03 08:00 UTC+8

FlashMorph 将混合注意力层选择形式化为预算约束优化问题,借助可变形模型与线性化正则高效选出适配长上下文的层组合,有效提升 Transformer 长文本效率。

Infra注意力机制长上下文模型优化Transformer
📖 阅读⬇ PDF