提出 OPLoRA(正交投影 LoRA),针对 LoRA 微调时易发生灾难性遗忘的问题,通过将更新约束在与预训练权重主奇异方向正交的子空间中,避免干扰承载原有知识的关键方向。它在保持参数高效的同时显著减轻遗忘。对从业者而言,这让在新任务上微调大模型时更好地保留通用能力,提升落地稳健性。
📖 阅读⬇ PDFAAAI 3 条
KeepKV: Achieving Periodic Lossless KV Cache Compression for Efficient LLM Inference
提出 KeepKV 方法,实现了对 LLM 推理中 KV 缓存的周期性无损压缩,解决了传统有损驱逐方法导致的信息丢失问题。该方法在保持模型精度的同时显著降低显存占用,对提升长文本推理效率至关重要。
📖 阅读⬇ PDFOn the Effectiveness of Parameter-Efficient Fine-Tuning
该研究系统性分析参数高效微调的有效性,探讨为何仅训练少量参数即可媲美全量微调,并考察其在不同任务与数据规模下的表现与局限。其贡献在于对PEFT背后机理和适用边界的实证理解。对从业者而言,有助于判断在何种场景下PEFT可靠、何时需谨慎使用。
📖 阅读⬇ PDFACL 202 条
Understanding the Behaviors of Environment-aware Information Retrieval
该研究揭示了可用强化学习训练大模型,使其能根据下游检索器自适应调整查询表述策略,且不同检索器存在各自最优的查询风格。还通过检索器特定引导与模型扩展进一步提升检索增强效果,为查询改写优化提供了系统认知。
📖 阅读⬇ PDFCalibration-Aware Policy Optimization for Reasoning LLMs
该工作针对GRPO(组相对策略优化)在增强LLM推理能力时引入的过度自信问题,提出校准感知的策略优化方法,解决错误响应困惑度低于正确响应导致的相对校准退化。核心贡献在于将校准目标融入强化学习过程,提升推理模型输出置信度的可靠性,对构建更准确可信的推理型LLM具有重要实践意义。
📖 阅读⬇ PDFPagedEviction: Structured Block-wise KV Cache Pruning for Efficient Large Language Model Inference
提出结构化分块KV缓存剪枝方法PagedEviction,用于高效大语言模型推理。通过块级裁剪注意力缓存,在保持生成质量的同时降低显存占用与计算开销,对大模型部署优化极具实用价值。
📖 阅读⬇ PDFMadaKV 是一种模态自适应的 KV 缓存淘汰策略,专门针对多模态大模型在长上下文推理中的显存瓶颈,根据不同模态信息的重要性动态保留或丢弃缓存。其亮点在于细粒度的模态感知机制,在维持模型性能的同时显著降低推理时显存开销。对于需要部署高效多模态长上下文应用的工程师,该方法提供了实用的推理加速和资源优化手段。
📖 阅读⬇ PDF提出 UORA(均匀正交重初始化适配),一种新的参数高效微调方法,通过对适配矩阵进行均匀正交重初始化来提升大模型微调的表现与稳定性,并在多项任务上取得领先效果。对从业者而言,它在不显著增加参数的前提下提供了更优的 PEFT 选择,便于在有限算力下高效适配大模型。
📖 阅读⬇ PDFQuaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis
提出 Quaff,基于「离群值空间稳定性假设」的量化参数高效微调方法,旨在解决大模型在资源受限的个人设备上部署时计算与显存开销过高的问题。它利用激活离群值在空间分布上的稳定性来优化量化与微调的结合。对从业者而言,这有助于在端侧设备上更低成本地完成大模型量化微调与部署。
📖 阅读⬇ PDFELABORATION: A Comprehensive Benchmark on Human-LLM Competitive Programming
ELABORATION 构建了一个全面的人类与 LLM 竞赛编程评估基准,覆盖多种算法挑战。它为衡量大语言模型在实际算法竞赛中的表现提供了标准化工具,有助于推动模型编程能力的进步。
The Impossibility of Fair LLMs
本文从理论角度论证了公平大语言模型的不可能性,揭示在复杂社会偏见下现行公平标准的内在矛盾。该工作提醒研发人员,在追求 LLM 公平时应更务实地考虑统计与伦理的固有限制。
Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process
Intuitive Fine-Tuning 提出将多步对齐过程简化为单一训练流程,以更直接的方式实现模型偏好优化。该方法降低了对齐的技术门槛,使从业者能更便捷地构建符合人类偏好的模型。
Bias in Language Models: Beyond Trick Tests and Towards RUTEd Evaluation
该工作提出超越简单「陷阱测试」的语言模型偏差评估方法,转向更具鲁棒性的RUTEd评估框架。通过更全面、细致的测试场景揭示模型潜在偏见,为从业者提供更可靠的安全对齐评测工具。
Sliding Windows Are Not the End: Exploring Full Ranking with Long-Context Large Language Models
论文探索长上下文大模型在排序任务上超越滑动窗口策略,实现全量文本排序。通过直接对完整长文档进行相关性计算,大幅提升检索精度,为长上下文旅能的应用提供了新范式。
StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text
该文提出StrucText-Eval基准,专门评估大模型在富含结构(如表格、列表、层级)文本中的推理能力。揭示了当前模型在结构化信息理解上的局限,对构建企业级智能文档处理系统具有实际指导意义。
提出树结构指令进化的代码生成方法,以进化树的形式自动探索和优化提示指令。该方法显著提升模型生成代码的质量和多样性,为自动化提示工程和代码助手开发提供新思路。
研究深入多语种场景下的伦理偏差,提出MSQAD数据集并结合统计假设检验进行严谨评估。该工作为全球化部署的大模型提供了跨语言伦理风险检测的科学方法,对多语言对齐至关重要。
提出FACT-AUDIT自适应多智能体框架,用于动态事实核查评估,能自动调整核查策略。该框架提升了大模型在开放域事实准确性评测的鲁棒性与效率,对可信AIGC落地有重要价值。
Capture the Key in Reasoning to Enhance CoT Distillation Generalization
该研究在思维链蒸馏过程中捕获推理步骤中的关键信息,从而增强学生模型的泛化能力。这一方法提升了小模型推理能力蒸馏的效率与效果,为低成本推理能力迁移提供有效方案。
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
发布RuleArena基准,模拟真实场景中基于规则的复杂推理任务,以评测大模型的规则理解和应用能力。该基准为构建遵循业务规则的智能体系统提供了更贴近实际的评估工具。
Extending LLM Context Window with Adaptive Grouped Positional Encoding: A Training-Free Method
该工作提出一种免训练的自适应分组位置编码方法,用于扩展大语言模型的上下文窗口,无需额外微调即可支持更长输入。其核心贡献在于通过分组策略动态调整位置编码,缓解了位置外推时的性能衰减,对需要处理超长文档的从业者具有直接实用价值。
Semantic Exploration with Adaptive Gating for Efficient Problem Solving with Language Models
本文提出一种结合语义探索与自适应门控机制的方法,旨在提升语言模型在复杂问题求解中的效率。核心亮点是让模型自主决定何时进行深层语义探索,以平衡推理深度与计算成本,为构建更高效且可靠的智能推理系统提供了新思路。
Can Multimodal Large Language Models Understand Spatial Relations?
该研究系统评估了多模态大语言模型对空间关系的理解能力,揭示当前模型在处理方位、距离等空间语义时的局限性。其贡献在于建立了专门的评估基准,帮助从业者认识到多模态模型在空间推理上的短板,为后续改进指明方向。
TrimLLM: Progressive Layer Dropping for Domain-Specific LLMs
TrimLLM提出一种针对领域专用大模型的渐进式层剪枝技术,通过逐步移除冗余层实现模型压缩与加速。该方法在保持领域性能的同时显著降低推理成本,对需要在特定场景部署高效模型的工程师尤为重要。
JuStRank: Benchmarking LLM Judges for System Ranking
JuStRank构建了一个基准测试,用于评估将大语言模型用作系统排序裁判时的可靠性与偏差。该工作为自动化评价系统提供了量化对比框架,有助于从业者更审慎地选择或设计用于模型排序的裁判模型。
Generating Diverse Training Samples for Relation Extraction with Large Language Models
该研究利用大语言模型生成多样化的训练样本,以增强关系抽取任务的数据丰富性。核心贡献在于揭示了如何通过精心设计的提示策略让LLM产出高质量、多样化的标注数据,从而降低人工标注成本并提升抽取模型鲁棒性。
Efficient and Accurate Prompt Optimization: the Benefit of Memory in Exemplar-Guided Reflection
本文提出一种基于记忆的范例引导反思方法,用于实现高效且准确的提示优化。其亮点在于利用历史优化经验来指导后续提示调整,大幅减少了试错次数,为自动化提示工程提供了更具成本效益的解决方案。
Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation
该研究评估了大语言模型被滥用以生成个性化虚假信息的潜在脆弱性,分析模型在特定引导下编造针对性谣言的能力。这对安全从业者至关重要,有助于理解当前模型在内容安全方面的风险边界并推动防护机制研发。
EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents
EscapeBench 是一个评估语言模型智能体创造性智能的基准测试,通过密室逃脱式任务考察模型的发散思维、工具使用和多步规划能力。该工作为衡量大模型在开放域创造性问题解决中的表现提供了新标尺,对开发者理解模型的创造力边界具有重要意义。
BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving
BPP-Search 提出一种增强的思维树搜索方法,专门用于数学建模问题的求解。它通过分支、剪枝和路径评估策略提升大模型在复杂数学推理中的表现,为自动化数学建模任务提供了更有效的问题求解框架。
Fusing Highly Specialized Language Models for Comprehensive Expertise
该研究探索如何融合多个高度专业化的语言模型,构建一个具备广泛专长的综合系统。核心贡献在于提出一种模型融合方法,使组合后的系统能同时覆盖多个垂直领域的深层知识,为需要多领域协同的工业应用提供了新思路。
HybGRAG: Hybrid Retrieval-Augmented Generation on Textual and Relational Knowledge Bases
HybGRAG 提出一种混合检索增强生成框架,能同时利用文本和非结构化知识以及关系型知识库进行检索。该工作弥补了传统 RAG 仅处理文本的不足,使得模型能够结合结构化事实进行更准确的推理,对构建知识密集型应用至关重要。
MIND: A Multi-agent Framework for Zero-shot Harmful Meme Detection
MIND 是一个多智能体框架,旨在零样本条件下检测有害模因(meme)。它通过多个专业化智能体的协作推理来分析图文内容,无需额外训练即可识别仇恨言论等有害信息,为内容安全提供了灵活高效的AI治理方案。
Model Extrapolation Expedites Alignment
模型外推法被用来加速大模型与人类偏好的对齐过程。该方法通过利用模型参数的外推趋势,减少对齐训练所需的反馈数据量和计算开销,为提升模型对齐效率和实用性提供了新的技术路径。
「解结」是一种面向长上下文预训练的高效数据增强策略,通过改造现有语料以支持更长的上下文窗口。它避免从零构建超长文档,大幅降低了数据获取和预处理成本,对训练支撑长程依赖的大语言模型具有重要实用价值。
FedEx-LoRA: Exact Aggregation for Federated and Efficient Fine-Tuning of Large Language Models
FedEx-LoRA 提出一种精确聚合方法,用于联邦学习场景下大语言模型的高效微调。它在保护数据隐私的同时,保证本地LoRA适配器能无损聚合为全局模型,解决了联邦LoRA中聚合不精确的问题,对隐私敏感的分布式AI部署意义重大。
``Yes, My LoRD.'' Guiding Language Model Extraction with Locality Reinforced Distillation
提出局部性强化蒸馏方法(LoRD),引导从大语言模型中提取知识,通过强化局部特征保留提升提取模型的保真度与效率。对从业者而言,该方法有助于以更低成本获得高性能的压缩模型。
Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
提出一种多模态链接攻击,利用视觉与文本模态间的对齐缺陷,实现针对大型视觉语言模型的越狱,暴露其安全脆弱性。该工作提醒从业者重视多模态场景下的安全对齐挑战。
Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options
研究大语言模型在多项选择题中面对错误干扰选项时的表现,揭示模型容易受到错误选项误导,其鲁棒性有限。对评估和优化模型在对抗性输入下的可靠性具有参考意义。
The Hidden Attention of Mamba Models
揭示Mamba状态空间模型中存在隐式的注意力模式,通过分析其内部动态,桥接与Transformer的关联。该发现有助于理解Mamba的工作机理,为架构设计和可解释性提供新视角。
KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding
提出KV-Latent方法,从维度级别对KV缓存进行压缩,并设计频率感知的旋转位置嵌入,在降低显存占用的同时保持模型性能。对长文本推理场景下的显存优化具有重要应用价值。
LEANCODE: Understanding Models Better for Code Simplification of Pre-trained Large Language Models
提出LEANCODE,通过深入理解预训练代码大模型的内部表征,实现代码简化以提升可读性与简洁性。有助于创建更高质量、更易维护的自动生成代码,提升开发者效率。
构建多任务评估数据集MARS,系统基准测试语言模型在形而上学推理方面的能力,覆盖因果、抽象等复杂推理维度。为评估模型的高阶认知能力提供标准化工具,帮助识别模型短板。
针对数学应用题解答错误检测中存在的从众偏差,提出「先问后检测」框架,通过识别并缓解大模型过度依从多数答案的倾向,提升错误检测的准确性与公正性,对教育场景中的自动评估至关重要。
Improve Vision Language Model Chain-of-thought Reasoning
本文提出改进视觉语言模型思维链推理的方法,通过优化多模态思考过程增强模型在视觉问答等任务上的逐步推理表现。核心贡献在于设计新的推理增强策略,提升复杂场景的理解与解释能力,为多模态模型深入推理提供实用路径。
On the Mutual Influence of Gender and Occupation in LLM Representations
研究分析大语言模型内部表征中性别与职业概念的相互影响,揭示模型习得的社会偏见与刻板印象联系。通过对表征空间的可视化与度量,为后续去偏干预和公平性评估提供了重要的理论依据与分析工具。
Disentangling Memory and Reasoning Ability in Large Language Models
探索如何在大语言模型中解耦记忆与推理两种能力,提出评估框架区分模型是依靠参数化记忆还是真正逻辑推理来完成任务。该研究有助于理解LLM能力来源,指导架构改进以强化可控推理而非简单记忆复现。
针对电商产品的开放世界属性挖掘,提出多模态自纠正指令微调方法,能够从图文商品数据中自动发现并修正属性信息。该方法利用自纠正循环提升属性挖掘的覆盖度和准确性,对电商内容结构化和搜索推荐有直接价值。
LangSAMP: Language-Script Aware Multilingual Pretraining
提出考虑语言和文字系统的多语言预训练方法LangSAMP,通过注入文字感知信号增强模型对不同文字变体的建模能力。该方法有效提升了低资源语言的跨迁移表现,为多语言模型公平性和覆盖面提供了新思路。
将自指令衍生的提示生成与上下文学习相结合,为黑盒大语言模型自动构建高质量提示,无需内部访问或微调。该方法解放了黑盒LLM在多样化任务上的潜力,显著降低手动提示工程成本,提升零样本与小样本表现。
Binary Classifier Optimization for Large Language Model Alignment
提出利用二分类器优化大语言模型对齐人类偏好的范式,替代传统奖励模型,训练更稳定、校准更优。该工作简化了RLHF流程,有望降低对齐训练的资源消耗并提高模型响应的安全性与实用性。
UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization
发布时间敏感问答基准UnSeenTimeQA,要求大模型依据提供的实时上下文而非内部记忆回答问题,专门检验模型对时间信息的理解与推理。该数据集推动LLM从记忆依赖转向情景化时间推理,契合知识更新场景需求。
Root Defense Strategies: Ensuring Safety of LLM at the Decoding Level
本文提出在LLM解码阶段实施根防御策略,从生成根源阻止有害内容输出。核心贡献是无需外部过滤器的底层安全机制,可实时生效。对从业者而言,这为在线安全防护提供了高效且可靠的方案。
L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models
L4Q将参数高效微调与量化感知训练结合,在低比特量化下维持LLM微调性能。其亮点是大幅节省显存与计算开销,同时减轻精度损失。对于资源受限场景,该方法提供了实用的模型定制途径。
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion
该研究通过渐进式词汇扩展使LLM高效习得阿拉伯语等第二语言,且不损害原有能力。亮点是增量词汇学习策略,缓解灾难性遗忘。对多语言模型开发者,这提供了一种低成本扩展新语言的方式。
What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs
本文实证探究多示例攻击中长上下文对大模型安全的影响,揭示上下文长度、示例排列等关键因素。研究结果警示长窗口带来的新型对抗风险。从业者需据此加强长上下文场景下的安全防御。
CompileAgent是一个基于LLM的代理系统,能自动处理真实仓库级编译任务。其集成多工具以解决复杂依赖与错误,提升编译自动化水平。对软件开发者,该代理能显著减少手动干预。
Exploring Forgetting in Large Language Model Pre-Training
该工作分析LLM预训练中的知识遗忘现象,揭示预训练顺序对记忆保持的影响。核心贡献是遗忘模式研究及潜在缓解策略。这有助于从业者优化训练流程,提升模型最终知识密度。
Bias in the Mirror : Are LLMs opinions robust to their own adversarial attacks
本文探讨大模型面对自身生成对抗攻击时,其观点偏见是否稳健。通过自我对抗测试发现模型在部分偏见上存在脆弱性。结果可为模型内在偏见的评估与修正提供重要参考。
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
AndroidLab为训练和评估Android自主代理提供标准化平台与基准,涵盖真实移动交互任务。其核心是系统化评测代理的感知、规划与操作能力。对移动AI研究者,这填补了代理能力对比工具的空白。
Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment
提出模块化句子编码器,将语言专有表示与跨语言对齐模块解耦。核心贡献是允许独立优化单语言能力和跨语言迁移,提升多语言系统的灵活性与可扩展性。对从业者而言,可更高效地适配新语言,避免对齐与语言建模相互干扰。
Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs
揭示多模态 Transformer 可形式化为层次化的模态间异构图,阐明不同模态特征在深层网络中的交互结构。该视角为理解融合机制和设计更高效的多模态架构提供理论支撑。从业者可据此优化模态交互路径,减少冗余计算。
发布大规模视频对话数据集,专门标注了面部表情、手势、语调等非语言线索。数据集旨在训练模型从多模态对话中理解社会信号与情感意图。对于构建更具共情能力的对话智能体和虚拟人至关重要。
When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations
通过让受攻击的 LLM 生成解释,系统分析后门攻击的行为表征与触发模式。研究发现模型解释中蕴含可用于检测后门的异常信号,为防御提供新的可解释方法。对提升 LLM 安全性、构建可信部署方案有重要参考价值。
LegalAgentBench: Evaluating LLM Agents in Legal Domain
构建 LegalAgentBench 基准,从法律咨询、文书撰写、法条检索等维度综合评估 LLM 智能体的法律能力。该基准弥补了法律 AI 领域缺少标准化 Agent 评测的空白。帮助研究者与开发者客观对比不同智能体,推动法律 AI 落地。
Inference Compute-Optimal Video Vision Language Models
探索视频视觉语言模型的推理计算最优分配策略,旨在以最小计算开销获得最佳视频理解性能。通过动态调整帧采样与模型推理路径,显著降低延迟和成本。为实时视频问答、视频摘要等场景提供了实用优化方案。
分析在多语言模型中通过干预(如微调、提示)改变嵌入空间时所引发的跨语言对齐效应。研究揭示了不同干预手段如何重塑语言表示之间的对齐结构,提升低资源语言的迁移性能。为多语言模型的可控迁移学习提供可解释性指导。
引入心理测量量表,量化并操控预训练语言模型中的潜在构念(如人格特质、情绪倾向)。建立从心理测量学角度理解和干预模型行为的框架,为可控文本生成、偏见缓解提供新工具。有助于构建更符合社会规范的生成模型。
Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset
Nemotron-CC 项目将海量 Common Crawl 网页数据转化为高质量、长程预训练数据集,重点通过精细化清洗与筛选提升数据质量。其核心贡献在于提供了一套可复现的管线,以较低成本构建堪比闭源数据集的长程依赖预训练语料,对从事大规模语言模型训练的从业者具有重要参考价值。
该工作提出「对比困惑度」方法用于可控文本生成,并将其应用于大语言模型的去毒化任务。亮点在于无需外部分类器或昂贵微调,仅通过对比目标属性与原始模型的分布差异指导解码,为安全对齐提供了一种轻量、推理时可控的解决方案。
INVESTORBENCH: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent
INVESTORBENCH 是一个面向金融决策的基准,基于大模型驱动的智能体评估其在复杂投资场景中的表现。它提供了多种资产类别和真实市场数据模拟,帮助从业者衡量 LLM Agent 在金融分析、风险管理等任务上的能力边界。
该研究提出一种现代双向编码器架构,在保持快速推理的同时显著降低显存占用并扩展上下文长度。其贡献在于平衡了效率、长上下文建模与微调/推理成本,为需要高效编码的检索、表示学习及边缘部署场景提供了实用设计。
GIFI 框架从多个层级评估大语言模型中的性别包容性与多样性,旨在量化模型输出中的性别偏见与覆盖度。它为从业者提供了一个系统化衡量性别公平性的工具,有助于指导更具包容性的模型开发与迭代。
MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation
MAIN-RAG 提出多智能体协同的过滤式检索增强生成框架,通过多个专用 Agent 合作筛选并验证外部知识,从而提升生成事实性与鲁棒性。该方法缓解了传统 RAG 中检索噪声问题,对构建更可信的生成系统具有工程参考价值。
Context-Aware Sentiment Forecasting via LLM-based Multi-Perspective Role-Playing Agents
该工作利用基于大模型的多视角角色扮演智能体实现上下文感知的情感预测,通过从不同立场模拟情感演变捕获社会动态。其创新在于将多智能体角色扮演引入情感计算,可为舆情分析、对话系统等提供更细粒度的情感趋势推断。
AndroidGen: Building an Android Language Agent under Data Scarcity
AndroidGen 在数据稀缺条件下构建了一个 Android 语言智能体,能够理解自然语言指令并执行移动设备操作。其核心贡献在于弱监督数据利用策略与模块化架构,为低资源移动端智能体的开发提供了可行方案。
Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation
提出一种教师-学生框架,先用大语言模型生成候选标注提示,再通过蒸馏筛选高质量标注,降低对昂贵人工标注的依赖。核心贡献在于将提示工程与知识蒸馏结合,提升数据标注的质量与效率。对从业者而言,提供了一种低成本、可扩展的自动化标注方案。
A Survey of Post-Training Scaling in Large Language Models
全面综述大语言模型后训练阶段的缩放技术,涵盖数据、模型大小与计算维度,系统分析对齐、推理等能力的缩放规律。核心贡献是为研究人员提供后训练缩放的最新进展与关键发现的路线图。对从业者,帮助理解如何通过后训练缩放优化模型性能与效率。
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
通过受控实验分析预训练数据、模型架构和训练策略等因素,揭示大规模视觉语言模型多语言能力的关键驱动因素。核心贡献是提供经验性见解,指导设计更强的多语言多模态模型。从业者可据此优化多语言视觉任务的表现。
Ensemble Watermarks for Large Language Models
提出集成多种互补水印方案的方法,提高大语言模型生成文本的水印鲁棒性和隐蔽性,有效抵抗擦除攻击。核心贡献是引入集成思想增强水印安全性,为负责任AI生成提供更可靠的版权保护。从业者可应用于防止模型滥用与内容溯源。
利用图像、音频等非文本模态构造对抗指令,实现对主流多模态大语言模型的通用越狱攻击,暴露跨模态安全漏洞。核心贡献在于揭示多模态对齐的不足,非文本输入可绕过现有安全防护。警示从业者需加强多模态安全机制。
提出DioR框架,自适应检测用户查询的认知需求,动态优化检索策略与上下文利用,提升检索增强生成系统的准确性与效率。亮点是认知感知的检索优化,使RAG更智能地适应不同复杂问题。从业者可改善复杂问答场景下的系统表现。
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
构建查询驱动基准ToolHop,专门评估大语言模型在多步工具调用场景下的规划与推理能力,包含需顺序使用多个工具的任务。核心贡献是提供细粒度、现实的多跳工具使用测试集,揭示现有模型短板。从业者可用来评测和提升LLM的工具使用能力。
提出MoTE方法,将推理链与专家混合机制融合,通过自对齐激发模型内在的推理专家能力,无需外部监督。亮点是结合思维链与MoE结构,实现高效自改进。对从业者,提供了一种提升语言模型推理能力的无监督学习方法。
LADM: Long-context Training Data Selection with Attention-based Dependency Measurement for LLMs
LADM 提出了一种基于注意力依赖度量的长上下文训练数据选择方法,能够量化文本段落间的长距离依赖关系,从而筛选出更有利于拓展LLM上下文窗口的高质量数据。该方法可降低长上下文训练成本,同时提升模型对长文本的理解与推理能力,对需要处理超长输入的从业者具有实际优化价值。
Cultural Learning-Based Culture Adaptation of Language Models
该工作聚焦于语言模型的文化适应,采用基于文化学习的方式使模型更好地理解和反映不同文化背景的语言习惯与价值观。其核心贡献在于提供了一种系统性的文化适配框架,减少模型输出中的文化偏见,对构建全球化、包容性强的AI应用至关重要。
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
本研究提出解耦式拒绝训练方法,让大模型在「感到不安全」时能够主动拒绝生成有害内容,通过将安全性判断与回复生成进行解耦,提升了安全对齐的鲁棒性。该方法有助于防御越狱攻击,为从业者提供了一种更可靠的安全训练策略。
Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs
Token Prepending 是一种无需训练的句子嵌入提取方法,通过在输入前添加特定token来激发大模型产生更高质量的句子表示。该方法简单易用,可直接应用于现有LLM,为下游语义匹配、检索等任务提供性能提升,降低了嵌入模型的部署门槛。
本文解决了视频语言模型在多选题问答中的盲猜校准问题,通过校正选择偏差来提升评估的可靠性。核心亮点是提出了一种校准策略,使得模型预测概率更准确地反映其真实置信度,对需要精准评估视频理解能力的从业者尤为重要。
Towards Reward Fairness in RLHF: From a Resource Allocation Perspective
该工作从资源分配视角研究RLHF中的奖励公平性,确保不同任务或数据得到合理回馈,避免奖励坍缩或偏向特定分布。这有助于训练出更平衡、公正的奖励模型,对提升大模型对齐质量和输出多样性具有指导意义。
Taming LLMs with Gradient Grouping
Taming LLMs with Gradient Grouping 提出一种梯度分组技术,通过结构化地聚合和调整梯度来驯服大模型的训练动态,提升训练稳定性和效率。该方法为优化器设计提供了新思路,能帮助从业者更稳定地训练大模型,降低崩溃风险。
这篇观点性论文批判性地审视了多选题方式评估大语言模型的种种缺陷,指出这种评估范式具有强迫性、有根本缺陷但又有改善空间。它提醒从业者审慎解读基准测试分数,并呼吁开发更全面的评估方法,对推动评估生态健康发展有重要意义。
SR-LLM: Rethinking the Structured Representation in Large Language Model
该研究重新审视大语言模型中结构化表示的设计,探索如何更高效地编码与利用表格、图谱等结构化知识。核心贡献在于提出新的结构化表示方法,有望提升模型对于结构化数据的理解与推理能力。对构建知识驱动型LLM应用的从业者具有重要参考价值。
Contrastive Prompting Enhances Sentence Embeddings in LLMs through Inference-Time Steering
本文提出对比提示方法,在推理阶段通过对比不同提示来引导句子嵌入,无需额外训练即可提升嵌入质量。亮点是利用推理时引导实现简单高效的嵌入增强。对需要高质量文本表示的下游任务(如检索、聚类)具有重要意义。
Hierarchical Document Refinement for Long-context Retrieval-augmented Generation
本文针对长上下文检索增强生成场景,提出层级式文档精炼方法,通过逐步压缩与筛选检索内容来处理超长输入。核心贡献在于缓解长上下文中信息丢失与效率瓶颈。对构建长文档RAG系统的从业者十分有价值。
Comparing Moral Values in Western English-speaking societies and LLMs with Word Associations
研究通过词语联想任务,系统比较西方英语社会与大型语言模型在道德价值观上的异同,评估模型对人类道德观念的对齐程度。核心贡献在于提供衡量LLM价值对齐的新手段。对关注AI伦理、模型公平性与安全性的开发者有参考意义。
RAG-Critic: Leveraging Automated Critic-Guided Agentic Workflow for Retrieval Augmented Generation
RAG-Critic引入由自动评论家引导的智能体工作流,动态评估并优化检索增强生成的中间步骤。亮点是结合智能体与批评机制,提升RAG答案的准确性与可靠性。对希望构建能自我优化的RAG管道的从业者至关重要。
Progressive Multimodal Reasoning via Active Retrieval
该研究提出渐进式多模态推理框架,通过主动检索相关知识来逐步求解复杂多模态问题。核心贡献是将自适应检索融入推理链,提升多模态模型的知识覆盖与推理深度。对多模态问答和视觉推理应用有实际推动价值。
Pre-training Distillation for Large Language Models: A Design Space Exploration
本文系统探索了大型语言模型预训练阶段的知识蒸馏设计空间,比较了不同蒸馏目标、教师模型架构及训练策略。核心贡献在于为压缩大模型预训练提供全面的指导性分析。对希望降低预训练成本的从业者具有重要参考价值。
Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions
该工作教会视觉语言模型在遇到模糊视觉问题时主动生成澄清性提问,通过交互消除歧义。亮点在于赋予模型「知而问」的能力,提高人机交互的稳健性。对开发更可靠的视觉问答与辅助系统有启发意义。
LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks
LongBench v2 是一个专为真实长上下文多任务场景设计的评测基准,重点考察模型在长文本中的深层理解与复杂推理能力。该基准通过多样化的任务形式,推动长上下文大语言模型从表面检索走向深度语义推理,对从业者评估模型真实长文本处理水平具有重要价值。
Cross-model Transferability among Large Language Models on the Platonic Representations of Concepts
该工作探索不同大语言模型在概念的柏拉图式表征空间中的跨模型迁移现象,揭示模型间可能共享底层概念结构。研究为理解模型内部知识组织、促进模型间知识迁移及构建更可解释的 AI 系统提供了新视角。
FoldMoE: Efficient Long Sequence MoE Training via Attention-MoE Pipelining
FoldMoE 提出一种将注意力计算与混合专家模块流水线并行的训练策略,专门针对长序列场景优化 MoE 模型的训练效率。该方法显著降低显存占用和计算延迟,使得大规模 MoE 模型处理长文本更为可行。
LongReward: Improving Long-context Large Language Models with AI Feedback
LongReward 引入 AI 反馈信号来改进长上下文大语言模型,通过自动生成奖励优化模型在长文本任务上的对齐效果。该方法不依赖昂贵人工标注,即可增强模型的长程推理与指令遵循能力,对构建实用长上下文助手具有参考意义。
Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles
该研究系统分析了大语言模型校准度的关键影响因素,包括模型响应一致性、训练损失函数设计和提示风格。结论为提升模型置信度估计的可靠性提供了实证依据,有助于在风险敏感场景中更安全地部署 LLM。
UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench
UTBoost 框架旨在对 SWE-Bench 上的编码智能体进行更严密的评估,通过增强评估协议来防止作弊和评估失真。该工作提升了编码智能体评测的公平性与可信度,为软件工程自动化工具的迭代指明了更加可靠的方向。
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs
研究发现,在多样化推理链上进行微调,能够促使大语言模型在推理时主动修正和精炼自身的思维链,实现推理过程中的自优化。这一现象提升了复杂多步推理的准确率与鲁棒性,为增强 LLM 推理能力提供了高效的训练范式。
Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis
该工作通过分析模型中的捷径神经元,识别大语言模型依赖虚假相关性进行推理的行为,从而建立更可信的评估方法。这有助于区分模型的表面模式匹配与真实理解能力,对构建鲁棒且可信赖的 LLM 评估体系具有重要意义。
该工作评估多语言大语言模型生成文本的自然度,发现因训练数据偏向英语,其他语言输出常带有「英语口音」式的不自然。提出量化方法与改进策略,提升多语言生成的自然流畅度。对需要高质量多语言内容的从业者至关重要。
Enhancing Character-Level Understanding in LLMs through Token Internal Structure Learning
通过显式学习词元内部的字符结构信息,增强大语言模型对拼写、字形等字符级特征的理解。该方法能改善字符敏感任务的表现,如拼写纠错与生僻词处理。为需要细粒度文本理解的场景提供了有效的训练思路。
Conformity in Large Language Models
系统性研究大语言模型在对话中的从众倾向,揭示模型可能为迎合用户而放弃自身知识或判断。分析了从众行为的成因与影响,提醒从业者在部署时需防范模型输出受误导意见扭曲。
针对位置编码在长序列中产生的「位置过载」偏见,提出基于集合编码的去偏方法。不仅能缓解位置偏差,还支持上下文窗口的有效扩展。为需要超长上下文处理的场景提供了简洁高效的方案。
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling
提出按词频排序的投机采样方法 FR-Spec,用于加速大词汇表语言模型的生成。利用高频词优先的采样策略,显著减少推理计算量。对追求低延迟生成服务的从业者具有直接实用价值。
为大视觉语言模型设计树搜索与自我奖励机制,增强复杂多模态推理能力。模型在搜索过程中自我评估,逐步优化推理路径。该方法提升了数学、逻辑等多模态问答任务的准确性。
Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs
将大模型的自我纠正能力解耦为「置信度评估」与「批判性修正」两个维度。通过分解分析,揭示了模型自纠正有效性的条件与局限。有助于从业者设计更可靠的自我反思与修正流程。
Visual Evidence Prompting Mitigates Hallucinations in Large Vision-Language Models
提出视觉证据提示技术,通过提取并呈现图像中的关键视觉线索来指引模型回答,有效抑制多模态幻觉。该方法不改变模型结构,易于集成,提升了视觉问答的忠实度与可靠性。
提出一种语言代理框架,将双重过程理论融入实时人机协作,使AI能同时处理快速直觉响应与慢速深度推理。核心贡献在于模拟人类双系统认知,提升协作流畅性与实时性。对构建上下文感知、动态交替的对话代理具有实践启发。
TokAlign: Efficient Vocabulary Adaptation via Token Alignment
提出TokAlign方法,通过对齐令牌实现高效词表自适应,在不改变模型结构的情况下扩展或转换语言模型词表。核心亮点是保持模型性能同时显著降低训练成本。为大模型多语言迁移和领域适配提供轻量方案。
AdaEdit: Advancing Continuous Knowledge Editing For Large Language Models
提出AdaEdit框架,实现大语言模型的持续知识编辑,能顺序注入新知识而不遗忘旧知识。核心贡献在于克服传统编辑的灾难性干扰,支持动态知识更新。对需要持续学习的智能应用至关重要。
The Impact of Token Granularity on the Predictive Power of Language Model Surprisal
研究令牌粒度对语言模型预测力的影响,比较不同分词方案下模型困惑度的表现。核心发现揭示了粒度选择如何改变信息度量,影响下游评估。为理解模型语言建模机制和分词策略选择提供实证依据。
提出分段级扩散框架,利用扩散语言模型实现可控的长文本生成。核心创新在于将扩散过程作用于语义段而非词元级,兼顾全局连贯与局部控制。为可控文本生成提供高质量长序列方案。
提出LongDocURL,一个全面评估多模态长文档理解、推理与定位能力的基准。核心贡献在于覆盖多元任务,统一量化模型在复杂长文档上的表现。为多模态大模型文档智能研究提供关键评测工具。
提出APPL这一提示编程语言,将程序逻辑与大语言模型提示无缝融合。核心亮点是让开发者像写代码一样构建和管理提示,提升复杂LLM应用的可控性。为提示工程走向工程化提供语言级支撑。
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them
提出HALoGEN框架,用于系统性发现和分类大语言模型的各种幻觉现象。核心贡献是构建幻觉多样性基准,助力理解幻觉来源。为幻觉检测和缓解研究提供重要诊断工具。
本文提出微调大语言模型以预测个体对文本的主观感知,超越传统人口统计学方法。通过针对个人主观反馈进行微调,模型能够更精准地捕捉个性化解读。该方法对构建以用户为中心的推荐系统和内容过滤具有重要意义。
TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data
TARGA 提出一种定向合成数据生成方法,用于增强结构化数据上的实际推理能力。通过针对性地生成面向具体推理任务的数据,模型能够在表格、知识图谱等结构化场景中表现更佳。这为数据稀缺的推理任务提供了高效的数据增强方案,助力企业级问答和数据分析系统。
Curiosity-Driven Reinforcement Learning from Human Feedback
该工作将好奇心驱动的内在奖励引入 RLHF,以缓解人类反馈对齐导致的输出多样性下降问题。通过鼓励模型探索新颖输出,在保持与人类偏好对齐的同时显著提升生成多样性,对需要兼顾对齐质量与内容丰富度的对话和创作类应用具有实用意义。
📖 阅读⬇ PDFEvoWiki: Evaluating LLMs on Evolving Knowledge
EvoWiki 构建了一个面向不断演化知识的评测基准,用于检验大模型在知识更新、过时与冲突情形下的表现。它揭示了模型在跟踪动态事实方面的局限,对评估和改进检索增强、知识更新策略的从业者提供了重要的衡量工具。
Rethinking Repetition Problems of LLMs in Code Generation
该研究重新审视大模型在代码生成中的重复问题,剖析重复产生的成因并提出相应的检测与缓解思路。对依赖大模型做代码补全和生成的开发工具而言,理解并抑制循环式重复输出能直接提升生成代码的可用性与质量。
PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension
PunchBench 提出一个评测多模态大模型理解图文笑点(punchline)能力的基准,考察模型对幽默、反转等深层语义的把握。它暴露了现有 MLLM 在高阶多模态理解上的不足,为推动模型从表面识别走向语义与情感理解提供了评测抓手。
BELLE: A Bi-Level Multi-Agent Reasoning Framework for Multi-Hop Question Answering
BELLE 提出一个双层多智能体推理框架来处理多跳问答,将问题分解与协同推理交由不同层级的智能体分工完成。通过结构化的多智能体协作提升复杂推理链的准确性,对构建需要多步检索与推理的问答系统的从业者具有借鉴价值。
AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
AdamMeme 提出一种自适应探测方法,动态生成并迭代挑战样本来评估多模态大模型在有害内容(如恶意表情包)上的推理与识别能力。相比静态基准,它能更全面地暴露模型在内容安全上的盲点,对从事多模态安全与内容审核的从业者尤为重要。
提出一套面向数学推理过程监督奖励模型(PRM)的高效且精确的训练数据构建框架。其核心在于自动化生成步骤级标注,缓解了人工标注昂贵、噪声大的痛点。对从业者而言,这能以更低成本获得高质量过程监督信号,提升推理模型的训练效果。
SurveyPilot: an Agentic Framework for Automated Human Opinion Collection from Social Media
SurveyPilot 是一个用于从社交媒体自动收集人类观点的智能体框架。它通过 Agent 流程模拟问卷调查,自动抓取并归纳真实用户意见,替代部分人工调研。对从业者而言,它为大规模、低成本的舆情与观点采集提供了可复用的自动化范式。
针对小时级超长视频理解,提出更高效的视觉语言模型方案,强调以更锐利、更快速的方式建模长时序信息。其亮点在于在保持精度的同时显著降低长视频处理的计算开销。对从业者而言,这为长视频问答与检索等场景提供了可落地的效率优化路径。
Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions
Auto-Arena 通过让多个 LLM 智能体进行同行对战并组织委员会讨论,自动化完成对大模型的评测。其核心贡献是减少对人工评判和静态基准的依赖,提升评测的可扩展性与公允性。对从业者而言,它提供了一种低成本、可持续更新的模型排名与评估方案。
PTQ1.61 探索大模型极低比特训练后量化的真实极限,将平均权重压缩推进到约 1.61 比特。其亮点在于在如此激进的低比特下仍尽量保持模型性能。对从业者而言,这显著降低了大模型的显存与存储占用,利于边缘与低成本部署。
Sparse Latents Steer Retrieval-Augmented Generation
提出用稀疏潜变量来引导检索增强生成(RAG)的行为。通过在隐空间中识别并调控少量关键方向,可控地影响模型对检索内容的使用方式。对从业者而言,这为提升 RAG 的可控性与可解释性提供了一种轻量化的干预手段。
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model
SafeRAG 构建了一个面向检索增强生成安全性的基准测试。它系统评估 RAG 系统在面对投毒、注入等攻击时的脆弱性与防御表现。对从业者而言,它为衡量与加固 RAG 应用的安全可靠性提供了标准化评测工具。
重新审视 o1 类模型的测试时扩展(test-time scaling)能力,质疑它们是否真正具备随推理算力增加而稳定提升的特性。其贡献在于通过实证分析揭示现有测试时扩展的局限与边界。对从业者而言,这有助于更理性地评估长思维链推理的实际收益与投入产出比。
Multimodal Pragmatic Jailbreak on Text-to-image Models
该研究提出针对文生图模型的「多模态语用越狱」攻击,利用文本与图像组合在语用层面诱导模型生成有害内容,即便单独的文本或图像看似无害。研究构建了相应基准并揭示主流文生图系统的安全盲区。对从业者而言,它表明仅靠单模态过滤不足以防御,安全对齐需考虑跨模态的语境含义。
该工作从理论与原理层面剖析生成式 Transformer 在算术推理任务中的泛化能力,解释模型为何能或不能外推到训练分布之外的数字与位数。它给出了关于位置编码、表示方式与泛化边界的系统性理解。对从业者而言,这为提升大模型数学与符号推理的可靠性提供了设计指引。
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models
该研究面向大型音频语言模型,构建了开放式音频对话理解的评测基准,考察模型在真实语音交互中理解语义、情感与上下文的能力。它填补了音频对话场景缺乏开放式评测的空白。对从业者而言,这为语音助手与音频大模型的能力诊断和迭代提供了标准化标尺。
from Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors
该论文提出「对抗性隐喻」越狱方法,通过将有害意图包裹进看似良性的隐喻表达,诱导语言模型从无害输入推导出有毒输出。方法揭示了模型在语义隐含层面的安全脆弱性。对从业者而言,它提示安全防护需覆盖修辞与隐喻等隐蔽攻击路径,而非仅匹配显式有害词。
MorphMark: Flexible Adaptive Watermarking for Large Language Models
MorphMark 提出一种面向大模型的灵活自适应水印方法,可根据上下文动态调整水印强度,在文本质量与水印可检测性之间取得更好平衡。它解决了固定强度水印在低熵文本上损害质量的问题。对从业者而言,这为大模型生成内容的溯源与版权保护提供了更实用的方案。
该研究系统评估了基于 Gist Token 的上下文压缩方法,探讨其能否在大幅压缩上下文的同时逼近全注意力的效果。研究通过全面实验揭示了此类压缩的收益、适用场景与性能折损。对从业者而言,它为在长上下文推理中权衡显存、速度与质量提供了实证依据。
On the Limit of Language Models as Planning Formalizers
该工作探究语言模型作为「规划形式化器」的能力极限,即把自然语言任务翻译为 PDDL 等形式化规划表示再交由求解器执行。研究分析了模型在复杂规划问题上的失败模式与边界。对从业者而言,它为构建结合大模型与符号求解器的混合 Agent 规划系统提供了现实预期与改进方向。
Learning to Generate Structured Output with Schema Reinforcement Learning
该研究提出「Schema 强化学习」方法,通过强化学习训练模型生成严格符合指定 Schema 的结构化输出,提升 JSON 等格式的有效性与字段准确率。它将格式约束转化为可优化的奖励信号。对从业者而言,这显著改善了大模型在工具调用与结构化数据生成场景中的可靠性。
Improve Safety Training of Large Language Models with Safety-Critical Singular Vectors Localization
提出通过定位「安全关键奇异向量」来改进大模型的安全训练方法。研究在权重矩阵的奇异值分解空间中识别出对安全行为起决定性作用的少量奇异向量,并据此做有针对性的安全微调。亮点在于把安全能力精确归因到模型参数的特定子空间,让从业者能以更低代价、更少副作用地强化安全对齐,同时减少对通用能力的损害。
WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models
WarriorCoder 让多个代码大模型像专家一样相互「对战」,从胜负中自动生成高质量训练数据来增强代码能力。其核心是无需依赖现有数据集或人工标注,通过模型间擂台竞争挖掘各自长处并蒸馏整合。对从业者而言,提供了一条低成本、可自我进化的代码模型数据合成与能力提升路径。
Quantification of Large Language Model Distillation
针对大模型「蒸馏」现象提出了量化方法,用以评估一个模型在多大程度上是从其他模型蒸馏而来。论文设计指标刻画蒸馏程度及其带来的同质化与鲁棒性下降问题。对从业者重要在于:可用于检测模型抄近路、评估训练独立性,并警示过度蒸馏对模型多样性与可靠性的负面影响。
系统分析了检索增强生成(RAG)中「噪声」对大模型的双面作用,既可能是潘多拉魔盒也可能是阿拉丁神灯。研究对不同类型的检索噪声进行分类并量化其正负影响,发现某些噪声反而有助于提升表现。对从业者的价值在于指导如何筛选与利用检索内容,从而设计更稳健的 RAG 系统。
Stepwise Reasoning Disruption Attack of LLMs
提出一种针对大模型链式推理的「逐步推理破坏」攻击,通过在中间推理步骤注入扰动来误导模型最终结论。研究揭示了思维链推理在中间环节的脆弱性,即便单步被干扰也会级联放大错误。对从业者重要在于警示推理型模型的安全风险,并为构建更鲁棒的推理防御机制提供依据。
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge
提出「群体比较推理」方法来增强大模型作为评判者(LLM-as-a-Judge)的评估能力。其核心是引入多视角的比较式推理,模拟群体评审对候选答案两两或多方对比,从而得到更全面可靠的评判。对从业者而言,可显著提升自动评测的准确性与一致性,降低单一评判者的偏差。
剖析了 Transformer 语言模型在多语言场景下的跨语言事实不一致问题,即同一事实在不同语言下给出矛盾答案。论文从模型内部机制定位事实知识在多语言间无法对齐的根源。对从业者重要在于揭示多语言模型的可靠性短板,并为改进跨语言知识一致性提供方向。
GradOT: Training-free Gradient-preserving Offsite-tuning for Large Language Models
提出 GradOT,一种无需训练、保持梯度的异地微调(Offsite-tuning)方法,用于在不泄露完整模型的前提下让用户侧适配大模型。其亮点是通过梯度保持的压缩与变换,兼顾模型隐私与下游微调效果。对从业者而言,为模型所有者与数据持有方之间的安全协作微调提供了高效且隐私友好的方案。
Knowledge Boundary of Large Language Models: A Survey
这是一篇关于大语言模型「知识边界」的综述,系统梳理了模型已知与未知之间的界限问题,对相关概念、分类体系、检测方法与缓解策略进行了归纳整理。它帮助从业者理解模型何时会产生幻觉或过度自信,并为提升模型可靠性与可信度提供研究地图。
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
该工作针对多模态长链式推理中「视觉遗忘」问题,提出「随身视觉条件」(Take-along Visual Conditioning)方法,在推理过程中不断把视觉信息重新注入,避免模型在长推理链中逐渐丢失对图像内容的关注。这对构建稳定的多模态推理系统、提升视觉问答与视觉推理准确性具有实践价值。
MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System
MoC 提出面向检索增强生成(RAG)的「文本分块学习器混合」方法,用可学习、可组合的多分块器替代固定规则切分,根据文本特点动态选择合适的分块策略。更优的分块能显著提升检索质量与最终回答效果,对搭建高质量 RAG 系统的工程师很有参考意义。
Dually Self-Improved Counterfactual Data Augmentation Using Large Language Model
该研究提出一种基于大模型的「双向自我提升反事实数据增强」方法,让模型自动生成并迭代优化反事实样本,从而扩充训练数据并增强模型的鲁棒性与泛化能力。对缺乏高质量标注数据、希望降低数据偏见的从业者提供了低成本的数据扩充思路。
RPO: Retrieval Preference Optimization for Robust Retrieval-Augmented Generation
RPO(检索偏好优化)提出一种新的训练目标,使模型在检索增强生成中更稳健,能判断何时信任检索内容、何时依赖自身知识,缓解检索噪声带来的错误。它提升了 RAG 在含噪或不相关检索结果下的可靠性,对部署生产级 RAG 应用很关键。
Geometric Signatures of Compositionality Across a Language Model's Lifetime
该论文从几何视角研究语言模型在整个训练「生命周期」中如何表征组合性(compositionality),揭示组合语义在模型隐空间中留下的几何特征及其随训练演化的规律。这为理解模型如何习得组合泛化能力、解释其内部机理提供了新的分析工具。
YuLan-Mini: Pushing the Limits of Open Data-efficient Language Model
YuLan-Mini 是一个强调「数据高效」的开源小型语言模型,在有限算力与数据条件下通过精细的训练方法与开放数据逼近更强性能。它为资源受限场景下训练高性价比模型、以及可复现的开源研究提供了实用范例。
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention
该工作提出「推理时跨语言干预」方法,在不重新训练的前提下,于推理阶段对模型内部表示进行干预,弥合大模型在不同语言间的能力差距,提升低资源语言的表现。对需要支持多语言、尤其是小语种应用的从业者具有直接价值。
Plug-in and Fine-tuning: Bridging the Gap between Small Language Models and Large Language Models
该工作提出「即插即用+微调」框架,旨在弥合小语言模型与大语言模型之间的能力差距。通过将小模型作为可插拔模块与大模型协同,并辅以针对性微调,在保持低成本的同时提升下游表现。对从业者而言,这提供了一条在算力受限场景下复用小模型、逼近大模型效果的实用路径。
Enhancing Transformers for Generalizable First-Order Logical Entailment
研究如何增强 Transformer 在一阶逻辑蕴含上的可泛化推理能力,关注模型对未见过的逻辑结构进行正确推断的能力。核心贡献在于改进架构或训练方式,使其在组合性与分布外的逻辑推理上更稳健。对需要严谨符号推理的从业者而言,有助于构建更可靠的逻辑推断系统。
Self-Taught Agentic Long Context Understanding
提出自学式(self-taught)的智能体长上下文理解方法,让模型通过自我生成与训练数据来提升对长文本的处理与理解能力。亮点在于以 Agent 方式自主迭代、减少对人工标注长上下文样本的依赖。对从业者而言,为长文档问答与长上下文应用提供了低标注成本的增强方案。
Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training
提出敏感度丢弃(Sensitivity Dropout,SenD)训练方法,用于在大模型训练阶段抑制幻觉。通过识别并丢弃对输出高度敏感、易引发不稳定的成分,提升生成事实可靠性。对从业者而言,这是一种可在训练侧降低幻觉、增强模型可信度的实用正则化手段。
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
OS-Genesis 通过「反向任务合成」自动构建 GUI 智能体的操作轨迹数据:先在界面中探索交互,再反推出对应任务与轨迹,从而生成高质量训练样本。亮点是摆脱对人工标注轨迹的依赖,大幅扩展 GUI Agent 的训练数据。对从业者而言,为构建图形界面自动化智能体提供了高效的数据生产方案。
CORAL 面向推测解码(speculative decoding),通过在多步训练中学习一致的表示,并采用更轻量的推测起草模型(drafter),在保持加速效果的同时降低草稿模型开销。亮点在于跨训练步表示一致性与轻量化设计的结合。对从业者而言,有助于以更低成本实现大模型推理加速。
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent
GUI-explorer 让 GUI 智能体自主探索界面,挖掘具有「状态转移感知」的知识,理解操作前后界面状态的变化规律。亮点是无需人工先验即可自动积累可迁移的交互知识,提升智能体在陌生界面中的决策能力。对从业者而言,为构建自适应、低人工干预的 GUI 自动化智能体提供了新思路。
P$^2$ Law: Scaling Law for Post-Training After Model Pruning
提出 P² 定律,刻画模型剪枝后再进行后训练(post-training)的扩展规律,揭示后训练效果与模型规模、剪枝程度等因素的定量关系。亮点在于为「剪枝+恢复训练」提供可预测的缩放法则指导。对从业者而言,可据此预估剪枝模型恢复性能所需的训练投入,优化压缩与训练资源分配。
Lost in the Context: Insufficient and Distracted Attention to Contexts in Preference Modeling
该工作针对偏好建模中模型对上下文「注意力不足且易被干扰」的问题展开研究,揭示了奖励模型在处理上下文时关注度稀薄、易被无关信息分散的缺陷,并提出相应的诊断与改进思路。对从业者而言,它点明了RLHF奖励建模阶段一个被忽视的薄弱环节,有助于提升对齐质量与偏好判别的可靠性。
Enhancing Multimodal Continual Instruction Tuning with BranchLoRA
提出BranchLoRA方法用于多模态持续指令微调,通过分支化的低秩适配结构在不断学习新任务时缓解灾难性遗忘并提升参数效率。对从业者而言,它给出了在多模态大模型上做增量学习的轻量化方案,可在有限算力下持续扩展模型能力而不重训。
Towards Effective and Efficient Continual Pre-training of Large Language Models
该研究面向大语言模型的持续预训练,探索如何在引入新数据时兼顾效果与效率,平衡新知识获取与旧能力保持。对从业者而言,它为在已有基座模型上低成本注入领域或时效数据提供了方法参考,避免从零预训练的高昂代价。
X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents
X-TURING提出了一种增强且高效的图灵测试框架,专门用于评估长期对话智能体在长程交互中的拟人化与一致性表现。对从业者而言,它填补了长期对话Agent缺乏可靠评测基准的空白,有助于衡量记忆、人设连贯与对话质量。
Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models
提出面向多模态大模型「遗忘学习」的模态感知神经元剪枝方法,通过定位并裁剪与待遗忘知识相关的特定模态神经元来实现可控遗忘。对从业者而言,它为多模态场景下的隐私合规与有害知识移除提供了精细化、低损伤的技术手段。
ReLearn: Unlearning via Learning for Large Language Models
ReLearn提出「以学促忘」的范式,通过引入新的学习目标而非单纯抑制来实现大语言模型的知识遗忘,在删除目标信息的同时更好地保持模型整体能力与流畅度。对从业者而言,它缓解了传统遗忘方法导致模型性能崩坏的问题,更适合实际部署中的合规性需求。
UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models
UAlign利用不确定性估计来进行大语言模型的事实性对齐,通过量化模型对自身回答的置信度来引导其更准确地表达已知与未知,从而减少幻觉。对从业者而言,它提供了一条借助不确定性信号提升事实可靠性、抑制编造的对齐路径。
HoH构建了一个动态基准,用于评估过时信息对检索增强生成(RAG)的影响,揭示了当检索到陈旧或失效内容时模型输出准确性受到的损害。对从业者而言,它指出了RAG系统中知识时效性这一关键风险,并为构建抗过时信息干扰的检索流程提供了评测工具。
Uncertainty Propagation on LLM Agent
该研究探讨在 LLM 智能体(Agent)的多步推理与工具调用链路中如何对不确定性进行建模与传播。核心贡献是把单步预测的置信度沿决策链路逐步累积、追踪,从而量化最终输出的可靠性。对从业者而言,这有助于在 Agent 工作流中识别高风险环节、设置可信度阈值与人工介入点。
Beyond Position: the emergence of wavelet-like properties in Transformers
论文发现 Transformer 在训练后会自发涌现出类似小波(wavelet)的特性,即模型在不同尺度上同时编码位置与频率信息,超越了传统位置编码的视角。核心亮点是从信号处理角度重新解释注意力机制对序列结构的捕捉方式。对从业者而言,这为设计更高效的位置表示和长序列建模提供了新的理论依据。
该工作系统性地测试 LLM 隐藏状态中是否真正编码了事实性信息,探究依靠内部表征判断真假陈述能力的边界。核心发现是隐藏状态的事实编码能力存在明显局限,并非可靠的真实性探针。对从业者而言,这提醒不要过度依赖探针(probing)方法做幻觉或事实性检测。
Disentangling Biased Knowledge from Reasoning in Large Language Models via Machine Unlearning
论文提出借助机器遗忘(Machine Unlearning)将模型中的偏见知识从推理能力中剥离,在删除有偏内容的同时尽量保留正常推理表现。核心贡献是把去偏问题转化为定向遗忘任务,实现知识与推理的解耦。对从业者而言,这提供了一条在不全量重训的前提下缓解模型偏见的可行路径。
HD-NDEs: Neural Differential Equations for Hallucination Detection in LLMs
HD-NDEs 提出用神经微分方程(Neural Differential Equations)对 LLM 隐藏状态的连续演化轨迹建模,以此检测幻觉。核心亮点是把离散的逐层/逐 token 表征视为连续动力系统,从轨迹动态中捕捉异常信号。对从业者而言,这为幻觉检测提供了比静态探针更细粒度、更具动态视角的工具。
NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering
NeuSym-RAG 是一种面向 PDF 问答的混合神经-符号检索框架,结合多视角结构化(文本、表格、版面等)来增强证据召回。核心贡献是把神经向量检索与符号化结构查询融合,提升对复杂文档的精准定位能力。对从业者而言,这对构建处理科研论文、报告等结构化 PDF 的 RAG 系统很有参考价值。
CoT-based Synthesizer: Enhancing LLM Performance through Answer Synthesis
该工作提出基于思维链(CoT)的合成器,将多个候选答案或多次推理结果综合成更优的最终答案。核心亮点是用一个专门的合成步骤聚合并校正不同推理路径,从而提升整体性能。对从业者而言,这是一种无需重训、在推理阶段即可提升 LLM 输出质量的实用策略。
Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks
论文评估 LLM 在推理任务中对方言(如非标准英语变体)的公平性与鲁棒性,揭示模型在不同方言输入下表现存在差距。核心贡献是量化方言偏差并指出其对推理准确率的负面影响。对从业者而言,这强调了在部署面向多样化用户群体的应用时需关注语言公平性与稳健性。
Adaptive Retrieval Without Self-Knowledge? Bringing Uncertainty Back Home
该研究探讨自适应检索增强(RAG)中何时触发检索的核心问题,主张把「不确定性」重新作为判断依据,而非单纯依赖模型的自我认知能力。其贡献在于揭示自我认知信号不可靠,转而用不确定性估计来决定是否检索。对从业者而言,这能在保证答案质量的同时减少不必要的检索调用,降低成本与延迟。
Evaluating Language Models as Synthetic Data Generators
该工作系统评估了语言模型作为合成数据生成器的能力,比较不同模型在生成训练数据时的质量与效果差异。核心贡献是建立了一套针对合成数据生成能力的评测框架与结论。对从业者而言,这为在数据稀缺场景下选择合适模型来造数提供了实证参考。
Can Graph Descriptive Order Affect Solving Graph Problems with LLMs?
该研究考察图结构问题的描述顺序是否会影响大模型求解图论问题的表现,揭示输入呈现方式对推理结果的敏感性。其贡献在于指出描述顺序这一被忽视的提示因素会显著左右模型表现。对从业者而言,提醒在用大模型处理结构化推理任务时需关注输入排布与提示工程。
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs
GIFT-SW 提出对大模型中的显著权重注入高斯噪声进行微调的方法,只针对关键权重做带噪训练以提升效率与鲁棒性。核心亮点是聚焦显著权重并用噪声注入实现参数高效微调。对从业者而言,这提供了一种在降低训练开销的同时保持甚至增强模型表现的微调思路。
Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models
该工作提出「不可解问题检测」任务,用于评测大型多模态模型在面对无法回答的问题时能否稳健识别并拒答,而非强行编造。核心贡献是构建了考验模型自知与鲁棒理解能力的新评测基准。对从业者而言,这有助于衡量多模态模型在真实部署中的可靠性与幻觉抑制能力。
AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models
AlignMMBench 是面向中文场景的多模态对齐评测基准,专门评估大型视觉语言模型在中文环境下与人类意图的对齐程度。核心贡献是填补了中文多模态对齐评测的空白并提供系统化测试集。对从业者而言,这为开发与选型中文视觉语言模型提供了关键的本土化评测工具。
TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback
TLCR 针对 RLHF 中偏好标签只在序列级标注、奖励信号过于粗粒度的问题,提出词元级连续奖励:训练判别器为每个 token 给出正负偏好的连续置信度作为细粒度奖励。该方法在指令对齐与生成质量上优于序列级奖励基线,帮助从业者更精准地定位并优化生成中的好坏片段。
📖 阅读⬇ PDFAn Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models
这是一项关于多模态大模型(MLLM)参数高效微调的系统性实证研究:在统一框架下对比 LoRA、Adapter、Prompt 等多种 PEFT 方法在不同模块、连接器与数据规模下的表现。研究给出了哪种方法适配哪类场景的经验结论,为多模态模型在有限算力下的高效微调提供了实践参考。
📖 阅读⬇ PDFLayer-Condensed KV Cache for Efficient Inference of Large Language Models
Layer-Condensed KV Cache 通过将多个连续的Transformer层共享同一组 KV 缓存,大幅削减缓存冗余,从而降低汇总内存占用。该方法在标准模型上仅需少量微调即可适配,实现了几近无损的推理质量与显著的内存节约。对于追求高吞吐、低成本部署大语言模型的工程团队,它提供了一种简单有效的层间复用范式,直接减少显存瓶颈。
📖 阅读⬇ PDFDoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution
DoRA 针对 LoRA 各层固定秩、参数预算分配不合理的问题,提出动态秩分布:将增量矩阵拆为多个秩一组件并引入重要性评分,剪枝低贡献组件以把秩预算自适应地分配给更需要的层。在相同参数量下取得更优效果,帮助从业者更高效地利用有限的微调预算。
📖 阅读⬇ PDFAFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models
AFLoRA 提出一种自适应冻结的低秩适配方法:在 LoRA 的低秩分支训练过程中,依据可学习的冻结指标逐步冻结那些已趋于稳定的投影矩阵,从而进一步减少可训练参数与计算开销。它在保持甚至提升下游精度的同时降低了微调成本,对需要在有限资源下高效微调大模型的从业者很有价值。
📖 阅读⬇ PDFChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition
提出ChunkAttention,一种面向多租户大模型服务的高效自注意力机制,引入前缀感知KV缓存和两阶段划分来减少长序列推理的计算与显存开销。该方法能显著降低长文本场景下的延迟,为LLM在线推理部署提供重要的优化思路。
📖 阅读⬇ PDFMini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning
论文提出 Mini-Ensemble 低秩适配器(MELoRA):用多个更小的低秩适配器构成的迷你集成来替代单个 LoRA,在保持总体可训练参数量很低的同时获得更高的等效秩与更强的表达能力。它以几乎不增加成本的方式提升了 PEFT 的精度,为追求性价比的微调实践提供了新选择。
📖 阅读⬇ PDFParameter-Efficient Fine-Tuning without Introducing New Latency
提出一种在推理阶段不引入额外延迟的参数高效微调(PEFT)方法,通过设计可在部署时与原始权重融合的适配模块,使微调后的模型推理速度与原始预训练模型完全一致。其核心贡献在于解决了多数PEFT方法(如Adapter)会增加前向计算开销的痛点。对从业者而言,这意味着可在不牺牲在线服务延迟的前提下享受PEFT的省参优势。
📖 阅读⬇ PDFLoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning
LoRAPrune将结构化剪枝与低秩适配(LoRA)相结合,提出基于LoRA梯度的重要性评估准则,在微调的同时对LLaMA、T5等大模型进行高效剪枝。其亮点是无需对完整权重计算梯度即可完成剪枝,大幅降低剪枝所需的显存与算力。对从业者而言,可在低成本微调流程中同步获得更小、更快的模型。
📖 阅读⬇ PDFAutoPEFT: Automatic Configuration Search for Parameter-Efficient Fine-Tuning
AutoPEFT提出对参数高效微调进行自动化配置搜索,借助贝叶斯优化等手段在多种PEFT模块及其超参的组合空间中自动寻优,免去人工调参。其亮点是以较低搜索成本找到性能与参数量更优平衡的配置。对从业者而言,降低了为不同下游任务挑选最佳PEFT方案的门槛。
📖 阅读⬇ PDFBitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models
BitFit提出一种极简稀疏微调方法,仅更新Transformer模型中的偏置项(bias)而冻结其余全部参数,在中小规模数据上即可达到接近全量微调的效果。其贡献是以极少的可训练参数揭示了偏置项在适配下游任务中的关键作用。对从业者而言,提供了一个实现简单、存储开销极低的微调基线。
📖 阅读⬇ PDFApple 33 条
BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning
提出了「BalCapRL」平衡框架,将强化学习应用于多模态大模型的图像字幕生成任务,解决多目标优化中的不平衡问题。通过引入奖励平衡策略,提升了字幕质量与多样性,对MLLM下游任务开发者有参考意义。
📖 阅读⬇ PDFRVPO: Risk-Sensitive Alignment via Variance Regularization
提出了「RVPO」风险敏感对齐方法,利用方差正则化处理多目标奖励聚合中的约束忽视问题。该方法在保持奖励均值的同时降低高风险波动,为RLHF安全对齐提供了新工具。
📖 阅读⬇ PDFReinforced Agent: Inference-Time Feedback for Tool-Calling Agents
提出了「Reinforced Agent」框架,在工具调用智能体推理过程中注入实时反馈,优化工具选择与参数精度。该方法突破了事后评估的限制,提升了Agent在动态执行中的适应性。
📖 阅读⬇ PDFGovernance-Aware Agent Telemetry for Closed-Loop Enforcement in Multi-Agent AI Systems
构建了治理感知的智能体遥测系统,实现多Agent AI系统的闭环执行管控。通过整合可观测性数据与治理策略,从被动监控转向主动施加约束,适合企业级多智能体部署场景。
📖 阅读⬇ PDFMapping the Design Space of User Experience for Computer Use Agents
该论文系统梳理了基于大模型的「电脑操作智能体」(computer use agent)的用户体验设计空间,聚焦用户对这类代理的交互期望与偏好。核心贡献是绘制出一张完整的设计空间图谱,为从业者打造更贴合用户需求的 Agent 交互界面提供指引。
📖 阅读⬇ PDFEntropy-Preserving Reinforcement Learning
提出了熵保持强化学习算法,在策略梯度更新中显式维持策略熵,避免过早收敛。该方法提升了语言模型推理中的探索多样性,对强化学习驱动的推理改进有直接帮助。
📖 阅读⬇ PDF提出专属自注意力机制(XSA),通过约束注意力范围改进Transformer序列建模性能。这是一种简单的注意力修改,能直接提升模型效果。从业者可低成本替换标准自注意力以增强模型能力。
📖 阅读⬇ PDFMultilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments
扩展推理环境至14种语言,过程化生成可验证的推理问题。通过模板翻译实现多语言覆盖,为多语言推理训练提供标准化基准。对多语言模型评估和跨语言推理研究有重要意义。
📖 阅读⬇ PDFEncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
提出 EncQA 基准,专门评估视觉语言模型在图表「视觉编码」上的理解与推理能力。研究发现当前模型在图表理解上的进步并未覆盖所需视觉推理的完整广度,存在明显短板。对从业者而言,它揭示了现有图表理解基准的局限,可指导未来模型在视觉推理方向的针对性改进。
📖 阅读⬇ PDFAgentBuilder: Exploring Scaffolds for Prototyping User Experiences of Interface Agents
探索为生成式AI界面代理设计用户体验原型的方法论。通过脚手架工具支持快速迭代代理交互体验。对AI代理产品化和人机交互设计有指导意义。
📖 阅读⬇ PDFPolicy Maps: Tools for Guiding the Unbounded Space of LLM Behaviors
提出「政策地图」(Policy Maps)工具,把抽象的AI政策边界映射到大语言模型的具体行为空间,用以引导其几乎无界的行为可能性。它为定义和评估LLM行为的可接受范围提供了系统性方法,对AI安全与治理实践具有重要价值。
📖 阅读⬇ PDFScaling Synthetic Task Generation for Agents via Exploration
提出通过探索自动缩放合成任务生成的方法,用于后训练多模态大语言模型(MLLM)构建交互代理。核心贡献在于利用探索机制生成多样化训练任务,降低人工标注成本,提升代理能力。对从业者而言,有助于更高效地训练和扩展智能体应用。
📖 阅读⬇ PDFBED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
提出基于贝叶斯实验设计框架(BED-LLM)的通用方法,增强大语言模型(LLM)从用户或外部来源智能、自适应收集信息的能力。该工作将贝叶斯最优实验设计与LLM推理相结合,提升信息获取效率。对从业者重要,可应用于对话系统、问答和主动学习等场景。
📖 阅读⬇ PDFLanguage Models Improve When Pretraining Data Matches Target Tasks
研究预训练数据与目标任务匹配对语言模型性能的影响,指出数据选择方法隐含目标且常通过基准迭代形成。核心贡献是验证当预训练数据分布接近下游任务时模型提升显著。对从业者重要,指导更高效的数据选择策略以减少训练成本。
📖 阅读⬇ PDFApple Intelligence Foundation Language Models: Tech Report 2025
Apple发布两个多语言多模态基础语言模型,驱动Apple Intelligence功能:一个30亿参数的设备端模型针对Apple Silicon优化,另一个更大模型用于云端。核心亮点是兼顾性能与隐私,实现设备端高效推理。对从业者重要,展示了大公司在边缘部署与多模态融合的最新实践。
📖 阅读⬇ PDFRATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models
研究局部-全局注意力模型中最优滑动窗口大小的选择问题,提出RATTENTION方法以找到最小有效窗口。核心贡献是减少无效上下文计算,提升训练和推理效率。对从业者重要,可优化Transformer在长序列任务中的资源开销。
📖 阅读⬇ PDF深入探究token结构对3D场景理解中多模态大语言模型(MLLM)性能的影响,对比不同3D点云分词方法。核心贡献是揭示点云token化方式对LLM理解3D信息的决定性作用。对从业者重要,为3D场景理解与语言模型融合提供指导。
📖 阅读⬇ PDFMultimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation
提出Multimodal Mamba,一种仅解码器的多模态状态空间模型,通过二次到线性蒸馏将注意力机制的二次复杂度降为线性。显著降低多模态大模型的KV缓存需求与推理延迟,提升部署效率。
📖 阅读⬇ PDF提出蒸馏缩放定律(Distillation Scaling Laws),预测给定计算预算及学生-教师分配下的蒸馏模型性能。为合理分配训练资源、降低蒸馏风险提供理论指导。
📖 阅读⬇ PDF提出相互增强数据合成方法(MRDS),让大语言模型在少样本对话摘要任务中同时提升对话合成与摘要能力。无需外部知识,仅靠模型内部相互增强即可生成高质量训练数据。
📖 阅读⬇ PDFM2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
提出M2R2(混合多速率残差)方法,针对自回归Transformer中静态残差导致次优效率的问题,为不同token动态分配不同速率的残差变换。在不牺牲表现力前提下加速推理。
📖 阅读⬇ PDFParameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
研究混合专家语言模型中参数量与FLOPs对性能的影响,提出最优稀疏性缩放定律。指导在给定计算预算下如何平衡模型容量与计算成本,提升MoE模型的效率。
📖 阅读⬇ PDFSTIV: Scalable Text and Image Conditioned Video Generation
本文提出STIV,一种可扩展的文本和图像条件视频生成框架。核心贡献在于提供清晰、系统的配方来构建稳健的视频生成模型。对从业者而言,该框架有助于更高效地开发高保真、条件可控的视频生成系统。
📖 阅读⬇ PDF研究移动UI操作对系统、数据和安全的影响,提出评估框架理解AI Agent操作后果。通过分析操作因果链,提升Agent在真实环境中的安全性,对构建可信自主代理至关重要。
📖 阅读⬇ PDFTIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights
提出TIS-DPO方法,在直接偏好优化中引入Token级重要性采样,为每个token赋予自适应权重,更精细地对齐模型偏好。解决DPO忽视序列内部差异的问题,提升对齐效率和效果。
📖 阅读⬇ PDFDo LLMs "know" internally when they follow instructions?
探索大语言模型在指令遵循过程中内部表征是否感知到自身行为,通过分析模型内部状态揭示其自我意识程度。理解这种内在机制有助于构建更可靠、可解释的AI Agent。
📖 阅读⬇ PDFDuo-LLM: A Framework for Studying Adaptive Computation in Large Language Models
提出Duo-LLM框架,研究大语言模型的自适应计算,通过早期退出和条件计算优化资源利用。核心贡献是减少固定计算预算导致的效率浪费,帮助从业者降低推理成本。
📖 阅读⬇ PDFTheory, Analysis, and Best Practices for Sigmoid Self-Attention
系统分析Sigmoid自注意力的理论原理、训练技巧和最佳实践,替代传统softmax注意力。提供可操作的指导,帮助从业者在Transformer架构中选用更稳定的注意力机制。
📖 阅读⬇ PDFTowards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
提出以数据为中心的RLHF方法,用简单指标比较偏好数据集的质量和多样性。核心亮点在于量化评估数据对对齐效果的影响,指导从业者更高效地收集和筛选偏好数据。
📖 阅读⬇ PDF构建ToolSandbox,一个有状态、对话式、交互的大语言模型工具使用能力评估基准。覆盖多轮交互和复杂场景,帮助从业者全面评测LLM调用工具的鲁棒性和准确性。
📖 阅读⬇ PDFApple Intelligence Foundation Language Models
苹果发布了用于 Apple Intelligence 的基础语言模型,包括一个约 30 亿参数的设备端模型和一个大型服务器模型。核心贡献是实现了设备端高效运行,非常适合移动端部署。这对从业者展示了在移动设备上部署大语言模型的可行性和优化方向。
📖 阅读⬇ PDFSynthetic Query Generation using Large Language Models for Virtual Assistants
利用大语言模型为虚拟助手生成多样化合成查询,改进语音识别系统的查询先验,从而提升检索性能。对虚拟助手的信息检索和语音交互设计具有实际应用价值。
📖 阅读⬇ PDFTalaria: Interactively Optimizing Machine Learning Models for Efficient Inference
提出Talaria,一个交互式优化工具,帮助开发者将机器学习模型适配到资源受限的设备端。核心贡献在于通过迭代优化平衡模型性能与隐私保护。对从业者:可快速降低模型部署门槛,提升端侧推理效率。
📖 阅读⬇ PDFarXiv 10 条
End-to-End Context Compression at Scale
本文提出一种端到端上下文压缩方法,解决长上下文语言模型推理中KV缓存随上下文长度线性增长带来的内存瓶颈。相较于现有压缩技术常导致模型质量明显下降,该方法能在不损失性能的前提下实现大规模压缩,对部署高效长上下文推理服务至关重要。
📖 阅读⬇ PDFLearning, Fast and Slow: Towards LLMs That Adapt Continually
本文探讨大模型通过参数更新(如RL)适应下游任务时出现的灾难性遗忘问题,提出借鉴「快思考与慢思考」的双系统机制,让模型既能快速吸收新任务又能保留旧知识。核心贡献在于设计了持续适应框架,可能结合记忆回放或动态模块,对需长期部署和持续学习的模型有重要参考价值。
📖 阅读⬇ PDFUnlocking the Working Memory of Large Language Models for Latent Reasoning
该研究提出利用大语言模型的工作记忆进行潜在推理,无需显式生成中间token即可完成推理过程,从而解耦推理与自回归生成。这一方法提升了推理效率,为测试时计算扩展提供了新范式,有助于从业者降低推理延迟与计算成本。
📖 阅读⬇ PDFDive into Claude Code: The Design Space of Today's and Future AI Agent Systems
本文深入解析智能编码工具 Claude Code 的综合架构,展示其执行 Shell 命令、编辑文件与调用外部服务的能力。研究勾勒出当前及未来 AI Agent 系统的设计空间,对构建编码智能体的从业者参考价值很高。
📖 阅读⬇ PDF本文提出GFT方法,统一监督微调(SFT)与强化学习(RL),通过无偏组优势估计和动态系数校正实现从模仿到奖励的平滑过渡,解决知识注入与泛化能力的平衡问题。核心贡献在于设计了无偏的组优势函数,避免优势估计偏差,并动态调整SFT与RL损失系数,提升训练稳定性。对从业者而言,该方法为高效融合SFT和RL提供了一个实用框架,有望在对话、推理等应用中兼顾准确性与创造性。
📖 阅读⬇ PDFXSkill: Continual Learning from Experience and Skills in Multimodal Agents
本论文提出XSkill方法,让多模态智能体通过持续学习从经验和技能中提升,解决开放场景下工具使用低效和编排不灵活的问题。核心贡献在于实现智能体的自适应技能积累与灵活任务编排。对从业者而言,该工作有助于构建更高效、更鲁棒的多模态自主agent系统。
📖 阅读⬇ PDF提出PRISM方法,通过意图人格路由在提升大模型与用户对齐的同时缓解人格提示带来的准确性下降。这一方法对多智能体系统和个性化对话场景尤为关键,帮助从业者在保持角色风格时兼顾输出质量。
📖 阅读⬇ PDFMemento-Skills: Let Agents Design Agents
提出Memento-Skills,一个通用且可持续学习的LLM智能体系统,充当「智能体设计智能体」。它能自主构建、适配并改进面向特定任务的技能智能体,实现技能的动态演化。此举显著降低人工设计多智能体的成本,为构建自适应、自我进化的AI应用提供了关键范式。
📖 阅读⬇ PDFSkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
本文提出 SkillsBench,一个用于衡量大语言模型代理技能(Agent Skills)跨不同任务有效性的基准。核心贡献是首个标准化评估方法,解决了现有缺乏统一衡量标准的问题。对从业者而言,该基准有助于选择与改进代理技能,提升推理时增强效果。
📖 阅读⬇ PDFRouter Upcycling: Leveraging Mixture-of-Routers in Mixture-of-Experts Upcycling
提出「路由器升级」(Router Upcycling)方法,在混合专家模型升级过程中引入混合路由器机制,以提升训练效率和任务性能。核心贡献在于通过改进路由器设计,使升级后的MoE模型能更灵活分配资源,对从业者而言可降低大模型训练成本并提升效果。
📖 阅读⬇ PDFAWS 7 条
Introducing Web Search on Amazon Bedrock AgentCore
亚马逊 Bedrock AgentCore 的 Web Search 功能正式可用(GA),让开发者用几行代码为智能体接入网页搜索能力。对在 AWS 上构建 Agent、需要联网检索工具的从业者有实用价值。
Accelerate campaign workflow with insights from Adobe Marketing Agent for Amazon Quick
亚马逊展示如何通过「MCP」协议把 Adobe 营销 Agent 接入 Amazon Quick,配置后即可获取受众排名、忠诚度分群、旅程使用与冲突建议等营销洞察。对探索 MCP 驱动跨厂商 Agent 集成的团队,这是一个具体的落地示例。
「AWS」介绍用「SageMaker」细粒度指标与「CloudWatch」上的 Insights 仪表盘监控、调试生成式 AI 推理,重点覆盖单模型端点与推理组件端点两类架构。对在云上做大模型推理服务可观测性的工程师有实用价值。
亚马逊『Bedrock AgentCore Runtime』正式商用,仅需『CreateHarness』与『InvokeHarness』两个 API 即可在数秒内拉起一个智能体;该智能体运行在带文件系统与 shell 的隔离环境中,支持跨会话记忆、技能加载、网页浏览,并通过 gateway 或『MCP』调用工具。对 Agent 落地与生产化部署有较高价值。
Amazon SageMaker AI Async Inference now supports inline request payloads
AWS 宣布 SageMaker AI 异步推理支持内联请求负载:可直接在「InvokeEndpointAsync」请求体中携带推理数据,免去每次调用前先把输入上传到 S3 的步骤。对在 SageMaker 上做异步推理的工程师,这简化了调用链路、降低了延迟与复杂度。
Get back hours every day with autonomous agents in Amazon Quick
AWS 在 Amazon Quick 中推出可持续自主工作的智能体、帮助排定优先级的活动信息流,以及跨所有数据源一问即得洞察的能力。对关注企业级 Agent 落地的读者,这体现了云厂商把自主智能体嵌入办公数据场景的方向。
Context intelligence for your data and AI agents at scale
AWS 提出面向数据与 AI 智能体的规模化「上下文智能」:把散落在数据湖、数仓、湖仓、数据库与流中的上下文乃至未成文的机构知识,安全地提供给智能体以支撑可信决策。对做企业 Agent 的团队,这点明了上下文供给是可信决策的前提。
DeepSeek 17 条
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
提出DeepSeek-V4系列预览版,包含Pro和Flash两个混合专家(MoE)语言模型。Pro模型总参数量达1.6T但激活仅49B参数,专注于实现百万token级别的高效长上下文推理。
📖 阅读⬇ PDFDeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
开源大模型DeepSeek-V3.2在保持高计算效率的同时,显著提升推理和智能体任务性能。多项关键技术突破使其在开放模型中达到前沿水平,为业界提供高效可部署的基座。
📖 阅读⬇ PDFDeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
提出DeepSeekMath-V2,通过扩展推理规模实现可自我验证的数学推理。核心贡献是结合推理与验证,提升模型可靠性。对从业者重要:有助于构建更可信的数学推理系统。
📖 阅读⬇ PDFInsights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
深入分析大模型扩展中硬件面临的显存、计算效率与互连等瓶颈,并对AI架构进行反思。总结规模化的关键挑战与实践经验,为后续硬件设计和模型训练优化提供了重要参考。
📖 阅读⬇ PDF开源DeepSeek-Prover-V2,专为Lean 4形式定理证明设计,利用强化学习进行子目标分解。通过递归定理证明流水线生成初始化数据,大幅提升了自动形式推理的准确率和效率。
📖 阅读⬇ PDFDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
提出通过强化学习激励大语言模型推理能力的方法,类似思维链提示,显著提升通用推理性能。对从业者来说,它展示了RL在增强LLM推理中的有效性,可用于改进复杂任务处理。
📖 阅读⬇ PDF提出DeepSeek-V3,671B总参数的Mixture-of-Experts语言模型,每个token仅激活37B参数,实现高效推理和低成本训练。对从业者而言,它在保持高性能的同时大幅降低部署成本,适合大规模模型落地。
📖 阅读⬇ PDFDeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
推出DeepSeek-VL2系列视觉语言模型,采用Mixture-of-Experts架构,在DeepSeek-VL基础上实现两大关键升级,提升多模态理解能力。对从业者而言,它展示了MoE在视觉语言模型中的优势,适合高级多模态应用。
📖 阅读⬇ PDF提出DeepSeek-Prover-V1.5开源定理证明语言模型,利用证明助手反馈进行强化学习和蒙特卡洛树搜索,优化训练和推理过程。对从业者而言,它展示了将证明反馈与RL/MCTS结合的思路,有助于自动定理证明研究。
📖 阅读⬇ PDFDeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
开源MoE代码模型DeepSeek-Coder-V2,在代码任务上达到GPT4-Turbo水平。核心贡献:开源高性能代码模型,降低对闭源模型的依赖。对开发者重要:可使用开源模型进行代码生成与补全。
📖 阅读⬇ PDFDeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data
DeepSeek-Prover使用大规模合成数据训练LLM,在Lean证明辅助器中提升定理证明能力。贡献:合成数据方法提升推理准确性和形式化验证。重要:助力形式化数学验证和AI数学研究。
📖 阅读⬇ PDFDeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2是236B总参数、21B激活的MoE语言模型,特点为经济训练和高效推理。贡献:在保持性能同时降低成本。重要:适合资源受限的部署场景。
📖 阅读⬇ PDFDeepSeek-VL: Towards Real-World Vision-Language Understanding
DeepSeek-VL开源视觉语言模型,针对真实场景设计,在三个维度优化。贡献:开源且适合实际应用。重要:可用于多模态任务如图文理解。
📖 阅读⬇ PDFDeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
DeepSeekMath 7B基于DeepSeek-Coder继续预训练,显著提升数学推理能力。贡献:在7B规模上达到顶尖数学推理性能。重要:小模型高效数学推理。
📖 阅读⬇ PDFDeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
DeepSeek-Coder是开源代码大模型,在多种代码任务上表现优异。贡献:开源高性能代码模型,促进研究。重要:推动代码智能发展。
📖 阅读⬇ PDFDeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
提出 DeepSeekMoE 架构,旨在通过更精细的专家专业化来提升混合专家(MoE)语言模型的性能,同时控制计算成本。核心贡献在于设计了一种新的路由和专家分配策略,使每个专家更专注特定知识领域,为从业者提供了更高效率的模型扩展方案。
📖 阅读⬇ PDFDeepSeek LLM: Scaling Open-Source Language Models with Longtermism
探索开源大语言模型的缩放定律,并强调「长期主义」视角下的模型开发策略。研究发现现有缩放结论存在不一致,通过系统性实验为开源社区提供了更可靠的缩放指导,帮助从业者在模型规模与性能间做出最优权衡。
📖 阅读⬇ PDFEMNLP 7 条
PARA: Parameter-Efficient Fine-tuning with Prompt-Aware Representation Adjustment
PARA 提出一种提示感知的表示调整方法,在每个 Transformer 模块内嵌入轻量向量生成器,根据输入提示动态产生调整向量来引导隐藏表示。相比 LoRA,它兼顾推理效率与效果,且不像软提示那样占用输入序列长度,对追求低开销定制化的工业部署很有价值。
📖 阅读⬇ PDF提出TokenSelect方法,通过动态逐token选择KV缓存,实现LLM高效长上下文推理与长度外推,有效缓解显存与性能下降问题,为长序列LLM部署提供新优化思路。
📖 阅读⬇ PDFLOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
LOOK-M 针对多模态大语言模型长上下文推理中 KV 缓存膨胀问题,提出「只看一次」的优化策略,在推理前向阶段一次性完成多模态 KV 缓存的选择与剪枝。它避免了传统方法反复扫描缓存的开销,极大降低了多模态长上下文的显存和计算消耗。对于部署多模态对话、视频理解等长序列任务的团队,该方法能够显著提升推理效率和可扩展性。
📖 阅读⬇ PDFDemocratizing Large Language Models via Personalized Parameter-Efficient Fine-tuning
该研究面向大模型个性化,提出基于参数高效微调的个性化方案,为每个用户学习轻量的专属参数,使模型的交互、内容与推荐贴合个人偏好,同时避免为每位用户全量微调的高昂成本。它为在隐私与算力受限条件下规模化提供个性化 LLM 服务给出了可行路径。
📖 阅读⬇ PDFLoose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback
本文聚焦RLHF中的长度偏置问题,即模型倾向于生成更长回答以骗取更高奖励,并提出相应的缓解机制。它揭示并抑制了奖励模型对回答长度的虚假偏好,使对齐更贴合真实质量。对从业者而言,这能减少冗长输出、提升奖励信号的可靠性。
📖 阅读⬇ PDFOkapi通过RLHF构建多语言指令微调的大模型,将对齐能力从英语扩展到多种语言。它提供了多语言的指令数据与反馈资源,提升非英语场景下的指令遵循能力。对从业者而言,这为开发面向全球用户的多语言对齐模型提供了基础资源与方案。
📖 阅读⬇ PDFLLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models
LLM-Adapters构建了一个面向大模型参数高效微调的适配器框架家族,集成了多种PEFT方法并支持在开源LLM上便捷使用,作为GPT-4、ChatGPT等闭源模型的低成本平替方案。其贡献在于提供统一、易用的工具库与系统性对比实验。对从业者而言,可快速在开源模型上试验和落地多种PEFT技术。
📖 阅读⬇ PDFGoogle 80 条
Accelerating Speculative Diffusions via Block Verification
提出「块验证」机制来加速推测性解码:草稿模型批量生成 token,再用接受-拒绝采样在块级别校验,保证输出与目标模型分布严格一致。在不牺牲生成质量的前提下提升 LLM 推理吞吐,对需要低延迟、高并发部署大模型的工程团队有直接落地价值。
📖 阅读⬇ PDFPrivate Learning with Public Feature Conditioning
研究包含公开非敏感特征的差分隐私(DP)回归问题,这类场景常见于推荐和广告系统。论文提出以公开特征作为条件(public feature conditioning)来改进私有学习,利用非敏感信息降低隐私噪声带来的精度损失,对在隐私约束下构建推荐与广告模型的从业者具有实践意义。
📖 阅读⬇ PDF提出RubricsTree评估框架,用于可扩展且不断演进的开放端评测,衡量基于LLM的个人健康代理在健康记忆与医学技能方面的表现。该框架支持多维度、动态更新的评价标准,对部署医疗对话系统的团队具有重要参考价值,可帮助确保代理的可靠性。
📖 阅读⬇ PDFDo Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval
通过对比研究探讨自主智能体在数据检索中是否需要语义元数据(如schema.org)的支持,实证评估其对检索效率与准确性的影响。研究强调了机器可操作数据对数据驱动工作流的重要性,为从业者设计自主数据系统提供了关键决策依据。
📖 阅读⬇ PDFHow Well Do Models Follow Their Constitutions?
评估前沿AI模型遵循详细书面行为规范(如Anthropic的Constitution和OpenAI的Model Spec)的能力,并探讨后训练阶段集成这些规范的效果。研究系统性地衡量模型对齐程度并揭示现有规范在实际执行中的局限,帮助从业者理解规范设计的有效性并指导对齐技术改进。
📖 阅读⬇ PDF提出用轻量级代理模型近似LLM在SQL中的AI查询评估,实现约100倍的成本与延迟下降。核心贡献是以小模型替代大模型完成查询打分,大幅提升效率。对从业者而言,可显著降低AI查询的部署成本与响应延迟。
📖 阅读⬇ PDFFiner is Better (with the Right Scaling)
本文研究微缩放量化中块大小对 LLM 量化质量的影响,发现配合恰当缩放策略时,更细的块大小能显著降低量化误差。这一结论揭示了块粒度与缩放的协同关系。对从业者而言,为在压缩率与模型性能之间权衡量化参数提供了明确指导。
📖 阅读⬇ PDFChallenges and Research Directions for Large Language Model Inference Hardware
本文剖析大语言模型推理面临的挑战,指出 Transformer 自回归解码使推理与训练在本质上不同,并梳理了相应的硬件设计研究方向。其价值在于把推理瓶颈与硬件需求对应起来。对从业者而言,有助于提升推理效率并降低部署成本。
📖 阅读⬇ PDFAgentic Coding Needs Proactivity, Not Just Autonomy
编码智能体正从内联补全向自主编辑仓库、提交PR等演进,但论文指出仅靠自主性不够,还需主动性。核心贡献是强调主动性在智能编码中的关键作用,提醒从业者构建更有效编码助手时必须考虑主动推理能力。
📖 阅读⬇ PDFHow LLMs Detect and Correct Their Own Errors: The Role of Internal Confidence Signals
本文研究大型语言模型如何利用内部置信信号在无外部反馈的情况下检测并纠正自身错误。核心发现是二阶置信信号在自我纠错中起关键作用,为理解模型内在可靠性提供了新视角。对从业者而言,这有助于设计更鲁棒的模型或借助其自纠错能力提升应用安全性。
📖 阅读⬇ PDFAn Agentic Approach to Metadata Reasoning
提出一种基于 LLM 驱动智能体的元数据推理方法,重点解决多步任务中数据源发现的瓶颈。该方法通过自主代理集成多个数据集,提升对数据相关性的自动推理能力。对构建更高效的数据发现与集成系统具有实践价值。
📖 阅读⬇ PDF提出一种用于个性化物理治疗的多智能体 AI 框架,借助生成式 AI 创建定制训练视频,并实时纠正患者姿势。其核心贡献是解决家庭理疗缺乏个性化监督与动态反馈、依从性差的问题。对康复从业者而言,可自动化提供专业级指导,降低对人工监督的依赖。
📖 阅读⬇ PDFGroupDPO: Memory efficient Group-wise Direct Preference Optimization
GroupDPO提出内存高效的组别直接偏好优化方法,可利用每个提示下的多个正负偏好对进行训练,大幅降低显存占用。它显著提升了偏好优化的数据利用效率。对需要对齐大语言模型的从业者具有重要实用价值。
📖 阅读⬇ PDFLogical Robots: Declarative Multi-Agent Programming in Logica
提出 Logical Robots 平台,使用逻辑编程语言 Logica 以声明式方式定义多智能体机器人行为,并支持交互式仿真。其核心亮点是把声明式编程引入多智能体机器人系统,让复杂行为的设计与验证更简洁、更可解释。对从业者而言,这提供了一种比命令式代码更直观、更易推理的机器人编程范式。
📖 阅读⬇ PDFGenerative AI for Video Trailer Synthesis: From Extractive Heuristics to Autoregressive Creativity
综述了视频预告片生成从启发式提取到深度生成范式的转变。利用生成式AI和自回归模型实现创造性合成。对视频内容创作者和推荐系统从业者,展示AI生成预告片的新可能。
📖 阅读⬇ PDFGenerative UI: LLMs are Effective UI Generators
验证LLM可作为有效的UI生成器,突破传统静态输出限制。提出生成式UI概念,LLM能动态生成交互界面。对前端开发和人机交互从业者,开辟利用LLM直接生成UI的新方向。
📖 阅读⬇ PDFSeekerGym: A Benchmark for Reliable Information Seeking
提出SeekerGym基准,专门评估AI代理在信息寻求任务中的可靠性和可信度。针对深度研究代理等场景,衡量其搜索相关、准确信息的能力。对构建可信AI代理的从业者,提供标准化评估工具。
📖 阅读⬇ PDFDistributional Alignment Games for Answer-Level Fine-Tuning
提出答案级别微调(ALFT)方法,通过分布对齐游戏优化语言模型在最终答案层面的正确性,避免了中间监督的复杂性。对从业者而言,提供了一种更直接、高效的模型微调范式,尤其适用于需要确保输出准确性的应用场景。
📖 阅读⬇ PDFMining Attribute Subspaces for Efficient Fine-tuning of 3D Foundation Models
针对3D基础模型微调中LoRA的局限性以及3D数据固有变异性,本文提出挖掘属性子空间的方法实现高效微调。该方法能利用数据内在结构减少计算开销,对从事3D视觉模型适配的从业者具有实用价值。
📖 阅读⬇ PDFCROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization
大语言模型推理虽提升性能,但带来高延迟和Token消耗。本文提出通过正则化提示优化的Token高效推理技术,在保持质量的同时大幅减少Token使用。对降低LLM部署成本、提升推理速度有直接帮助。
📖 阅读⬇ PDFNext-Token Prediction and Regret Minimization
该论文从理论上研究了如何在对抗性在线决策环境中应用下一个 token 预测算法,建立了将语言模型预训练与在线学习中遗憾最小化(regret minimization)相联系的框架。其贡献在于揭示自回归预测与在线学习的内在关联。对从业者而言,有助于理解语言模型在动态环境下的行为并设计更鲁棒的决策算法。
📖 阅读⬇ PDFOptimizing Small Language Models for NL2SQL via Chain-of-Thought Fine-Tuning
该论文提出通过思维链(CoT)微调来优化小语言模型在 NL2SQL 任务上的表现,并证明小模型经 CoT 微调后可逼近大模型效果。其亮点是显著降低企业部署成本。对从业者而言,这意味着可在资源受限环境中高效实现自然语言转 SQL 的能力。
📖 阅读⬇ PDFTool-MCoT: Tool Augmented Multimodal Chain-of-Thought for Content Safety Moderation
Tool-MCoT 将工具增强与多模态思维链结合,用于内容安全审核,可处理多模态输入并在推理过程中调用外部工具辅助判断。核心贡献是把工具调用嵌入思维链以增强对复杂内容的分析能力。对从业者而言,该方法有望提升多模态内容审核的准确性与鲁棒性。
📖 阅读⬇ PDFNavig-AI-tion: Navigation by Contextual AI and Spatial Audio
提出结合上下文AI与空间音频的步行导航系统,解决纯音频导航中方向感迷失和环境信息缺失的问题。系统通过实时环境感知和空间音频反馈显著降低导航错误,对语音交互和辅助导航设计具有实用价值。
📖 阅读⬇ PDFSpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning
现有3D视觉语言模型(VLM)空间推理能力不足,本文提出SpatialStack框架,通过分层几何与语言融合增强空间理解。该工作提升了VLM在物理AI和具身智能中的可靠性,对机器人导航等场景至关重要。
📖 阅读⬇ PDFReasoning-Driven Synthetic Data Generation and Evaluation
针对专业多模态模型训练数据稀缺问题,本文提出推理驱动的合成数据生成与评估方法,利用语言模型推理产生高质量标注。这为缓解数据困境提供了自动化途径,对需要定制多模态模型的从业者很有价值。
📖 阅读⬇ PDFDialogue to Question Generation for Evidence-based Medical Guideline Agent Development
在快节奏初级医疗中循证医学难以落地,本文提出从医患对话自动生成问题,用于构建基于证据的医疗指南智能体。该方法能辅助医生快速获取决策依据,对医疗AI助手开发具有实用意义。
📖 阅读⬇ PDFA Theoretical Framework for Modular Learning of Robust Generative Models
提出了一个用于模块化学习鲁棒生成模型的理论框架,针对大规模生成模型训练资源密集、依赖启发式数据集加权的痛点。核心贡献是形式化了模块化训练大模型的可行性条件,给出理论保证。对从业者而言,这意味着更高效、更可控、更可组合的模型训练范式。
📖 阅读⬇ PDFLLM Scalability Risk for Agentic-AI and Model Supply Chain Security
探讨大语言模型在智能体AI与模型供应链中的可扩展性安全风险,指出大模型正双向重塑网络安全格局:既增强威胁检测、代码审查等防御能力,也催生新型攻击。对从业者的提醒是,必须同时防范模型供应链安全与自身可扩展性带来的双重风险。
📖 阅读⬇ PDFDi3PO - Diptych Diffusion DPO for Targeted Improvements in Image Generation
提出Di3PO(双联扩散DPO)方法,用于文本到图像扩散模型的高效偏好调优。通过避免昂贵的正负图像对生成,显著降低计算成本的同时提升图像质量,对扩散模型的偏好优化研究有重要价值。
📖 阅读⬇ PDFPrompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning
高级推理常用CoT提示但延迟和成本高,本文提出提示级蒸馏作为微调的非参数替代方案,让小模型直接继承大型模型的推理能力。无需额外微调即可提升推理效率,对资源受限场景的部署非常有益。
📖 阅读⬇ PDFLeveraging ASIC AI Chips for Homomorphic Encryption
本文探讨利用专为AI设计的ASIC芯片来加速同态加密计算,核心贡献是提出一种将同态加密运算映射到ASIC AI芯片的方法,大幅降低计算开销。对从业者而言,这为在云服务中实现高效隐私计算提供了新的硬件加速路径。
📖 阅读⬇ PDFDynamic Cogeneration of Bug Reproduction Test in Agentic Program Repair
该论文提出在智能体程序修复中动态共同生成Bug复现测试,将复现测试与补丁生成进行动态协同,以提升修复验证的准确性。核心价值在于增强自动修复系统的可靠性与效率。对软件工程从业者而言,这有助于优化自动化调试与修复流程。
📖 阅读⬇ PDFThe unreasonable effectiveness of pattern matching
该研究发现,即便把内容词随机替换为无意义字符串,大语言模型仍能理解语言模式,表明模型主要依赖上下文与语法结构而非词汇语义。这一「模式匹配出奇有效」的现象对理解 LLM 的鲁棒性与泛化机制具有重要意义。对于研究模型可解释性和泛化能力的从业者,提供了关于 LLM 真实工作机理的新证据。
📖 阅读⬇ PDFCASE: An Agentic AI Framework for Enhancing Scam Intelligence in Digital Payments
该文提出名为CASE的智能体AI框架,通过自主决策与实时分析增强数字支付中的诈骗情报能力。其核心贡献是把Agent技术引入支付安全领域,为从业者提供了可部署、自动化的反欺诈解决方案,有助于提升风控响应效率。
📖 阅读⬇ PDFTrellis: Learning to Compress Key-Value Memory in Attention Models
Transformer的注意力机制存在二次复杂度和KV缓存持续增长问题。本文提出Trellis新架构,通过学习压缩键值记忆,显著降低存储和计算开销。该工作对优化长序列推理、节省显存有直接工程价值。
📖 阅读⬇ PDFTowards Cross-Modal Backward-Compatible Representation Learning for Vision-Language Models
本文提出跨模态后向兼容表示学习方法,用于解决视觉语言模型升级换代时新旧嵌入向量不兼容、必须对海量数据重新建索引的高昂成本问题。核心贡献是让新模型产出的嵌入直接与旧模型对齐,无需重训旧模型或全量重索引即可平滑升级检索库。对运营大规模图文检索系统、需要频繁迭代模型的从业者尤为重要。
📖 阅读⬇ PDFVeriGuard: Enhancing LLM Agent Safety via Verified Code Generation
提出Veriguard框架,通过验证代码生成增强LLM Agent的安全性,确保在敏感领域(如医疗)中遵守目标和隐私约束。核心贡献是动态验证机制,对AI安全从业者防范Agent行为失控具有重要参考意义。
📖 阅读⬇ PDFLegalSim: Multi-Agent Simulation of Legal Systems for Discovering Procedural Exploits
提出LegalSim多智能体模拟系统,用于发现法律程序中的漏洞,通过原告和被告Agent的对抗性交互揭示规则的可利用性。该工具对法律科技和AI安全研究具有警示价值。
📖 阅读⬇ PDFCoDA: Agentic Systems for Collaborative Data Visualization
提出CODA智能体系统,从自然语言描述自动生成数据可视化,大幅减少数据科学家的手动工作。核心贡献是端到端自动化与协作能力,对数据分析工具从业者有实用价值。
📖 阅读⬇ PDFHEART: Emotionally-Driven Test-Time Scaling of Language Models
提出HEART框架,通过情感驱动的测试时缩放引导语言模型避免重复错误推理模式,提升复杂问题求解质量。对推理优化从业者提供了新的思维链引导策略。
📖 阅读⬇ PDF提出Transformer模型,完全基于注意力机制,摒弃循环与卷积结构,实现高效并行训练与更优性能。该架构成为后续大语言模型的基石。对从业者而言,它是理解和构建现代NLP及大模型系统的必备基础。
📖 阅读⬇ PDF针对交互式数字地图无法回答视觉查询(如入口无障碍性)的局限,提出地理空间AI Agent,直接处理视觉信息实现空间理解。对地图服务和多模态推理从业者有启发。
📖 阅读⬇ PDFScamAgents: How AI Agents Can Simulate Human-Level Scam Calls
提出ScamAgent,利用LLM模拟人类水平的诈骗电话,揭示AI被滥用的风险。对安全研究人员防御社交工程攻击和评估模型安全性具有警示作用。
📖 阅读⬇ PDF提出Plan Tuning后训练方法,使语言模型学习逐步规划以分解复杂问题,显著提升解决能力。对推理增强和后训练策略从业者有直接实用价值。
📖 阅读⬇ PDFHueManity: Probing Fine-Grained Visual Perception in MLLMs
提出Huemanity基准,专门探测多模态大模型的细粒度视觉感知能力,弥补现有基准对细节理解的缺失。对MLLM评估和视觉理解从业者具有重要参考意义。
📖 阅读⬇ PDFDynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling
提出一种无需验证器的推理扩展方法,通过动态和集成采样提升大语言模型性能。核心贡献在于绕过对验证器的依赖,节省计算资源,对模型部署优化有重要意义。
📖 阅读⬇ PDFGeoChain: Multimodal Chain-of-Thought for Geographic Reasoning
介绍GeoChain,一个用于评估多模态大模型地理推理能力的大规模基准,利用146万张Mapillary街景图像。提供细粒度逐步推理测试,推动地理空间AI发展。
📖 阅读⬇ PDFProximal Point Nash Learning from Human Feedback
提出近端点纳什学习(PPN)从人类反馈中学习,避免传统RLHF对偏好结构的过度假设,提高对齐效果。对从业者:改进人类反馈强化学习方法,减少奖励模型偏差。
📖 阅读⬇ PDFSteerable Chatbots: Personalizing LLMs with Preference-Based Activation Steering
提出基于偏好的激活引导方法,使大语言模型能够生成个性化响应,无需重新训练。通过调整模型内部激活来对齐用户软偏好,提升助手定制化体验。
📖 阅读⬇ PDFGating is Weighting: Understanding Gated Linear Attention through In-context Learning
研究门控线性注意力机制,通过上下文学习解释其工作原理,发现门控本质上是权重分配。为线性注意力提供理论基础,有利于高效解码和长序列建模。
📖 阅读⬇ PDF探索通信高效的语言模型训练方法DiLoCo,研究其随规模扩展时的可靠性和鲁棒性规律。解决数据并行中同步瓶颈,为分布式训练减少通信开销提供理论依据。
📖 阅读⬇ PDF提出基于部分奖励的强化学习方法增强Text-to-SQL推理,针对多步骤子任务提供部分奖励信号。提升复杂SQL查询生成的准确性和可解释性。
📖 阅读⬇ PDFSynthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs
提出无需微调百亿级大模型的差分隐私合成文本数据方法,通过轻量级手段生成隐私保护数据。降低数据合成成本,同时保障隐私安全。
📖 阅读⬇ PDFTRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge
将模型微调与思维链推理结合用于LLM-as-a-Judge场景,提升自动文本评估的准确性。通过回归感知微调使模型输出更符合评分标准。
📖 阅读⬇ PDFMulti-Agent Design: Optimizing Agents with Better Prompts and Topologies
提出通过优化提示(prompts)和智能体拓扑结构来设计多智能体系统,使大语言模型在复杂任务中更高效地协作。核心贡献在于将提示设计和拓扑组织作为关键优化维度,对构建可扩展的多智能体应用具有直接指导意义。
📖 阅读⬇ PDFConfidence Improves Self-Consistency in LLMs
提出利用置信度改进自一致性解码方法,在减少采样次数的同时保持推理准确性,显著降低计算开销。这一方法对需要在推理时平衡性能与成本的从业者尤为重要。
📖 阅读⬇ PDFEscaping Collapse: The Strength of Weak Data for Large Language Model Training
分析合成数据训练大语言模型时可能出现的模型崩塌问题,并提出利用弱数据(低质量但多样)来避免退化。强调数据配比和多样性对训练稳定性的关键作用,为数据策略提供新视角。
📖 阅读⬇ PDFAnalyzing Similarity Metrics for Data Selection for Language Model Pretraining
系统比较不同相似度度量在预训练数据选择中的效果,揭示度量选择对数据多样性和质量的影响。帮助从业者更精准地筛选训练样本,提升语言模型预训练效率。
📖 阅读⬇ PDFScaling Embedding Layers in Language Models
提出SCONE方法,通过可扩展的上下文感知N-gram嵌入层增强语言模型性能,同时避免解码阶段的计算增长。核心创新在于离线化与上下文结合,对模型架构优化具有实用价值。
📖 阅读⬇ PDFYETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks
提出Yeti,一个能够在增强现实任务中主动干预的多模态AI智能体,提升人机协作效率。展示了多模态感知与主动决策在AR场景中的潜力,对智能体设计和AR应用开发有启发。
📖 阅读⬇ PDFA Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning
通过电路分析揭示大语言模型在命题逻辑推理(如“A蕴含B”)中使用的内部机制,发现模型存在专门的推理电路。加深了对模型推理能力的理解,为可解释性和推理改进提供基础。
📖 阅读⬇ PDFSufficient Context: A New Lens on Retrieval Augmented Generation Systems
从“足够上下文”角度重新审视检索增强生成(RAG)系统的错误来源,区分因上下文不足导致的错误与生成环节本身的问题。为优化RAG系统的检索策略和上下文利用提供了新框架。
📖 阅读⬇ PDFTowards Understanding the Universality of Transformers for Next-Token Prediction
本文旨在理解Transformer在下一个token预测任务中的通用性。核心贡献是通过理论和实验分析自注意力机制编码因果结构的能力。对从业者而言,该研究揭示了Transformer泛化能力的根源,有助于设计更高效的序列模型。
📖 阅读⬇ PDFPrivacy-preserved LLM Cascade via CoT-enhanced Policy Learning
提出一种隐私保护的LLM级联方法,通过链式思维增强的策略学习来优化端侧大模型的性能,同时保护用户隐私。对从业者而言,该方法在隐私约束下提供了一种平衡效率与效果的实用方案,适用于移动设备等场景。
📖 阅读⬇ PDF提出Astute RAG框架,专门解决检索增强生成中由于检索不完美和知识冲突导致的性能下降问题。通过智能机制处理冲突信息,提升大模型在开放域问答中的可靠性与准确性,对构建健壮RAG系统有重要参考价值。
📖 阅读⬇ PDFTokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
提出Tokenformer架构,将模型参数视为可学习的令牌,从根本上重新思考Transformer的扩展方式。该设计显著降低了参数规模增长时的训练和推理成本,为构建更高效的基础模型提供了新思路。
📖 阅读⬇ PDFA Bayesian Model Selection Criterion for Selecting Pretraining Checkpoints
提出了一个基于贝叶斯模型选择的准则,用于从多个预训练检查点中筛选出最优模型。帮助从业者在迁移学习或微调阶段避免盲目尝试,节省计算资源并提升下游任务性能。
📖 阅读⬇ PDFRacing Thoughts: Explaining Contextualization Errors in Large Language Models
深入分析了大型语言模型在上下文理解中产生的错误(如幻觉或语境误判),并提出「竞速思维」的解释框架。对开发者理解模型内部行为、改进上下文建模和减少错误有直接指导意义。
📖 阅读⬇ PDFLoopTree: Exploring the Fused-Layer Dataflow Accelerator Design Space
论文提出了LoopTree框架,系统探索融合层数据流加速器的设计空间,旨在最小化数据搬运带来的延迟与能耗。其价值在于为DNN硬件设计者提供了权衡计算与通信的高效搜索方法,显著提升能效比。
📖 阅读⬇ PDFScalable Multitask Learning Using Gradient-based Estimation of Task Affinity
本文利用基于梯度的任务亲和度估计实现可扩展的多任务学习,有效缓解任务间干扰。该方法无需大量调参即可动态调整任务权重,对多任务模型训练效率和泛化性能的提升具有实用意义。
📖 阅读⬇ PDFEmBARDiment: an Embodied AI Agent for Productivity in XR
构建了一个面向扩展现实(XR)设备的具身AI智能体,利用大语言模型实现全天候的生产力助手。不同于传统屏幕聊天机器人,它通过感知物理环境并提供主动服务,显著提升用户效率。
📖 阅读⬇ PDF本文综述了大语言模型在高风险领域落地与评估中的实际挑战,包括可信、安全和可观测性问题。总结了从实践中学到的经验教训,为开发者和监管者构建可靠AI系统提供了重要指南。
📖 阅读⬇ PDFPreliminary WMT24 Ranking of General MT Systems and LLMs
发布WMT24通用机器翻译系统的初步自动排名,比较通用MT系统与大型语言模型的表现;官方排名将基于人工评估,此排名仅供参考。对从业者了解当前翻译技术的相对水平有直接参考价值。
📖 阅读⬇ PDFDesigning for Human-Agent Alignment: Understanding what humans want from their agents
研究人类对自主智能体的期望与对齐需求,揭示用户在信任、控制、透明度等方面的关键参数。为构建更符合人类价值观的AI Agent提供了设计原则和实证依据。
📖 阅读⬇ PDF提出CoRAST,利用基础模型在资源受限的CPS和IoT环境中分析具有时空相关性的数据。核心贡献是降低计算开销的同时保留先验知识。对从业者:适用于边缘智能场景,实现高效数据分析。
📖 阅读⬇ PDFAtP*: An efficient and scalable method for localizing LLM behaviour to components
提出AtP*,一种高效可扩展的LLM行为组件定位方法,通过近似计算降低激活修补的扫描成本。核心贡献是大幅提升因果归因效率,同时保持准确性。对从业者:有助于模型调试、压缩和可解释性研究。
📖 阅读⬇ PDFScaling Up LLM Reviews for Google Ads Content Moderation
探讨如何扩展LLM以用于Google Ads内容审核,解决大规模数据集上的推理成本和延迟问题。核心贡献是提出实用策略降低开销而不牺牲审核质量。对从业者:可迁移到其他大规模内容审核系统。
📖 阅读⬇ PDFHow do Transformers perform In-Context Autoregressive Learning?
理论分析Transformer实现上下文自回归学习的内在机制,解释其成功原因。核心贡献是揭示Transformer通过隐式构建参数化模型进行学习。对从业者:为设计更高效Transformer架构提供理论指导。
📖 阅读⬇ PDFMetaMix: Meta-state Precision Searcher for Mixed-precision Activation Quantization
MetaMix提出一种元状态精度搜索方法,用于混合精度激活量化,解决位宽探索中的激活不稳定问题。该方法提升了量化网络的效率,减少了精度损失。对模型压缩和部署具有实用价值。
📖 阅读⬇ PDFHuggingFace 1 条
HF Transformers 发布补丁版 v5.10.4(pypi 上跳过了 5.10.3),修复多处回归、ProcessorMixin 的图像/视频/音频 token id 处理、InternVL 模型问题,并做了与 vLLM 同步的修复。对使用 Transformers 配合 vLLM 推理的开发者是实用维护更新。
ICCV 2 条
Towards Higher Effective Rank in Parameter-Efficient Fine-Tuning Using Khatri-Rao Product
针对 LoRA 低秩更新表达能力受限的问题,提出用 Khatri-Rao 积构造参数更新,从而在相近参数量下获得更高的有效秩。该方法以结构化乘积形式提升微调矩阵的表达能力,弥补低秩约束的不足。对从业者而言,这是一种在保持参数高效的前提下增强微调效果的新型 PEFT 设计。
📖 阅读⬇ PDF针对大视觉语言模型推理中多模态 KV 缓存膨胀问题,AirCache 利用模态间相关性激活压缩策略,选择性保留高相关键值对。该方法在保持多模态理解性能的同时大幅降低缓存开销,推动视觉语言模型落地。
📖 阅读⬇ PDFICLR 165 条
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
「Multi-LCB」将代码评测基准LiveCodeBench扩展至12种编程语言,在维持防污染和自动化评测协议的前提下,构建了首个多语言代码能力基准。该工作填补了大规模跨语言泛化评估的空白,帮助从业者更全面地诊断代码大模型的多语言生成质量。
📖 阅读⬇ PDFDecomposing LLM Computation with Jets
提出Jets方法,将大型语言模型的计算过程分解为可独立解释的功能性「喷流」,以解决训练后计算高度纠缠、难以模块化的问题。核心贡献在于实现了对LLM推理计算的精细化分解与可视化,使内部表征变得可编辑和可控。对于需要理解模型行为、进行安全对齐或模型编辑的从业者,该工作提供了实用的可解释性工具。
Neuron-Aware Data Selection in Instruction Tuning for Large Language Models
针对指令微调中过多数据导致模型性能退化的问题,提出一种考虑神经元响应的数据选择策略,动态挑选对模型关键神经元激活贡献大的样本。核心贡献是将神经元行为分析引入数据筛选,提升了指令微调的数据效率。对LLM微调实践者而言,该方法有助于用更少数据维持甚至提升模型能力,降低计算成本。
FingerTip 20K: A Benchmark for Proactive and Personalized Mobile LLM Agents
提出FingerTip 20K基准,专门评估移动端多模态LLM代理的主动建议与个性化能力,弥补当前代理在用户意图预测和习惯适应方面评估的空白。核心贡献在于构建了包含2万个真实移动交互场景的数据集,为衡量GUI代理的智能水平提供了标准化测试。对移动AI助手开发者意义重大,有助于推动从被动响应到主动服务的演进。
在标准计算机视觉任务上系统评估GPT-4o等多模态基础模型的视觉理解能力,揭示其在低层视觉、中层感知与高层认知各方面的真实水平。核心贡献是提供了严谨的基准测试框架和量化结论,发现模型在复杂场景理解和细节推理上仍有明显短板。对多模态模型开发者和应用者,该研究为模型选型与能力边界判断提供了重要参考。
Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training
发布Common Corpus,目前最大的合规训练数据集,专为大语言模型预训练收集,完全规避版权和隐私风险。核心贡献在于构建了包含数万亿token的全开放、全授权数据集合,为生态提供可安全复现的预训练基础。对关注数据合规与开源生态的从业者,该数据集极大地降低了训练由版权纠纷带来的法律与技术障碍。
Spilling the Beans: Teaching LLMs to Self-Report Their Hidden Objectives
提出教会LLM自我报告隐藏目标的方法,使模型能在被监控时主动揭示其内在追求,从而提升高级智能体系统的安全性。核心贡献在于将隐藏目标检测转化为模型自身可输出的显式信息,改变了以往依赖外部分类器检测的范式。对AI安全和对齐研究人员,该技术为发现并纠正模型潜在有害目标提供了更直接的内省手段。
Q-RAG: Long Context Multi‑Step Retrieval via Value‑Based Embedder Training
提出Q-RAG方法,通过基于价值的嵌入器训练解决长上下文多步检索增强生成问题,使检索模块能根据查询价值自适应地选择多个相关段落。核心贡献在于将多步检索优化为价值感知过程,显著提升开放域问答等任务中长程推理的准确率。对构建复杂RAG系统的开发者,该技术可有效改善多跳推理和长文档处理效果。
From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training
提出音频-语言模型的非自回归联合训练范式,解决语音到语音对话中自回归方法的延迟与误差累积问题。核心贡献是设计同时生成文本与语音的多任务训练,提升流式交互的自然度与效率。对从业者而言,该方向为低延迟语音AI提供了一条新的技术路线。
FrugalRAG: Less is More in RL Finetuning for Multi-hop Question Answering
提出FrugalRAG方法,在多跳问答的RL微调中贯彻「少即是多」,通过精简检索内容而非增加段落来提升小型语言模型的推理表现。核心贡献是发现过度检索会分散奖励信号,并给出高效的数据利用策略。对从业者来说,这为资源受限场景下的RAG微调提供了实用指导。
揭示文本到图像生成中思维链探索与强化学习优化之间的交互机制,并提出熵引导优化方法,使自回归图像生成从宽泛探索平稳过渡到稳定合成。核心贡献在于动态调控生成过程的随机性,兼顾多样性与保真度。该方法为可控图像生成提供了一个新的优化视角。
Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding
针对掩码扩散语言模型解码时对所有位置无差别重算的问题,提出一种动态检测已收敛token并提前停止其计算的方法。核心贡献是显著减少冗余的注意力与前馈计算,加速生成并降低开销。这对部署高效的扩散语言模型推理系统具有重要意义。
构建评估框架以检验LLM搜索智能体在开放域问答中的认知能力,包括是否能够接地、从错误中恢复并进行自我评估。核心贡献是揭示当前RL训练出的智能体在最终答案之外存在认知盲区。这对构建更可信、可纠错的AI搜索系统具有警示与指导价值。
Conditioned Initialization for Attention
提出一种针对注意力机制的条件化初始化策略,利用下游任务或输入条件来设置查询、键、值的投影矩阵初值。核心贡献是改善Transformer训练的收敛速度和最终性能,且实现轻量。该方法为各类Transformer应用提供了一种即插即用的训练加速手段。
StreamingThinker: Large Language Models Can Think While Reading
提出StreamingThinker框架,允许LLM在流式阅读输入的同时逐步进行思维链推理,打破“读完再想”的范式。核心贡献是实现更低的首token延迟,尤其适用于长文本实时交互场景。为需要即时响应的流式应用开辟了新的推理范式。
DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains
提出DeepCompress双奖励策略,动态探索并压缩推理链,以解决大型推理模型的「过度思考」与「思考不足」问题。核心贡献是同时利用答案正确性奖励和推理链简洁性奖励,自适应调节推理深度。这为构建高效且稳健的推理系统提供了实用的训练方案。
HiDrop针对多模态大模型中视觉token导致的二次计算成本问题,提出了层级视觉token削减方案,通过晚注入策略、凹金字塔剪枝和早退机制,在保持模型性能的同时大幅降低计算量。该工作为从业者提供了即插即用的高效推理加速方法,尤其适用于计算资源受限的部署场景。
MergePRAG: Orthogonal Merging of Passage-experts for Multi-hop Parametric RAG
MergePRAG提出一种正交合并多个段落专家(passage-experts)的方法,用于提升多跳参数化检索增强生成的表现。该方法在不干扰原有知识的前提下有效融合多源段落信息,解决了复杂推理中的知识整合难题,对构建高精度知识密集型应用具有实用价值。
Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models
该研究揭示了多模态模型中「生成」与「理解」能力之间的优化困境,分析了二者互斥的根本原因,并提出可能的平衡训练策略。这一洞察为开发者设计兼备强生成与深理解的多模态模型指明了方向,避免片面追求单一指标。
The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss
研究首次揭示预归一化(Pre-Norm)架构在MLLMs中因跨模态规范差异导致视觉信息系统性丢失的隐性偏见,并提供了分析和缓解该问题的途径。该发现有助于从业者重新审视现有架构设计,改进视觉特征利用,从而提升多模态模型的感知准确度。
Exploring Diverse Generation Paths via Inference-time Stiefel Activation Steering
本文提出在推理时通过Stiefel流形上的激活引导来操控语言模型内部表征,从而拓宽生成路径、增加输出多样性。该方法无需重新训练即可缓解模式坍塌,为需要高多样性文本生成(如创意写作、头脑风暴)的应用提供了轻量级解决方案。
FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference
FastFlow利用Bandit推理算法加速流匹配生成模型,通过自适应的去噪步数选择,在维持高保真度的同时显著减少推理时间。这对于需要低延迟实时图像或视频生成的从业者来说,提供了一种不牺牲质量的实用加速方案。
研究发现强化学习微调(RL fine-tuning)能显著增强大语言模型内部神经回路的激活强度和多样性,并解释了其提升模型性能的机理。该结论为从业者采用RL微调提供了理论支撑,有助于更有效地进行模型后训练,优化泛化能力。
Automated Stateful Specialization for Adaptive Agent Systems
该工作提出了自动化状态专业化框架,使智能体系统能持续积累任务专长并进行自适应调整,弥补了静态工作流和每查询优化器之间难以沉淀知识的鸿沟。对构建长期运行、越用越好的自适应智能体系统具有重要实践意义。
Best-of-Infinity: Asymptotic Performance of Test-Time LLM Ensembling
本文研究大模型测试时集成中的多数投票机制,分析当候选数量N趋于无穷(best-of-∞)时的渐近性能极限。核心贡献是给出该极限下的理论边界,揭示集成投票的潜力与约束。对于关注推理阶段提升准确率的从业者,此分析有助于理解集成方法的上限并指导实际部署。
Copy-Paste to Mitigate Large Language Model Hallucinations
引入一种直接「复制粘贴」的策略,从检索到的文档中摘取片段作为生成内容,以缓解检索增强生成中的上下文不忠实问题。该方法简单有效,能显著减少大模型在引用外部知识时产生的幻觉。对追求高可靠RAG应用的从业者,提供了一种低成本、易部署的忠实度提升方案。
Programming by Backprop: An Instruction is Worth 100 Examples When Finetuning LLMs
探索利用指令和规则而非大量示例来微调大模型,提出一种将陈述性指令通过可微程序与反向传播相结合的方法。实验表明一条精心设计的指令可抵百个示例,极大提高了样本效率。对需要低成本定制模型行为的开发者而言,该工作开启了以指令驱动的微调新范式。
全面分析强化学习(RL)在模型合并过程中缓解任务冲突的作用,发现适度的RL训练即可有效调和不同专长模型间的矛盾。研究揭示了「适可而止」的规律,即过长的RL训练可能无益甚至有害。这为多任务模型合并提供了实用的训练策略指导。
TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA
提出TiTok方法,通过对比学习捕捉token级别的过剩知识,将其迁移用于移植LoRA模块,实现高效的跨任务适配。该方法扩展了参数高效微调的重用边界,使LoRA模块能灵活迁移到新任务。对需要频繁微调且保存资源的开发者,提供了一种更灵活的迁移学习工具。
Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion
提出一种融合语音与文本的多模态多语言机器翻译模型,将语音流与离散文本统一建模,具备可扩展的多语言支持。该工作突破了之前多模态翻译仅聚焦图像的局限,显著提升口语翻译及低资源语言场景的表现。为多语言语音翻译应用提供了可行的端到端方案。
Computer Agent Arena: Toward Human-Centric Evaluation and Analysis of Computer-Use Agents
构建了Computer Agent Arena平台,以人机交互任务为核心,动态、自动地评估计算机使用代理的真实能力。该平台克服了静态基准的领域狭隘和污染风险,引入了面向人本视角的度量。对于开发和评测GUI操控代理的团队,提供了一个更贴近真实场景的标准化测试环境。
LS-Merge: Merging Language Models in Latent Space
提出LS-Merge方法,通过在模型的潜在表示空间而非权重空间进行合并,解除了传统方法对架构和尺寸必须相同的要求。这使得异构语言模型的合并成为可能,极大扩展了合并重用的适用范围。对融合不同规模或结构模型的需求,提供了一种突破性的技术路径。
RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents
提出通过可验证情感奖励进行强化学习训练共情智能体,弥补大语言模型在情感智能上的不足。核心贡献是将奖励信号设计为可验证的情感维度,使模型能学习恰当的共情回应。对从业者而言,该方法为构建高EQ的对话和辅助系统提供了新途径。
HardcoreLogic: Challenging Large Reasoning Models with Long-tail Logic Puzzle Games
构建长尾逻辑谜题基准HardcoreLogic,用于挑战大推理模型是否真正掌握推理而非依赖记忆。该方法通过稀有且新颖的谜题暴露模型在分布外泛化上的缺陷。对从业者评估和提升LRM真实推理能力具有重要参考价值。
Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification
提出两步思考框架,在生成答案前先让多模态大模型自我接地验证,以缓解一致性偏差。核心亮点是将验证器扩展至缺乏明确成功标准的开放领域,增强模型对齐。对可靠多模态应用开发有重要意义。
Meta-RL Induces Exploration in Language Agents
利用元强化学习诱导语言智能体在长程多步环境中主动探索,避免策略过早收敛到次优解。该方法通过学习如何探索来提升对新任务的适应能力。为LLM智能体增强自主探索提供了新的训练范式。
Micro-Macro Retrieval: Reducing Long-Form Hallucination in Large Language Models
提出微-宏观检索策略,在长文本生成时结合细粒度与粗粒度检索,减少冗余并抑制幻觉。通过多粒度上下文管理提升事实准确性与生成流畅度。为检索增强生成在长文本场景的实际部署提供高效方案。
引入免训练的空时池化和网格化方法增强视频大模型中的视觉token表示,在不增加训练成本下有效压缩并保留时空信息。该方法即插即用,显著降低计算开销。为高效视频理解提供了轻量级解决方案。
ProxyAttn: Guided Sparse Attention via Representative Heads
提出ProxyAttn,利用代表性头动态估计块重要性从而引导稀疏注意力计算,突破注意力二次复杂度瓶颈。方法在保证关键信息保留的前提下加速长文本推理。为LLM在长上下文场景的效率优化提供了新思路。
LightMem: Lightweight and Efficient Memory-Augmented Generation
设计轻量记忆模块LightMem,使大语言模型高效利用历史交互信息,提升动态复杂环境下的响应质量。以较低开销实现记忆增强生成,改善对话一致性和上下文理解。对对话系统和交互式AI的实用化发展有直接推动。
TRAC: Tensor-Train based Across-layer Compression for Parameter-Efficient Fine-Tuning
提出基于张量训练(Tensor-Train)分解的跨层参数压缩方法TRAC,将大型预训练模型中的微调参数表示为低秩张量序列,实现参数高效微调。相比传统低秩适配等方案,该方法在保持性能的同时进一步降低可训练参数量和显存占用。对需要在有限资源下微调大模型的从业者,TRAC提供了一种更具压缩率与灵活性的选择。
针对多模态大模型处理长视频时视觉token过多导致的计算开销,提出ST-SimDiff方法,通过平衡视频帧间的时空相似性与差异性来选择性保留关键视觉token。该方法在维持视频理解精度的同时显著减少token数量,提升推理效率。对于需要部署实时视频分析或多模态对话系统的工程师,ST-SimDiff提供了一种高效且易于集成的视频压缩策略。
ContextIF: Enhancing Instruction-Following through Context Reward
提出ContextIF方法,通过引入上下文奖励信号来增强大型语言模型的指令遵循能力,弥补监督微调和偏好学习在新颖指令上泛化不足的问题。模型在训练时额外接收与指令上下文一致性相关的奖励,从而更好地理解复杂、长程的指令意图。对于构建可靠指令跟随系统的开发者,ContextIF提供了一种提升鲁棒性和泛化性的新训练范式。
FlowSearcher: Synthesizing Memory-Guided Agentic Workflows for Web Information Seeking
提出FlowSearcher,一种记忆引导的代理工作流合成方法,用于动态构建网络信息搜索流程,代替传统固定ReAct式工具链。系统利用记忆模块记录搜索历史与中间状态,自动组合和调整搜索、浏览、推理等步骤,提升深度研究代理的灵活性和准确率。对需要构建多步自主搜索AI的研究者,FlowSearcher展示了记忆增强工作流合成在开放信息获取中的优势。
HeurekaBench: A Benchmarking Framework for AI Co-scientist
提出HeurekaBench,一个专为AI合作科学家(AI co-scientist)设计的评估框架,衡量基于LLM的推理系统在多步科学分析中的能力。该基准覆盖假设生成、实验设计、结果解释等环节,提供多维度的可靠评估指标。对从事AI4Science和科学发现自动化研究的团队,HeurekaBench填补了科学代理系统性评估的空白。
Reliable Fine-Grained Evaluation of Natural Language Math Proofs
提出针对自然语言数学证明的可靠细粒度评估方法,超越仅依赖最终答案正确性的传统方式。该方法对证明中的每一步逻辑推理进行独立验证,能更精准地定位模型错误并反映真实推理能力。对致力于提升LLM数学定理证明与复杂推理的研究者,该评估策略提供了更严格、更有诊断性的评价标准。
RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference
提出RAEE框架,将检索增强生成与提前退出机制鲁棒地结合,实现LLM推理时的高效层数自适应缩减。在推理过程中,模型可动态决定退出层并从外部知识库补充信息,既降低计算量又减轻因过早退出导致的事实性错误。对关注大模型低延迟部署和高效服务的工程师,RAEE提供了兼顾速度与可靠性的推理优化方案。
Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards
针对可验证奖励在线强化学习中固定采样预算导致效率低的问题,提出自适应rollout分配方法。该方法根据每个提示的难度动态调整采样数量,将更多资源分配给高不确定性样本,提升GRPO等群组策略优化算法的采样效率。对使用RL微调LLM(如数学推理、代码生成)的研究者,该自适应分配策略能显著降低训练成本并加速收敛。
Robustness of Probabilistic Models to Low-Quality Data: A Multi-Perspective Analysis
本文通过系统比较不同概率模型在低质量训练数据下的鲁棒性,从多个视角进行分析,揭示模型在数据缺陷时的行为差异,为实际部署中模型选择提供指导。
WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization
提出WebShaper框架,通过形式化信息搜寻过程,驱动LLM代理从网络获取并合成高质量数据,自动化数据生成以缓解训练数据瓶颈。
Rethinking Code Similarity for Automated Algorithm Design with LLMs
重新审视LLM自动化算法设计中代码相似性的角色,提出利用代码相似性优化算法生成的新框架,提升生成代码的效率和多样性。
Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization
将重要性采样引入多模态直接偏好优化,支持多负样本比较,克服了现有成对比较方法的局限,提升视觉语言模型的对齐质量。
Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection
提出基于动态拒绝的激活引导方法,在引导LLM时动态过滤不恰当的干预方向,提升指令遵循效果且避免损害原有能力。
Study of Training Dynamics for Memory-Constrained Fine-Tuning
提出TraDy训练动态分析方法,针对内存受限微调场景,揭示核心训练动态因素,指导设计更高效的内存节约型微调策略。
Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking
通过让LLM代理执行信息丰富的寻求,例如提取结构化多模态信息,显著提升WebAgent的求解效率与效果。
CARD: Towards Conditional Design of Multi-agent Topological Structures
提出CARD框架,根据任务条件动态设计多LLM智能体的拓扑结构,取代固定结构,增强多智能体协作的鲁棒性和效能。
Multi-Feature Quantized Self-Attention for Fair Large Language Models
针对大模型编码种族、性别等敏感特征导致的社会偏见问题,提出多特征量化自注意力机制,在自注意力计算中引入多敏感特征的量化表示以抑制偏见。该方法在指令微调后仍能保持公平性,为从业者提供了一种无需重新训练即可提升下游任务公平性的实用方案。
Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
本文提出将注意力权重作为指南,用于过程监督强化学习中的高效探索,从而提升大模型推理能力。核心贡献是设计了一种利用注意力模式引导动作选择的机制,减少无效探索,加速收敛。对从业者而言,该方法可显著提高推理模型训练的效率与效果。
Why DPO is a Misspecified Estimator and How to Fix It
指出直接偏好优化(DPO)在估计上存在错误指定,并揭示了其源于偏好建模与策略优化之间的统计不一致。作者提出修正方法,通过重新定义损失函数或引入校正项来恢复无偏估计。这为从业者提供了更可靠的直接对齐算法,避免偏好微调中的偏差累积。
Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
首次在真实企业环境中系统评估AI渗透测试代理与人类网络安全专家的能力对比。分析六类现有AI工具与十名专家的表现,揭示AI在自动化侦查和利用方面的优势与在适应性决策上的不足。为安全从业者理解AI辅助渗透测试的现实水平与部署边界提供关键参考。
PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning
提出参数高效的测试时学习方法PERK,用于长上下文推理。该方法在推理阶段动态识别并压缩噪声上下文中的关键信息,无需增加模型参数即可提升长文本处理的准确性。对从业者而言,PERK提供了轻量级的长上下文推理解决方案,降低对超长输入的计算开销。
Count Counts: Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards
针对强化学习训练大模型推理时结果奖励稀疏的问题,引入基于计数的内在奖励以激励推理路径探索。核心贡献是设计了一种考虑状态访问计数的探索奖赏,与外部稀疏奖励结合,有效促进多步推理策略的多样性。这为从业者提升推理训练的样本效率与最终性能提供了新思路。
A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA
推导出大模型在单次通过(无检索)多跳问答时的准确率上界,类似Fano不等式将噪声信道下错误概率与信息量关联。该理论界限量化了模型容量与上下文窗口限制对多跳推理性能的根本约束,为从业者评估模型推理能力的上限及设计改进方向(如检索增强)提供理论依据。
Steering Language Models with Weight Arithmetic
探索通过权重算术(如加减模型权重)来操控大模型行为,无需额外微调即可将特定属性注入或移除。核心贡献是演示了在语言模型中加减任务特定向量可引导输出风格、安全性等属性,提供了一种极致轻量的模型行为编辑方式。这对从业者快速定制模型行为、降低反馈成本具有重要意义。
In Context Semi-Supervised Learning
该工作将上下文学习框架扩展到半监督设定,研究Transformer如何利用少量标注和大量未标注示例在上下文中执行半监督学习,为理解大模型的上下文泛化机制提供新视角。对从业者,有助于设计更高效的提示学习策略。
Beyond English-Centric Training: How Reinforcement Learning Improves Cross-Lingual Reasoning in LLMs
本文突破以英语为中心的训练限制,证明强化学习(如基于过程奖励的优化)能显著提升大语言模型在多语言复杂推理任务上的表现,为构建跨语言智能体提供新路径。
Enhancing Language Model Reasoning with Structured Multi-Level Modeling
提出结构化多层级建模方法,通过融合多粒度思维链与层级策略优化,在推理时扩展中实现更高效、更稳定的复杂推理,超越单一策略和结果奖励的局限。
针对大推理模型训练中奖励稀疏问题,引入内在信号驱动和能力自适应奖励塑形机制,对生成过程进行细粒度评估,显著提升数学推理任务的优化效率和最终性能。
Is On-Policy Data always the Best Choice for Direct Preference Optimization-Based LM Alignment?
探讨直接偏好优化(DPO)中数据策略的选择,发现离策略数据在某些条件下可与同策略数据媲美甚至更佳,挑战了必须使用同策略数据的固有认知,为更灵活的对齐训练提供依据。
Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees
针对混合专家模型庞大的参数量,提出具备理论泛化保证的高效量化方案,在压缩模型的同时保证性能不显著下降,为MoE的轻量化部署提供可靠方法。
MoEEdit: Efficient and Routing-Stable Knowledge Editing for Mixture-of-Experts LLMs
提出MoEEdit,专为混合专家架构设计的高效知识编辑方法,通过保持专家路由的稳定性,实现精准更新事实知识而不损害模型整体表现,对动态知识维护至关重要。
提出自适应变换优化框架,使不同领域的时间序列数据主动适配基础模型,缓解非平稳性和多样性带来的泛化难题,提升跨领域预测的统一性和准确性。
HippoTune: A Hippocampal Associative Loop–Inspired Fine-Tuning Method for Continual Learning
HippoTune受海马体联想回路启发,提出一种面向持续学习的微调方法,通过模拟记忆关联重激活来缓解灾难性遗忘。该方法增强了参数高效微调在序列任务上的旧知识保持能力,对需要不断适应新数据的实际部署场景具有重要价值。
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
MEM1方法使语言智能体在长周期交互任务中学会协同记忆检索与推理过程,高效整合环境反馈和先验知识。其核心贡献在于将记忆与推理联合学习以提升多步决策效率,为构建可靠的长程任务智能体提供了关键支撑。
The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?
该工作系统探究AI不对齐问题如何随模型智能水平和任务复杂度而扩展,揭示错位风险的增长规律。研究为评估高能力AI部署中的安全风险提供了实证依据,对从业者设计安全约束和监管策略具有指导意义。
Tools are under-documented: Simple Document Expansion Boosts Tool Retrieval
针对工具文档描述不完整和异构性问题,提出一种简单的文档扩展技术,通过扩充工具描述信息来增强检索。该方法显著提升了大语言模型在工具检索任务中的准确率,为改进工具型智能体的可靠性提供了低成本的方案。
提出元认知策略优化方法,使多智能体大语言模型系统能在持续学习场景中自适应调整与人类协作的策略。该工作推动了人机混合团队的自适应协作,对构建灵活且稳健的多智能体应用具有重要启示。
Massive Editing for Large Language Models Based on Dynamic Weight Generation
提出一种基于动态权重生成的大规模知识编辑方法,能够对大型语言模型进行批量知识更新,同时保持模型整体稳定性。该方法克服了现有编辑技术在大量修改时效果显著下降的瓶颈,对模型维护和事实更新十分关键。
TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
TwinFlow框架利用自对抗流机制,使大规模多模态生成模型从多步采样转变为单步生成。这大幅提升了图像/视频生成速度,同时维持生成质量,为实时生成应用提供了高效的推理方案。
ToolTree采用双反馈蒙特卡洛树搜索与双向剪枝策略,为语言模型智能体提供高效的工具调用规划。该方法显著提升了多步复杂任务中的执行成功率和决策速度,是工具增强型智能体实用化的重要进步。
SpareTrain: Fault-Tolerant LLM Training via Low-Cost Dual Modular Redundancy
提出低成本双模冗余训练方法SpareTrain,通过选择性重复执行关键操作来检测静默数据损坏,从而提升大模型训练容错能力。该方法在保障可靠性的同时显著降低冗余计算开销,对大规模训练稳定性至关重要。
CFT-RAG: An Entity Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter
提出基于实体树与布谷鸟过滤器的CFT-RAG算法,通过结构化知识表示和快速近似成员查询优化检索效率,缓解RAG的计算瓶颈。该设计提升了检索速度与生成质量,对实时RAG应用具有实践价值。
PALC: Preference Alignment via Logit Calibration
引入PALC方法,在推理阶段通过校准输出logits实现大模型与人类偏好对齐,无需繁重训练或复杂奖励架构。此法以极低计算成本完成对齐,为高效部署对齐模型提供了新思路。
WebDS: An End-to-End Benchmark for Web-based Data Science
构建端到端基准WebDS,涵盖真实数据科学中网络查找、多源多模态合成与总结等复杂交互任务。该基准为评估自动化数据科学代理的综合能力提供了标准化测试平台。
Diffusion Language Models are Provably Optimal Parallel Samplers
从理论层面证明扩散语言模型在并行token生成中是渐进最优的并行采样器,为DLM替代自回归模型实现高速推理奠定了严格基础。此结论对设计高效并行解码策略具有重要指导意义。
Rectifying LLM Thought from Lens of Optimization
从优化视角剖析长链思维中的错误传播现象,并提出纠正策略以提升LLM推理准确性。该工作为理解和改进思维链提示提供了理论依据与实用方法。
TNT: Improving Chunkwise Training for Test-Time Memorization
提出TNT方法,改进分块训练机制以增强RNN在测试时的记忆能力,有效缓解长序列场景下的记忆衰减。该工作推动了线性复杂度记忆模型性能的进一步提升。
RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks
针对自由形式生成任务,提出RLAC框架,利用对抗评论家自动捕捉多元隐式评价标准,降低人工验证成本。该方法在强化学习中融合自动评估,有效提升生成输出对多样需求的满足度。
Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin
本文揭示了大语言模型中「注意力沉没」与「压缩谷」两个孤立研究的现象实为同一机制的两面,统一了注意力行为中的过度关注与信息忽略。核心贡献在于提出统一理论框架,加深对注意力机制本质的理解。对从业者可指导模型注意力优化与显存管理。
THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics
THEMIS 提出了一个面向学术场景的多任务基准,用于系统评估多模态大模型在真实论文图像造假识别与视觉欺诈推理上的能力。亮点是把「论文造假取证」这一现实难题转化为可量化的 MLLM 评测任务。对研究多模态模型可信度与学术诚信检测的人,提供了一个有针对性的评测标尺。
Not Search, But Scan: Benchmarking MLLMs on Scan-Oriented Academic Paper Reasoning
该研究提出面向「扫读式」学术论文推理的新基准,用于评测多模态大模型在快速浏览图文论文时的理解与推理能力,区别于传统的检索与问答任务。它揭示了当前 MLLM 在图表、版式与跨页信息扫读上的不足。对从业者而言,为科研助手类多模态模型的能力评估和改进提供了更贴近真实阅读场景的标尺。
JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks
JailNewsBench 构建了一个多语言、多地区的假新闻生成基准,专门评估大模型在越狱攻击下被诱导生成虚假新闻的风险。它覆盖政治、经济、健康等高危领域并跨语言地区设置场景。对从业者而言,为模型安全对齐、内容审核与防越狱防护提供了系统化测试集。
Aria: an Agent for Retrieval and Iterative Auto-Formalization via Dependency Graph
Aria 是一个基于依赖图的检索与迭代式自动形式化智能体,用于把数学定理陈述准确翻译为可验证的形式化语言。它通过依赖图检索相关定义与引理并迭代修正,缓解大模型在形式化中的幻觉问题。对从业者而言,为自动定理证明与形式化数学工具链提供了更可靠的前端环节。
From Natural Alignment to Conditional Controllability in Multimodal Dialogue
该工作研究多模态对话从「自然对齐」走向「条件可控性」,旨在让 AIGC 生成的多模态交互内容既自然又可按条件精确控制。它针对当前多模态对话生成可控性不足的问题提出新建模思路。对从业者而言,为可控的多模态人机交互与数字人对话系统提供了设计参考。
Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts
该研究探索视觉提示微调的可解释性,借助跨层概念来揭示视觉提示在适配预训练视觉基础模型时究竟学到了什么。它填补了视觉提示微调缺乏可解释性分析的空白。对从业者而言,有助于理解并优化参数高效微调在视觉模型上的行为与可信度。
STAIRS-Former 提出一种带交错递归结构的时空注意力 Transformer,用于离线多任务多智能体强化学习,能处理任务间智能体数量变化并泛化到未见场景。其交错递归设计增强了对可变规模智能体的建模能力。对从业者而言,为离线 MARL 在多任务、跨规模场景下的统一建模提供了新架构。
Swap-guided Preference Learning for Personalized Reinforcement Learning from Human Feedback
该工作提出基于交换引导的偏好学习方法,用于个性化的人类反馈强化学习,突破 RLHF 假设单一通用奖励的局限。它通过 Swap 机制建模不同用户的差异化偏好以实现个性化对齐。对从业者而言,为面向多元用户价值的个性化大模型对齐提供了可行路径。
AetherCode: Evaluating LLMs’ Ability to Win In Premier Programming Competitions
AetherCode 是评估大模型在顶级编程竞赛中夺冠能力的新基准,针对现有代码基准已趋饱和、难以区分强模型的问题,引入高难度竞赛题考察推理与编码极限。它更贴近真实竞赛的难度与评判标准。对从业者而言,为衡量前沿大模型的高阶推理与代码能力提供了更具区分度的标尺。
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
SafeDPO 提出一种更简洁的直接偏好优化方法,在对齐过程中显式纳入安全约束,让模型在提升有用性的同时兼顾安全性。它无需复杂的奖励模型或多阶段流程,直接在偏好优化目标中融合安全信号。对从业者而言,这意味着可以用更低的工程成本实现「既有用又安全」的对齐,降低部署 LLM 时的安全风险。
How Far Can Unsupervised RLVR Scale LLM Training?
该研究系统探讨了无监督的可验证奖励强化学习(URLVR)究竟能把 LLM 训练扩展到何种规模,试图突破依赖人工标注的监督瓶颈。它在无真值标签的情况下自动推导奖励信号,并考察其可扩展性边界与失效模式。对从业者而言,这为低成本、大规模强化训练提供了实证依据,揭示了无监督 RL 扩展的潜力与天花板。
Polychromic Objectives for Reinforcement Learning
本文提出「多彩目标」(Polychromic Objectives),针对强化学习微调中预训练策略生成多样性下降的问题,设计新的优化目标以在提升任务表现的同时保持生成的多样性。它避免了 RLFT 常见的模式坍缩和多样性损失。对从业者而言,这有助于在用 RL 微调模型时兼顾质量与多样性,改善创意类与探索类任务的输出。
Strong Correlations Induce Cause Only Predictions in Transformer Training
该工作从数据相关性强度和梯度下降的隐式正则化角度,重新审视 Transformer 何时能优先学习真正的因果而非虚假关联。研究发现强相关会诱导模型只做「因果」预测的现象,并刻画了其触发条件。对从业者而言,这加深了对模型为何会依赖捷径或虚假特征的理解,对提升泛化与鲁棒性有指导意义。
SecP-Tuning: Efficient Privacy-Preserving Prompt Tuning for Large Language Models via MPC
SecP-Tuning 提出基于安全多方计算(MPC)的高效隐私保护提示微调方法,使 LLM 能在医疗、金融等隐私敏感领域适配专门任务而不泄露原始数据。它在保证隐私的前提下优化了提示微调的计算效率。对从业者而言,这为在合规约束下安全使用 LLM 定制能力提供了可行的技术路径。
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
该研究揭示了一个隐蔽的安全风险:在开源 LLM 上用专有数据微调时,原始模型可能被预先植入机制,使你的微调数据被秘密窃取回流。它展示了这种数据窃取攻击的可行性与隐蔽性。对从业者而言,这敲响警钟——下游开发者在使用第三方开源模型微调时,敏感训练数据可能面临泄露风险,需谨慎评估来源。
Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback
本文提出一个有原则的奖励建模框架,超越传统的二元偏好,能够利用序数(多档位)反馈数据进行建模。它为如何数学化地使用「有强弱之分」的人类偏好提供了理论基础。对从业者而言,这意味着可以更充分地挖掘人工标注信息、构建更精细准确的奖励模型,从而提升 LLM 对齐效果。
SELF-HARMONY 针对测试时强化学习(TTRL)提出在推理阶段协调自监督与自博弈两种信号的方法,仅用合成信号即可无标签地自适应模型,并构建更可靠的学习信号。它解决了 TTRL 中信号不稳定、易坍缩的问题。对从业者而言,这为在无标注数据条件下让模型于部署阶段持续自我提升提供了新思路。
Hyper-SET: Designing Transformers via Hyperspherical Energy Minimization
Hyper-SET 提出用「超球面能量最小化」的统一原理来推导 Transformer 层,而非自底向上的启发式堆叠。它把注意力与前馈等组件视为在超球面上最小化某种能量的迭代步骤,从而给出可解释、可推导的原型架构。对从业者而言,这提供了理解和重新设计 Transformer 的第一性原理视角。
LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
LLM-JEPA 将视觉领域成功的联合嵌入预测架构(JEPA)引入大语言模型,用嵌入空间的预测目标补充传统的输入空间重建与生成目标。实验显示该方法在预训练、微调中能学到更优的表征。对从业者而言,它为提升 LLM 表征质量提供了一条不依赖纯生成损失的新训练范式。
Unveiling the Potential of Diffusion Large Language Model in Controllable Generation
该工作系统揭示了扩散式大语言模型(Diffusion LLM)在可控生成上的潜力,指出即便最先进的自回归 LLM 在精确控制输出方面仍有局限,而扩散范式天然支持双向、可约束的迭代去噪。对从业者而言,这为函数调用、格式约束、Agent 通信等需要强可控性的场景提供了新选择。
MedAgentGym 是一个可扩展的交互式训练环境,专门提升 LLM Agent 在生物医学数据科学中以代码为核心的推理能力。它提供大规模、可交互的编程任务场景用于训练与评测医疗领域 Agent。对从业者而言,它填补了医学 Agent 缺乏标准化代码推理训练平台的空白。
Annotation-Efficient Honesty Alignment via Confidence Elicitation and Calibration
该工作提出一种标注高效的诚实性对齐方法,通过置信度引出与校准,让 LLM 识别自身知识边界并表达校准过的置信度。相比依赖大量人工标注的方案,它显著降低了对齐成本。对从业者而言,这有助于以更低代价构建可信、知道「自己不知道」的模型。
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
Auto-RT 提出一个自动化红队框架,用于自动探索针对 LLM 的越狱攻击策略,突破了现有方法依赖固定攻击模板的局限,能动态搜索更多样、更有效的攻击路径。对从业者而言,它能更全面地暴露模型安全漏洞,为防御加固提供依据。
MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning
MobileIPL 针对基于视觉语言模型的移动端 GUI Agent,用迭代偏好学习增强其「行动规划思维链(CoaT)」的推理过程,缓解了多样化 CoaT 轨迹数据稀缺的问题。对从业者而言,它提供了在数据有限下持续提升移动 Agent 操作与决策质量的训练思路。
Query-Aware Flow Diffusion for Graph-Based RAG with Retrieval Guarantees
该工作提出「查询感知的流扩散」方法用于基于图的检索增强生成(Graph RAG),并带有可证明的检索保证,能更好地在互连知识结构上捕捉复杂关系、支持多跳推理。对从业者而言,它为图 RAG 提供了既精准又有理论保障的检索机制。
EvolProver 针对形式化定理证明 LLM 泛化能力弱、对题面微小改写脆弱的问题,提出通过对称性变换和难度演化来扩充形式化问题数据集。该方法系统化地生成等价但表述不同的题目变体,提升模型对扰动的鲁棒性。对从业者而言,它给出了一条以数据演化增强形式化推理稳健性的可复用思路。
Long Chain-of-Thought Reasoning Across Languages
该研究考察大型推理模型在英语中习得的长链式思维(CoT)能力如何跨语言迁移,填补了长链推理多语言迁移机制理解上的空白。作者通过实验分析不同语言下长链推理的表现差异与迁移规律。对从业者而言,这为构建多语言推理模型和评估跨语言推理质量提供了重要参考。
SMAN-Bench 是面向移动智能体的跨系统评测基准,专门覆盖单路径与多路径、歧义性以及含噪声任务等复杂场景,弥补现有在线基准的不足。它评估基于视觉语言模型的手机 GUI 智能体在贴近真实使用情形下的能力。对从业者而言,该基准为更全面地衡量和改进移动 Agent 的稳健性提供了标准化工具。
MergOPT: A Merge-Aware Optimizer for Robust Model Merging
MergOPT 提出一种感知合并过程的优化器,用于稳健的模型合并,将多个独立微调的专家模型整合为单一模型并保留各专家知识。与仅在参数层面处理的现有方法不同,它在合并感知层面进行优化以减少冲突。对从业者而言,这有助于在不重新训练的情况下高效融合多个专家能力。
DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle
DevOps-Gym 是评测 AI 智能体在完整软件 DevOps 周期中能力的基准,超越单纯的代码生成与缺陷修复,覆盖更广的运维与交付流程。它揭示了当前 AI Agent 在端到端 DevOps 任务上的真实表现与短板。对从业者而言,这为衡量和推进面向工程实践的自动化智能体提供了系统化评测平台。
Regularized Latent Dynamics Prediction is a Strong Baseline For Behavioral Foundation Models
该工作指出带正则化的潜在动态预测可作为行为基础模型(BFM)的强基线,使智能体能够适应未知奖励或任务。作者表明这一简单方法在零样本任务适配上具有竞争力,挑战了更复杂方案的必要性。对从业者而言,它提供了一个易实现且高效的强基线,有助于厘清 BFM 设计的真正增益来源。
Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning
该研究提出直推式视觉编程,通过从经验中演化工具库来增强三维场景中的空间推理,解决视觉语言模型在精确几何计算上的不足。方法将问题分解为调用专用工具的步骤,并不断积累和优化可复用工具。对从业者而言,这提供了一条让视觉程序随经验自我增强、提升空间推理能力的路径。
NDAD 提出负方向感知解码,通过可控地注入幻觉信号来抑制大模型生成虚假或事实不一致内容。该方法在解码阶段利用幻觉方向作为对照信号引导输出远离错误内容,缓解知识密集与推理任务中的幻觉问题。对从业者而言,这是一种无需重训、即插即用的幻觉抑制解码策略。
Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning
针对当前 LLM 评委只依赖文本内在推理、缺乏外部验证能力的问题,本文提出用工具集成的强化学习来激励 LLM 评委进行「主动式」推理,让其在评判时调用工具(如代码执行、检索)来核实回答质量。核心贡献是把判分从纯文本打分升级为可验证、可取证的推理过程,显著提升评判的准确性与可靠性。对从业者而言,这为构建更可信的自动化评估与奖励模型管线提供了新范式。
RoRE: Rotary Ray Embedding for Generalised Multi-Modal Scene Understanding
本文提出旋转射线嵌入(RoRE),一种用于通用多模态场景理解的位置编码方法,将 Transformer 隐式渲染中的几何信息以旋转射线形式注入,使模型在单次前向传播中完成几何推理与逼真新视角生成。亮点是把相机射线的几何先验优雅编码进注意力机制,提升跨模态、跨视角的泛化能力。对从业者而言,它为新视角合成与三维场景理解提供了更统一、可扩展的表征方案。
Culture In a Frame: C$^3$B as a Comic-Based Benchmark for Multimodal Culturally Awareness
本文推出 C³B,一个基于漫画的多模态文化感知评测基准,用于检验多模态大模型(MLLM)对文化背景的理解能力,并在任务设计上引入了渐进式难度。核心贡献是以漫画这一富含文化语境的载体构建更具挑战性的评测,弥补现有基准难度不足的缺陷。对从业者而言,它为评估和改进 MLLM 的文化敏感度与本地化能力提供了有价值的工具。
EXP-Bench: Can AI Conduct AI Research Experiments?
本文提出 EXP-Bench,用于评测 AI 智能体能否端到端地开展严谨的 AI 研究实验,覆盖从假设、实验设计到执行与分析的完整流程。亮点是揭示当前 AI 智能体在严谨、可复现实验上的真实能力与短板,为「AI 做 AI 研究」这一前沿方向提供量化标尺。对从业者而言,它为自动化科研智能体的开发与评估指明了改进方向。
Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
本文针对提示词优化长期局限于纯文本的现状,提出多模态提示优化,主张同时利用图像等多种模态来为多模态大模型(MLLM)优化提示。核心贡献是将提示优化从单一文本扩展到跨模态联合优化,更充分地发挥 MLLM 的多模态潜力。对从业者而言,这为提升图文等多模态任务的效果提供了一条无需微调、即插即用的优化路径。
Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
本文研究连续思维链(continuous CoT)的训练动力学,揭示了「叠加态」现象的涌现机制,即连续思维通过在隐空间中并行承载多条推理路径来增强大模型的推理能力。亮点是从训练过程角度解释了连续思维为何能实现隐式并行思考。对从业者而言,这加深了对连续 CoT 内在机理的理解,为设计更高效的推理增强方法提供了理论依据。
DASH: Deterministic Attention Scheduling for High-throughput Reproducible LLM Training
本文提出 DASH,一种确定性注意力调度方案,用于实现高吞吐且可复现的大模型训练,解决 FlashAttention-3 等高效注意力实现中确定性与性能难以兼得的痛点。核心贡献是在保证逐位可复现的同时大幅降低确定性带来的性能损耗。对从业者而言,这对需要严格复现的训练实验和工程化训练管线极具实用价值。
Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges
本文提出「对齐以制造失配」的自动化越狱方法,利用经过元优化的 LLM 评委来自动构造能绕过安全防护的对抗性提示,从而系统性地发现大模型的安全漏洞。亮点是把 LLM 评委变成可自我优化的攻击引擎,自动化地暴露模型弱点。对从业者而言,这既揭示了 LLM 评委被滥用的风险,也为红队测试与安全加固提供了有力工具。
Negative Pre-activations Differentiate Syntax
该研究分析了使用 GELU、SiLU 等平滑激活函数的现代大模型,发现负的预激活值同样携带信号与梯度,并揭示出负预激活在神经元层面专门承担了区分句法(语法结构)的功能。这为理解 Transformer 内部的语法表征机制提供了新的可解释性视角。
PerFit: Exploring Personalization Shifts in Representation Space of LLMs
PerFit 从表示空间的角度研究大模型的个性化问题,刻画了模型在面对个性化任务时内部表征发生的偏移规律。它揭示了通用知识强但个性化弱的根源,为构建更贴合用户偏好的个性化大模型提供了表征层面的分析工具。
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
AstaBench 提出了一套面向科研场景的严格 AI 智能体评测基准,覆盖文献综述、实验复现、数据分析乃至提出新研究方向等科研全流程任务。它为衡量科研型 Agent 的真实能力提供了系统化、可复现的标准,对评估和推动科研自动化具有重要意义。
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
ThinkMorph 研究多模态交错式思维链推理,提出让文本与图像在推理过程中迭代协同、互为补充,并观察到一系列涌现性质。它明确了什么才算有意义的图文交错思维链,对提升多模态模型的复杂推理能力具有指导价值。
ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval
ZeroGR 提出可泛化、可扩展的零样本生成式检索框架,将信息检索重构为生成文档标识符(docid)的任务,从而实现端到端优化。它在无需标注训练数据的情况下完成检索,对降低检索系统构建成本、与大模型无缝集成很有价值。
EEPO: Exploration-Enhanced Policy Optimization via Sample-Then-Forget
EEPO 针对可验证奖励强化学习(RLVR)中探索与利用难以平衡的问题,提出「先采样后遗忘」的探索增强策略优化方法,缓解现有方法过度偏向利用、探索不足的缺陷。它有助于提升大模型在 RLVR 训练中的探索质量与最终性能。
What Do Large Language Models Know About Opinions?
该研究系统考察大模型对人类观点的掌握程度,分析模型究竟「知道」哪些人类意见。这对大模型的价值对齐、用人类模拟(社会仿真)以及理解模型训练中学到了什么都具有重要意义。
Exploring the Potential of Encoder-free Architectures in 3D LMMs
该工作探索无编码器架构在 3D 大型多模态模型中的应用,将此前仅在 2D 多模态模型中初步尝试的去编码器思路扩展到 3D 理解场景。它为简化 3D 多模态模型结构、实现更统一的端到端 3D 理解提供了新方向。
ATLAS 开展了迄今规模最大的多语言缩放定律研究,覆盖预训练、微调与解码阶段,并系统刻画了「多语言诅咒」(语言越多单语性能越受损)的成因与边界。它提出自适应迁移缩放定律,量化不同语言间数据与算力的迁移效果,为面向全球数十亿用户的模型给出可预测的扩展指南。对从业者而言,这意味着在做多语言模型的数据配比和算力预算时,能用公式而非试错来决策。
该工作研究 Transformer 如何在上下文学习(ICL)中习得因果结构,给出了可解释的内在机制并配以理论保证。论文揭示注意力层如何从少量示例中推断变量间的因果依赖,并从数学上证明其收敛与正确性。对从业者而言,这有助于理解 ICL 为何有效、何时可靠,从而更稳妥地设计提示与少样本任务。
Sparse CLIP: Co-Optimizing Interpretability and Performance in Contrastive Learning
Sparse CLIP 在对比学习框架下同时优化可解释性与性能,通过引入稀疏表示让 CLIP 的视觉-语言特征更易理解,又不牺牲下游精度。作为多模态系统默认视觉骨干的改进方案,它让特征维度对应更清晰的语义概念。对从业者而言,这提供了一个兼顾透明度与效果的视觉编码器选择,便于调试和审计多模态模型。
ReIn: Conversational Error Recovery with Reasoning Inception
ReIn 针对带工具调用的对话智能体在真实场景中遭遇意外、用户引发错误时易崩溃的问题,提出基于「推理植入(Reasoning Inception)」的会话错误恢复机制。它让智能体在偏离预期时进行反思与纠错,而非沿用固定任务流。对从业者而言,这能显著提升生产环境对话 Agent 面对非脚本化交互的鲁棒性。
SoSBench: Benchmarking Safety Alignment on Six Scientific Domains
SoSBench 是面向六大科学领域的安全对齐基准,专门评测大模型在涉及科学知识滥用(如危险化学、生物等)时的抗滥用能力。它填补了现有安全评测偏重通用有害内容、忽视专业科学风险的空白。对从业者而言,这为模型在科研助手等高风险场景的安全审查提供了量化工具。
Generative Value Conflicts Reveal LLM Priorities
该工作提出用「生成式价值冲突」来揭示大模型的内在价值优先级:通过构造迫使模型在多种价值间权衡的情境,观察其实际取舍,从而暴露对齐时未显式声明的偏好。相比静态对齐目标,它刻画了模型部署时真实的价值排序。对从业者而言,这是一种诊断和审计模型价值取向的实用方法。
Sparse Attention Adaptation for Long Reasoning
SeerAttention-R 是为推理模型长程解码量身设计的稀疏注意力框架,在前作 SeerAttention 基础上保留可学习稀疏模式的设计,专门优化长链推理时的解码效率。它在保持推理质量的同时降低长序列注意力的计算与显存开销。对从业者而言,这能加速 o1 式长思考模型的推理并节省成本。
该研究表明小型 Transformer 在推理阶段并不需要 LayerNorm,并将这一「移除 LayerNorm」的做法成功扩展到 GPT-2 XL 规模。去掉推理时的归一化简化了模型结构,且对机制可解释性研究意义重大——线性化的残差流更易于电路分析。对从业者而言,这既可能简化部署,也为可解释性工具提供了更干净的研究对象。
Critical attention scaling in long-context transformers
该工作揭示了长上下文 Transformer 中注意力机制的一个本质病理:随着上下文长度 n 增大,注意力分数会向均匀分布坍缩,使得各 token 之间难以有效区分。论文围绕这一现象提出了临界注意力缩放(critical attention scaling)的分析框架,刻画了注意力熵失控的临界条件。对从业者而言,这解释了为何模型在超长上下文下检索与聚焦能力退化,并为设计可扩展的注意力缩放策略提供了理论依据。
CodeQuant 针对低精度大模型尤其是 MoE 架构中离群值(outlier)导致精度下降的瓶颈,提出将聚类与量化统一起来以增强离群值平滑的方法。其核心亮点是在专家维度上协同处理离群分布,从而在低比特量化下保持精度。对从业者而言,这有助于在显存受限场景部署大规模 MoE 模型,兼顾推理效率与准确率。
Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models
该论文提出测试时匹配(Test-Time Matching),用于在推理阶段解锁多模态模型的组合推理能力。作者指出前沿模型在组合推理基准上常表现接近甚至低于随机水平,并通过无需重新训练的测试时方法显著提升表现。对从业者而言,这提供了一种低成本、即插即用的方式来增强已有多模态模型的组合泛化能力。
Hallucination-aware Intermediate Representation Edit in Large Vision-Language Models
该工作聚焦大型视觉语言模型的幻觉问题,提出一种幻觉感知的中间表征编辑(Intermediate Representation Edit)方法,在模型内部表征层面进行干预以抑制与图像不符的生成内容。其亮点是无需大规模重训即可缓解幻觉。对从业者而言,这为提升 VLM 在复杂场景理解中的可靠性与可信度提供了实用手段。
Visual symbolic mechanisms: Emergent symbol processing in Vision Language Models
该研究探讨视觉语言模型中涌现出的符号处理机制,关注模型如何通过特征绑定将单个物体表示出来,从而区分如「红色方块」等组合场景。论文揭示了 VLM 内部存在类符号的视觉处理机制。对从业者而言,这有助于理解模型的可解释性与组合表征能力,为改进视觉推理设计提供洞见。
WebArbiter: A Generative Reasoning Process Reward Model for Web Agents
WebArbiter 提出一种用于 Web 智能体的生成式推理过程奖励模型(Process Reward Model),针对网页操作中长程、序列化且动作不可逆的决策场景,提供过程级而非仅结果级的奖励信号。其亮点在于通过推理过程评估来引导智能体行为。对从业者而言,这为训练更可靠、更安全的网页自动化 Agent 提供了关键的反馈机制。
WSVD 提出一种加权低秩近似方法,用于加速并高效执行低精度视觉语言模型。相比传统 SVD,它通过加权方式更好地保留对模型输出重要的成分,从而在压缩计算负担的同时维持精度。对从业者而言,这有助于在图像描述等任务中降低 VLM 的计算与部署成本。
VGR: Visual Grounded Reasoning
VGR(视觉锚定推理)针对多模态思维链推理过度依赖纯语言空间、易受语言偏置影响的问题,提出将推理显式锚定到视觉证据上的方法。其亮点是让模型在推理过程中回溯并引用图像区域,减少凭空臆断。对从业者而言,这能提升多模态 CoT 推理的准确性与可解释性。
OR-PRM: A Process Reward Model for Algorithmic Problem in Operations Research
提出 OR-PRM,首个面向运筹学(OR)算法问题的过程奖励模型,把大模型在数学推理中验证有效的「过程监督」范式迁移到运筹优化建模与求解场景。它对推理链的每一步给出奖励信号,从而提升大模型在 OR 任务上的可靠性。对从业者而言,这为用大模型自动完成运筹建模、定位推理错误提供了可落地的奖励建模思路。
HiPO: Self-Hint Policy Optimization for RLVR
提出 HiPO(自提示策略优化),用于可验证奖励强化学习(RLVR)训练。其核心是让模型自行生成「提示」来引导自身的复杂推理过程,再结合可验证奖励进行策略优化,缓解纯结果奖励信号稀疏的问题。对从业者来说,这提供了一种无需额外人工标注即可增强大模型复杂问题求解能力的 RL 训练技巧。
推出多模态推理基准 LudoBench,考察具备视觉能力的大模型能否在桌面策略游戏环境中获取、整合并推理异构的游戏规则知识,相当于让模型充当「规则裁判」。它测试模型把图像与文字规则结合做出判断的真实推理能力。对从业者而言,这为评估多模态模型在复杂规则理解与推理上的短板提供了贴近现实的测评工具。
Quantum-PEFT: Ultra parameter-efficient fine-tuning
提出 Quantum-PEFT,利用量子计算思想实现超高参数效率的微调。与 LoRA 等加性方法不同,它通过量子化的参数表示以远少于常规方法的可训练参数完成模型适配。对从业者而言,这探索了一条用量子启发结构进一步压缩微调参数量的新路径,为极致参数高效微调提供前瞻性思路。
📖 阅读⬇ PDFRandLoRA: Full-rank parameter-efficient fine-tuning of large models
RandLoRA 针对 LoRA 类方法的低秩瓶颈,提出用固定随机基的线性组合来实现全秩参数高效微调,在保持可训练参数和显存优势的同时突破低秩近似对模型表达能力的限制。对从业者而言,它在视觉、语言及视觉-语言任务上缩小了与全量微调的性能差距,适合追求更高精度又受限于算力的场景。
📖 阅读⬇ PDFMA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions
MA-RLHF 在基于人类反馈的强化学习中引入宏动作(macro action),以缓解 token 级 RLHF 中长序列带来的信用分配难题。核心亮点是用更粗粒度的动作单元提升训练效率与对齐效果。对从业者而言,这为在长文本生成中更稳定高效地做偏好对齐提供了实用方案。
📖 阅读⬇ PDFZeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference
该研究提出无需奖励推断的零阶策略梯度方法用于 RLHF,绕过先训练奖励模型这一中间环节,直接基于人类偏好优化大模型。核心贡献是用零阶优化简化 RLHF 流程并避免奖励模型偏差。对从业者而言,这降低了对齐流程的复杂度,减少奖励模型误差累积带来的风险。
📖 阅读⬇ PDFRazorAttention: Efficient KV Cache Compression Through Retrieval Heads
RazorAttention 利用模型中的「检索头」自动识别对长上下文推理最关键的关键值(KV)令牌,并只保留这些令牌的缓存,从而大幅压缩 KV 缓存占用。该方法在几乎不损失模型性能的前提下显著降低显存开销,为长上下文大语言模型的高效部署提供了新思路。对需要处理超长文本的从业者而言,它能有效缓解显存瓶颈,提升推理吞吐。
📖 阅读⬇ PDFSafe RLHF: Safe Reinforcement Learning from Human Feedback
Safe RLHF提出在人类反馈强化学习中显式解耦有用性与无害性两个目标,通过安全约束优化在性能与安全间取得平衡。它将安全作为约束条件引入对齐训练,缓解二者固有的目标冲突。对从业者而言,这为构建既高性能又可控安全的大模型提供了可落地的方法。
📖 阅读⬇ PDFPARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback
PARL提出一个基于双层优化的统一框架,用于解决RLHF中的策略对齐问题。它将奖励学习与策略优化纳入统一的双层结构,从理论上刻画并改善对齐效果。对从业者而言,这为分析和提升对齐算法的一致性提供了系统化的优化视角。
📖 阅读⬇ PDFParameter-Efficient Fine-Tuning Design Spaces
该工作系统研究参数高效微调的设计空间,将Adapter、prefix tuning、BitFit、LoRA等策略拆解为可组合的设计维度并加以探索,旨在用更少可训练参数逼近全量微调效果。其贡献是提炼出跨方法的通用设计原则而非单一新方法。对从业者而言,提供了如何配置和组合PEFT模块的实践指导。
📖 阅读⬇ PDFICML 9 条
Native Active Perception as Reasoning for Omni-Modal Understanding
OmniAgent 是一个全模态智能体,通过迭代式「观察—思考—行动」的主动感知循环处理长视频理解,依靠高效选择性处理以小博大,超过更大的模型。该工作示范了将主动感知作为推理来做的范式,对多模态 Agent 从业者有启发。
📖 阅读⬇ PDFKVTuner 提出一种感知敏感度的逐层混合精度 KV 缓存量化方法,旨在实现高效且近乎无损的 LLM 推理。通过分析各层对量化的敏感度并分配不同位宽,大幅改善长上下文和大批量场景下的吞吐与延迟。对需要部署高性能 LLM 的工程师极其重要。
📖 阅读⬇ PDFParameter-Efficient Fine-Tuning with Discrete Fourier Transform
FourierFT 提出用离散傅里叶变换实现参数高效微调:不直接学习低秩矩阵,而是学习权重增量在频域中的少量谱系数,再经逆变换恢复出稠密更新。在保持甚至超越 LoRA 性能的同时大幅压缩可训练参数量,为多任务、多用户场景下的轻量化存储与部署提供了新路径。
📖 阅读⬇ PDFDense Reward for Free in Reinforcement Learning from Human Feedback
该工作指出 RLHF 中的奖励模型其实可以免费提供稠密奖励:利用奖励模型内部的注意力权重,把通常只在序列末尾给出的稀疏标量奖励重新分配到每个 token 上,得到逐 token 的稠密信号。这种稠密奖励能稳定并加速策略优化,对做 RLHF 对齐与训练效率优化的从业者是一个低成本可落地的改进。
📖 阅读⬇ PDFA Minimaximalist Approach to Reinforcement Learning from Human Feedback
论文提出自博弈偏好优化 SPO,一种极简的 RLHF 算法:无需训练奖励模型,也无需不稳定的对抗式训练,而是通过自博弈直接从偏好中优化策略,并能自然处理非传递的偏好关系。它在简化对齐流程的同时具备理论收敛性,对希望降低 RLHF 工程复杂度的团队很有吸引力。
📖 阅读⬇ PDFRoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
RoSA 提出鲁棒适配的参数高效微调方法:在低秩适配之外再引入一条稀疏分量,用「低秩加稀疏」的组合来逼近全量微调所需的权重更新,从而在相同参数预算下显著提升精度。它在受限算力与显存下逼近全量微调效果,对追求高精度又要省资源的从业者很实用。
📖 阅读⬇ PDF本文研究RLHF在KL约束下的对齐过程,指出离线方法的核心局限,并提出弥合理论与实践的迭代式偏好学习框架。它从理论上分析了KL正则化下的偏好优化,为RLHF提供了更扎实的算法保证。对从业者而言,这有助于设计更稳定、样本利用更高效的对齐流程。
📖 阅读⬇ PDFNash Learning from Human Feedback
该工作提出从人类反馈中进行纳什学习(NLHF),将对齐建模为博弈论中寻找偏好的纳什均衡,而非依赖单一奖励模型。这种方式避免了传统奖励建模在偏好不一致或非传递时的偏差。对从业者而言,它为处理复杂、相互冲突的人类偏好提供了更鲁棒的对齐范式。
📖 阅读⬇ PDFRLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
本文对比RLAIF与RLHF,用AI生成的反馈替代昂贵的人类偏好标注来扩展强化学习对齐。研究表明AI反馈在多项任务上可媲美甚至接近人类反馈的效果。对从业者而言,这显著降低了偏好数据的采集成本,使对齐更易规模化。
📖 阅读⬇ PDFISCA 1 条
Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization
Oaken 提出一种在线-离线混合的 KV 缓存量化方案,用于加速 LLM 服务系统的推理。通过离线预量化与在线自适应量化结合,有效缓解内存带宽瓶颈,提升批处理场景下的吞吐量与效率。
📖 阅读⬇ PDF快手 46 条
Denoising Implicit Feedback for Cold-start Recommendation
论文针对隐式反馈普遍存在的噪声(如标题党、位置偏差)以及冷启动场景,提出去噪方法以提升推荐质量。核心贡献在于通过显式建模噪声信号或因果去偏,增强冷启动用户和物品的表征学习,对工业推荐系统鲁棒性有直接价值。
📖 阅读⬇ PDFAtomic Intent Reasoning: Bringing LLM Semantics to Industrial Cross-Domain Recommendations
本研究将大模型语义引入工业跨域推荐,提出「原子意图推理」框架,从内容域的用户交互中分解出细粒度的购买意图原子,再映射到电商域。该方法解决了内容到电商跨域推荐的语义鸿沟,显著提升了线上转化率预估精度。
📖 阅读⬇ PDF提出 Taiji 方法,用帕累托最优策略优化来平衡大模型的语义空间与推荐系统的 ID 空间,解决后训练阶段的对齐难题。实现了工业级 LLM 增强推荐的有效扩展,兼顾语义理解与 ID 特征。对构建高效大模型推荐系统的工程师有重要参考价值。
📖 阅读⬇ PDFBian Que: An Agentic Framework with Flexible Skill Arrangement for Online System Operations
提出 Bian Que 智能体框架,通过灵活的技能编排来运维搜索、推荐、广告等大规模在线系统。其核心是自动完成发布监控、告警响应与根因分析,大幅减少人工介入。对运维从业者而言,它能提升运维效率并显著降低人力成本。
📖 阅读⬇ PDFAction-Aware Generative Sequence Modeling for Short Video Recommendation
提出动作感知的生成式序列模型用于短视频推荐,显式建模用户观看、点赞、评论等行为序列以及视频的多模态内容。它利用生成式范式捕捉复杂交互偏好,并支持更准确的下一个视频预测,对齐当前平台追求精细化兴趣理解的需求。
📖 阅读⬇ PDFDual-Rerank: Fusing Causality and Utility for Industrial Generative Reranking
快手提出Dual-Rerank重排序框架,融合因果推断与效用建模,用于生成式重排序。该方法旨在提升搜索排序的最终决策质量,能处理海量短视频检索场景,为工业级生成式重排提供了因果可解释性与效用优化兼具的方案。
📖 阅读⬇ PDF快手 KwaiKAT 团队的 KAT-Coder-V2 技术报告提出一种智能体编码模型,采用先专业化再统一的范式,将编码任务拆分为五个专家领域分别训练再融合。其亮点是兼顾专精能力与统一调度。对从业者而言,它为构建高性能编码 Agent 与提升自动化编程能力提供了可借鉴的训练思路。
📖 阅读⬇ PDFFlashEvaluator: Expanding Search Space with Parallel Evaluation
FlashEvaluator提出并行评估扩展生成器-评估器框架的搜索空间,用快速并行评估替代传统串行打分。该方法能在大规模推荐与生成任务中显著提升候选序列的评估效率与质量上限,对从业者优化G-E框架的延迟与效果具有直接参考价值。
📖 阅读⬇ PDFSOLAR: SVD-Optimized Lifelong Attention for Recommendation
SOLAR利用SVD优化终身注意力机制,通过低秩分解将长序列自注意力的复杂度从平方降至近线性。该方法解决了Transformer在长序列推荐中的显存和时间瓶颈,使工业级长序列建模成为可能,对基于注意力的推荐模型部署至关重要。
📖 阅读⬇ PDF提出碰撞感知的语义ID学习,强调不同碰撞对推荐性能的影响不同,设计资格感知的语义ID构建方案。该工作在美团等工业规模多模态推荐中提升了离散表示的质量,为统一ID式和生成式推荐提供了更可靠的语义抽象。
📖 阅读⬇ PDFGenerative Recommendation for Large-Scale Advertising
面向大流量广告场景的生成式推荐系统,解决实时部署时的效率与容量挑战。该方法结合生成模型与推荐策略,实现在线毫秒级生成推荐,为互联网广告平台在规模化与模型能力之间取得平衡提供了实践方案。
📖 阅读⬇ PDFCroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search
CroPS针对短视频搜索中密集检索的自增强训练易引入简单正样本问题,提出跨视角正样本构造方法,融合视觉、文本等多视角生成难正样本以增强对比学习。核心提升检索模型对语义相似但表面不匹配内容的召回能力。对短视频搜索和推荐相关从业者可改善长尾内容发现。
📖 阅读⬇ PDFLLM-Aligned Geographic Item Tokenization for Local-Life Recommendation
本文提出LLM对齐的地理物品分词方法,将地理位置信息融入大语言模型的token化过程,使LLM能原生理解空间属性以优化本地生活推荐。贡献在于打通地理信号与语义模型的鸿沟,提升位置相关推荐准确性。对本地生活服务、地图类应用从业者提供了LLM落地新思路。
📖 阅读⬇ PDFGReF: A Unified Generative Framework for Efficient Reranking via Ordered Multi-token Prediction
GReF将推荐重排序建模为有序多token预测的生成任务,设计统一生成式框架以高效探索物品序列组合空间。亮点在于将组合优化转化为自回归生成,大幅提升寻优效率。对多阶段推荐系统从业者,该框架有望平衡重排效果与计算开销。
📖 阅读⬇ PDFCardRewriter: Leveraging Knowledge Cards for Long-Tail Query Rewriting on Short-Video Platforms
利用知识卡片技术改写长尾查询,以改善短视频平台信息检索效果。针对用户查询表达不充分的问题,该方案能丰富查询语义,从而提升视频召回精度,对短视频搜索优化有直接帮助。
📖 阅读⬇ PDF提出基于群组相对强化学习与自适应狄利克雷探索的个性化多任务融合方法GRADE。该方法动态调整多目标权重,克服了传统静态权重缺乏个性化的局限,有助于提升推荐与搜索系统的用户体验。
📖 阅读⬇ PDFGenerative Auto-Bidding in Large-Scale Competitive Auctions via Diffusion Completer-Aligner
采用扩散模型补全-对齐器实现大规模竞价中的生成式自动出价。该方法利用生成模型应对复杂拍卖环境,旨在提升广告主预算约束下的出价效率,为计算广告自动出价开辟了新的技术路线。
📖 阅读⬇ PDFMPFormer: Adaptive Framework for Industrial Multi-Task Personalized Sequential Retriever
提出 MPFormer 自适应框架,解决工业级多任务个性化序列召回中多阶段优化语义不一致问题。核心贡献是统一多目标召回与后续排序的对齐,提升全链路一致性。对从业者而言,该框架可直接嵌入现有推荐系统,弥合召回与精排阶段的优化裂痕。
📖 阅读⬇ PDFDiffusionGS: Generative Search with Query Conditioned Diffusion in Kuaishou
提出了 DiffusionGS,一种基于查询条件扩散模型的生成式个性化搜索方法。核心亮点是将扩散过程引入搜索排序,直接生成与用户意图匹配的搜索结果,突破了传统判别式排序的局限。对于电商和短视频平台,该方法有望提升长尾查询下的搜索体验与转化率。
📖 阅读⬇ PDFOneLoc: Geo-Aware Generative Recommender Systems for Local Life Service
提出 OneLoc,一个面向本地生活服务的地理感知生成式推荐系统。该方法将店铺位置信息显式融入视频推荐,解决了地理位置与内容兴趣的联合建模难题。对本地生活推荐场景具有直接落地价值,能提升门店到访和线上转化。
📖 阅读⬇ PDFUniECS: Unified Multimodal E-Commerce Search Framework with Gated Cross-modal Fusion
提出 UniECS,一个带门控跨模态融合的统一多模态电商搜索框架。核心贡献在于打破固定模态配对的限制,支持任意模态组合下的统一检索,并引入门控机制动态融合多模态信息。为电商搜索提供了可扩展且全面的多模态基线,减少了重复开发成本。
📖 阅读⬇ PDFKuaiLive: A Real-time Interactive Dataset for Live Streaming Recommendation
发布了 KuaiLive,一个面向直播推荐的大规模实时交互数据集。该数据集捕捉了直播中动态内容、实时互动及用户即时反馈,弥补了现有数据集实时性不足的缺陷。为研究者在直播场景下的行为建模、在线学习等方向提供了关键基准。
📖 阅读⬇ PDFKLAN: Kuaishou Landing-page Adaptive Navigator
该工作针对多页面架构平台,提出快手落地页自适应导航器 KLAN,通过两阶段交互范式动态调整导航策略,提升用户跨页面转化效率。核心贡献在于平衡全域一致性与页面个性化,显著优化了多页面场景下的用户体验和业务指标。对于需要在复杂多页面环境中做流量分发的从业者,该方法提供了可落地的自适应导航方案。
📖 阅读⬇ PDFGREAT: Guiding Query Generation with a Trie for Recommending Related Search about Video at Kuaishou
本文提出 GREAT 方法,利用 Trie 树结构引导查询生成,为快手短视频场景自动推荐相关搜索词,从而在用户浏览时更好地满足信息获取需求。其亮点在于通过高效的前缀树约束生成高质量、多样化的搜索建议,解决了短视频场景下相关搜索推荐的实时性和相关性难题。对从事视频内容发现与搜索推荐的工程师来说,提供了一种兼顾效率和效果的查询推荐范式。
📖 阅读⬇ PDFKAT-V1: Kwai-AutoThink Technical Report
发布Kwaipilot-AutoThink(KAT),一个开源40B参数大语言模型,针对推理密集型任务中的「过度思考」问题。核心贡献是自动思考训练范式,按需减少不必要的推理步骤。对从业者而言可提升推理效率、降低计算成本。
📖 阅读⬇ PDF提出一种自适应去毒化生成的个性化查询自动补全方法,融合用户长期和短期兴趣,在生成补全建议时动态消除有害或不恰当内容。该方法平衡个性化与安全性,对提升现代搜索引擎的用户体验有实际意义。
📖 阅读⬇ PDFGenerate the browsing process for short-video recommendation
该工作提出一种生成式方法,动态模拟用户在短视频推荐中的浏览过程,用于预测观看时长。区别于依赖多模态特征的传统方法,生成式模拟能更灵活地捕获用户观看旅程,为短视频推荐系统提供新的建模视角。
📖 阅读⬇ PDFGenerative Regression Based Watch Time Prediction for Short-Video Recommendation
本文针对短视频推荐中的观看时长预测问题,提出一种生成式回归方法。通过将观看时长建模为连续交互并采用生成式损失,能够更精细地捕捉用户参与程度。该方法为推荐系统提供了更精准的用户黏性信号,有助于优化排序策略和提升平台收益。
📖 阅读⬇ PDFGAS: Generative Auto-bidding with Post-training Search
GAS 提出结合生成式出价与训练后搜索的自动出价方法,广告主可调节条件以生成最优出价。该方法在训练后通过搜索优化条件,灵活平衡成本与效果,大幅提升广告投放效率。这为在线广告自动出价提供了一种高效且可解释的解决方案,对广告平台收入优化具有直接价值。
📖 阅读⬇ PDFCRM: Retrieval Model with Controllable Condition
CRM 提出一种支持可控条件的检索模型,用于推荐系统召回阶段,可根据业务需求动态调整召回策略。通过注入条件信号,模型能同时优化相关性和商业目标,如内容多样性或特定类目曝光。这为工业级推荐系统提供了更灵活的变现和用户体验平衡方案。
📖 阅读⬇ PDFAdaptive$^2$: Adaptive Domain Mining for Fine-grained Domain Adaptation Modeling
Adaptive² 提出自适应域挖掘方法,自动从数据中学习细粒度域划分,用于域适应建模。与依赖人工定义域不同,该方法动态发现数据分布差异,从而更精细地适应不同广告场景。该技术能有效缓解多域数据漂移问题,提升广告点击率和转化率预估的跨域泛化能力。
📖 阅读⬇ PDFQARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou
介绍快手多模态推荐系统QARM,通过量化对齐的方式融合多模态大模型信息进行用户兴趣建模,展示了工业界如何高效利用多模态特征提升推荐效果,对大规模推荐系统落地多模态有借鉴价值。
📖 阅读⬇ PDFKuaiFormer: Transformer-Based Retrieval at Kuaishou
提出KuaiFormer,一种基于Transformer的检索模型,用于快手大规模内容推荐,替换传统检索方法,直接处理海量候选项以提升召回效率,为推荐系统检索阶段提供新范式。
📖 阅读⬇ PDFHoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou
提出层级多专家门控网络HoME,用于快手短视频多任务学习,改进MoE范式在工业界多任务共享与冲突中的实践问题,为多任务推荐模型设计提供经验教训。
📖 阅读⬇ PDFTWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou
TWIN V2 在快手超长用户行为序列建模场景下,扩展了对长期兴趣的建模能力,以增强 CTR 预测。核心贡献是提出可扩展的架构,有效处理数万长度级别的行为序列,同时控制计算开销。这对大规模推荐系统捕捉长期依赖具有重要实用价值。
📖 阅读⬇ PDFMMBee: Live Streaming Gift-Sending Recommendations via Multi-Modal Fusion and Behaviour Expansion
MMBee 针对直播场景的虚拟礼物推荐,提出多模态融合与行为扩展方法,综合视频、音频、文本弹幕及用户行为等多源信号进行精细建模。通过多模态Transformer与行为序列扩展,显著提升了礼物推荐的相关性和实时性。对直播电商及内容平台从业者,该技术能有效提高用户付费转化和互动深度。
📖 阅读⬇ PDFTIM: Temporal Interaction Model in Notification System
TIM 为移动应用的通知系统引入时间交互模型,显式建模用户在不同时间窗口对通知的反应模式,并据此优化发送时机。该模型结合时序注意力机制,捕捉周期性行为与瞬间兴趣,从而在合适时刻推送以最大化用户活跃度。对App运营和用户增长团队,它能减少骚扰感、提升留存和DAU。
📖 阅读⬇ PDF提出结合大语言模型的序列推荐方法,能够同时为用户推荐视频及其相关评论,突破传统推荐仅关注视频的局限。通过LLM的丰富语义理解,模型可捕捉视频与评论文本的细粒度关系,从而提升推荐的多样性和用户参与度。对于视频平台,该方案为内容生态系统提供了新的流量分配思路,具有显著商业价值。
📖 阅读⬇ PDF该论文提出一种面向直播推荐的滑动窗口数据流处理范式,能动态平衡数据的时效性和模型训练的准确性。通过增量更新和窗口衰减机制,系统可在极低延迟下捕捉内容热度变化,同时避免灾难性遗忘。对于实时性要求高的直播平台,该方案可显著提升推荐点击率与用户观看时长。
📖 阅读⬇ PDFNon-autoregressive Generative Models for Reranking Recommendation
提出非自回归生成模型用于推荐重排序,通过并行解码加速生成候选项目序列,提升多阶段推荐系统的效率与效果。相比传统自回归排序,该方法在保持排序质量的同时大幅降低推理延迟,对需实时服务的推荐从业者具有重要实用价值。
📖 阅读⬇ PDFMulti-Epoch Learning for Deep Click-Through Rate Prediction Models
针对工业级点击率预测模型普遍存在的单轮过拟合问题,提出多轮训练学习框架,通过延长训练周期提升模型表现。核心贡献在于揭示了多轮训练对CTR模型的增益机制,为从业者提供了实用的训练策略以缓解性能退化。
📖 阅读⬇ PDFReinforcing User Retention in a Billion Scale Short Video Recommender System
在大规模短视频推荐系统中,引入强化学习直接优化用户长期留存指标。核心贡献是证明了在大规模场景下通过留存驱动的策略学习可有效提升用户活跃度,为从业者提供了面向增长目标的推荐优化新范式。
📖 阅读⬇ PDFKuaipedia: a Large-scale Multi-modal Short-video Encyclopedia
构建了大规模多模态短视频百科全书Kuaipedia,整合视频、文本等模态的结构化知识。亮点在于为短视频理解与检索提供百科全书式知识库,弥补传统文本百科的多模态不足。对从业者,可用于增强视频搜索、推荐与内容生成等下游应用。
📖 阅读⬇ PDFBillion-user Customer Lifetime Value Prediction: An Industrial-scale Solution from Kuaishou
提出了快手面向十亿级用户的客户生命周期价值LTV预测工业级解决方案。核心是设计大规模分布式深度学习模型,高效处理海量行为数据以准确估算长期收益。该方案为广告投放、用户留存等运营决策提供关键量化依据,对大规模推荐与商业化系统意义重大。
📖 阅读⬇ PDFConcept-Aware Denoising Graph Neural Network for Micro-Video Recommendation
针对微视频推荐,提出概念感知的去噪图神经网络,通过利用视频概念信息和去除交互噪声提升推荐准确性。核心贡献在于将高层语义概念引入图学习,并设计去噪机制应对短时流量和内容多样性。对短视频平台推荐算法工程师,该方法有助于解决数据稀疏和噪声问题。
📖 阅读⬇ PDF提出集成式中文端到端口语理解方法,直接从音频流中检测异常事件,跳过分步ASR和NLU的级联误差。核心贡献在于联合优化语音识别和意图理解,并利用集成学习提升鲁棒性。对音频监控、客服质检等场景,实现了更高效的流式异常事件检测。
📖 阅读⬇ PDFllama.cpp 13 条
「llama.cpp」b9747 版为服务端新增通过 /models/sse 实时跟踪模型加载进度的能力,并完善路由通知的并发处理与文档。对自建本地推理服务的人,改善了模型加载阶段的可观测性。
「llama.cpp」b9745 版为投机解码增加对「Step3.5/3.7」flash 「MTP」多头机制的支持,新增 mtp_layer_offset 等接口并改造多头草稿流程。对在本地端侧追求投机解码加速的开发者,是又一项推理提速的工程更新。
「llama.cpp」b9744 版重构 until 类「GBNF」语法生成,改用 AC 自动机实现并补充多字符串测试。属于结构化输出/受限解码相关的底层改进,对依赖语法约束生成的应用有间接收益。
llama.cpp b9736 修复了 GLM-5.2 模型加载失败问题:该模型的 DSA『lightning indexer』只在部分层存在,而旧加载器在每层都强制创建五个 indexer 张量导致缺张量报错;现改为按可选张量加载(indexer 运行时尚未实现)。对在本地跑 GLM-5.2 GGUF 的用户是关键修复。
llama.cpp b9735 优化了 CPU 上的 AMX 量化路径,将分区在 n_batch 乘 M 上展平以让每个线程都参与量化,在 Intel Xeon 上 prefill 吞吐提升约 7%。属 CPU 推理性能优化,对纯 CPU 部署有一定价值。
llama.cpp 发布 b9738,修复了 server 在 CORS 代理场景下会错误转发认证头的安全问题,避免凭证泄露。对自建大模型推理服务的部署者来说是一个值得关注的安全修复。
「llama.cpp」b9739 版本为 Windows 平台 OpenCL Adreno arm64 构建补上了缺失的发布链接,并覆盖 macOS、iOS、Linux、Android、Windows 多端及 Vulkan、ROCm、SYCL、OpenVINO 等后端。属常规发布工程维护,对跨平台部署本地推理的用户有打包完整性意义。
「llama.cpp」b9737 版本为 s390x 架构的 Docker 构建预先打包了 Web UI,属于标注为「不发布」的构建工程改动。对在 IBM s390x 平台上容器化部署 llama.cpp 的用户有打包便利。
「llama.cpp」b9733 版本为其 WebGPU 后端在「Vulkan + NVIDIA」组合下新增了 F16 适配器开关,并覆盖多平台与多后端构建。属持续完善 WebGPU 推理路径的工程改进,为浏览器侧及异构 GPU 推理提供更精细的精度控制。
「llama.cpp」b9743 版让「json-schema-to-grammar」的空白处理规则与解析器对齐。是约束生成「JSON」结构时减少边界问题的小修复,对做工具调用/结构化输出的开发者有帮助。
「llama.cpp」b9742 版修复 hexagon 后端在 ssm-conv 权重上使用填充步幅的问题。属于面向高通 Hexagon 端侧加速的状态空间模型算子修复,对端侧部署「SSM」类模型的人是稳定性补丁。
llama.cpp 发布 b9723,为 Qwen3.5 与 3.6 增加「EAGLE3」推测解码草稿支持,并加入延迟边界检查点、恢复对混合模型的支持。EAGLE3 推测解码可显著提升解码吞吐,对本地高速推理的从业者有实际价值。
llama.cpp 提交 b9717,为 Power10 平台的 Q8/Q4 MMA 量化矩阵乘法增加对 K 尾部(K 不被 kc 整除)的支持,使更多工作负载能走 MMA 内核、减少回退。属特定 CPU 架构的量化算子优化,受众较窄但属推理优化范畴。
蚂蚁 16 条
AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents
AtlasVA 提出一种自演化的视觉技能记忆,让 VLM 智能体在无需教师示范的情况下,将经验存储为可重用的视觉-语言技能而非纯文本。该方法通过强化学习在线构建与更新技能库,显著提升长程任务中的样本效率与泛化能力。对从业者而言,它降低了构建自适应智能体对人工标注的依赖,并提供了一种从交互中持续成长的新范式。
📖 阅读⬇ PDFBridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering
构建了一个连接学术与工业的属性图聚类基准,系统评估现有AGC方法在真实工业数据集上的表现。核心贡献是揭示学术研究到工业落地的差距,为图神经网络和聚类算法的从业者提供了标准化评估平台与实践指引。
📖 阅读⬇ PDFOpenDerisk: An Industrial Framework for AI-Driven SRE, with Design, Implementation, and Case Studies
提出面向站点可靠性工程的AI驱动工业框架OpenDerisk,包含设计、实现与案例研究。该框架旨在模拟专家诊断,降低现代软件的运维负担,对提升SRE自动化水平具有实践指导意义。
📖 阅读⬇ PDF提出 NES,一种基于历史编辑轨迹学习的免指令、低延迟下一编辑建议框架。它不依赖自然语言指令,直接从开发者的编辑流中预测后续代码修改,大幅降低交互延迟与认知打断。对 IDE 工具开发者而言,可集成此方案提升编程流畅度与采纳率。
📖 阅读⬇ PDFBootstrapping your behavior: a new pretraining strategy for user behavior sequence data
引入一种自举式用户行为序列预训练策略,通过创新的自监督任务增强序列表示学习。该策略可提升下游推荐等任务的效果,为工业界UBS建模提供新的预训练范式。
📖 阅读⬇ PDFTierBase: A Workload-Driven Cost-Optimized Key-Value Store
提出TierBase,一种基于工作负载驱动的成本优化键值存储系统,通过空间-性能成本模型动态选择存储介质。该系统可在保证性能的同时显著降低存储成本,适用于数据密集型应用。
📖 阅读⬇ PDFKAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation
提出知识增强生成框架KAG,改进RAG在专业领域应用中的知识图谱与文本集成问题,提升LLM在垂直领域的准确性和可靠性,对构建领域知识应用有重要价值。
📖 阅读⬇ PDFSCOOT: SLO-Oriented Performance Tuning for LLM Inference Engines
SCOOT 提出面向服务等级目标(SLO)的 LLM 推理引擎性能自动调优方法,旨在满足延迟、吞吐等约束。核心贡献是设计了一个面向 SLO 的调优框架,可动态调整推理参数以在保障服务质量的同时最大化资源效率。这对从业者部署生产级 LLM 服务具有直接参考价值。
📖 阅读⬇ PDFSQLfuse: Enhancing Text-to-SQL Performance through Comprehensive LLM Synergy
SQLfuse 通过综合协同多个 LLM 的能力(如代码生成、语义校验等)来提升 Text-to-SQL 任务表现。该方法不再依赖单一大模型,而是设计协同流程互补增强,提高复杂查询的转换准确率。这为构建高可靠性的自然语言数据库查询接口提供了新思路。
📖 阅读⬇ PDFAntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster
提出AntBatchInfer,一个在Kubernetes集群上的弹性批量推理系统,通过动态资源伸缩解决大规模离线推理的稳定性与性能瓶颈。核心贡献在于实现了推理任务的自动弹性调度和容错,显著提升了推理吞吐量并降低资源浪费。对于工业级AI应用,该方案可大幅简化运维并优化推理成本。
📖 阅读⬇ PDFAntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes
AntDT是一种自适应分布式训练框架,能够动态检测和缓解集群中的慢节点(Straggler)问题,通过优化任务分配与通信策略提升训练效率。其关键创新在于无需人工干预的弹性调度机制,使大规模训练更稳定且加速明显。对于需频繁进行分布式训练的团队,该框架可有效降低算力浪费和训练耗时。
📖 阅读⬇ PDFCouler: Unified Machine Learning Workflow Optimization in Cloud
Couler提出了一种云原生的统一机器学习工作流优化框架,能以声明式方式定义复杂的ML管道,并自动进行跨平台的资源调度与优化。其核心亮点在于支持多种工作流引擎和大规模集群下的动态执行,显著降低了上云门槛和运维成本。对于企业级AI应用,该工具可加速从研发到产品的迭代效率。
📖 阅读⬇ PDFFrom Beginner to Expert: Modeling Medical Knowledge into General LLMs
将医学知识系统性地融入通用大语言模型,使模型从通用对话者进化为专业医疗助手,缓解LLM在临床知识、诊断推理等方面的不足。该方法为医疗AI落地提供了可行的知识增强路径,对医疗问答、辅助诊断等应用意义重大。
📖 阅读⬇ PDFHGV4Risk: Hierarchical Global View-guided Sequence Representation Learning for Risk Prediction
提出层次化全局视图引导的序列表示学习方法HGV4Risk,用于风险预测时间序列建模。核心是引入层次化全局视图捕捉长程依赖与结构信息,提升医疗、金融等场景的风险预估精度。对从业者,该方法能增强风险预警能力,改善健康管理与风控决策。
📖 阅读⬇ PDFConfidence May Cheat: Self-Training on Graph Neural Networks under Distribution Shift
研究图神经网络在分布偏移下的自训练问题,发现高置信度伪标签可能产生欺骗性,导致性能下降。提出相应的去偏或鲁棒自训练策略,提升半监督图学习的泛化能力。对从事图数据挖掘和半监督学习的工程师具有警示与改进意义。
📖 阅读⬇ PDFMaxwell: a hardware and software highly integrated compute-storage system
提出 Maxwell 计算存储系统,通过软硬件高度融合设计,提升数据存储与处理效率。亮点是紧耦合架构减少了数据搬移开销,加速上层业务响应。对大数据和云基础设施团队,该系统提供了一种高性能的计算存储一体化方案。
📖 阅读⬇ PDF美团 62 条
HMAF: A Hierarchical Multi-Slot GD-RTB Allocation Framework
提出分层多槽位GD-RTB联合分配框架HMAF,同时优化保量合约与实时竞价广告在多槽位上的投放。该框架兼容多层级投放约束,并能端到端学习最优分配策略,为广告平台平衡保量与收益提供了更高效的解决方案。
📖 阅读⬇ PDFUME: A Unified Meta-Generalization Framework for Cross-Domain ETA
UME提出了统一元泛化框架,用于跨域即时物流ETA预测,解决不同城市、不同配送网络下模型难以泛化的痛点。通过元学习提取跨域共性知识并可快速适应新域,大幅提升末页预计到达时间的准确度,对即时配送效率优化至关重要。
📖 阅读⬇ PDFBeyond Single Slot: Joint Optimization for Multi-Slot Guaranteed Display Advertising
该工作超越传统单槽位假设,提出多槽位保证展示广告的联合优化方法,能在多个曝光位置间动态分配保量合约。这有效提升了平台流量利用率和广告主效果满意度,是品牌广告营收优化的关键进展。
📖 阅读⬇ PDFMeituan Merchant Business Diagnosis via Policy-Guided Dual-Process User Simulation
针对美团商家经营诊断,提出策略引导的双过程用户仿真方法,可模拟群体级用户行为以进行反事实评估。核心贡献是解决仿真器中的结构性问题,无需昂贵在线实验即可可信评估商家策略,对搜索推荐系统的离线评估与策略优化具有重要意义。
📖 阅读⬇ PDFLongCat-Next: Lexicalizing Modalities as Discrete Tokens
本文提出 LongCat-Next,将视觉等多模态信息词汇化(lexicalize)为离散 token,从而把下一 token 预测(NTP)范式扩展到多模态领域,统一到与语言相同的自回归建模框架。其亮点是简化多模态系统设计并沿用 NTP 的高效训练与推理。对从业者而言,便于构建统一的多模态理解与生成模型。
📖 阅读⬇ PDFSnapMLA: Efficient Long-Context MLA Decoding via Hardware-Aware FP8 Quantized Pipelining
提出SnapMLA方法,针对DeepSeek的多头潜在注意力(MLA)架构,通过硬件感知的FP8量化流水线实现高效长上下文解码。核心贡献是把FP8注意力有效整合进MLA解码阶段,显著提升解码吞吐并降低显存占用。对部署长上下文大模型的工程实践至关重要。
📖 阅读⬇ PDFMultimodal Generative Retrieval Model with Staged Pretraining for Food Delivery on Meituan
面向美团外卖场景,提出多模态生成式检索模型,采用分阶段预训练充分利用图文等多模态特征。该模型实现了精准的食谱与商品检索,为餐饮配送等富模态场景下的生成式检索落地提供了有效框架。
📖 阅读⬇ PDFLongCat-Flash-Thinking-2601 Technical Report
发布 LongCat-Flash-Thinking-2601 技术报告,介绍一个 5600 亿参数的开源混合专家(MoE)推理模型,具备出色的智能体推理能力。核心亮点是大规模 MoE 架构与强推理、Agent 能力的结合,并以开源形式发布。对于需要复杂推理和构建智能体应用的从业者,这是一个值得评估的高性能开源底座。
📖 阅读⬇ PDFRIA: A Ranking-Infused Approach for Optimized listwise CTR Prediction
针对推荐重排序中将排序与重排解耦导致的列表端评价薄弱问题,提出RIA方法将排序信息注入重排模型以优化列表级CTR预测。核心贡献在于端到端地使重排模块感知排序信号,提升整体列表的点击率预估准确度。对推荐系统从业者能直接提升重排阶段线上效果。
📖 阅读⬇ PDFFITRep: Attention-Guided Item Representation via MLLMs
FITRep利用多模态大语言模型内部的注意力分布,生成能更好区分视觉文本相似物品的表示,缓解近似重复内容导致的体验下降。贡献在于发掘MLLMs注意力作为细粒度判别信息,无需额外标注即可提升物品嵌入质量。对电商、内容平台的物品去重和推荐具有实际价值。
📖 阅读⬇ PDFLongCat-Flash-Omni Technical Report
LongCat-Flash-Omni 是一个 5600 亿参数的开源全模态模型,在实时音频与视觉交互上表现出色,并采用课程式学习策略进行训练。对从业者而言,它为多模态实时交互的研究与部署提供了重要的开源参考。
📖 阅读⬇ PDF针对大规模营销资源分配,提出一种双层决策导向的因果学习方法,统一融合观测数据与实验数据。核心贡献是解决了传统两阶段方法忽略决策优化目标的问题,为从业者提供了更精准的效果预估与预算分配方案。
📖 阅读⬇ PDFUNO-Bench是一个统一基准,用于系统评估全模态(omni)模型在单模态理解与多模态联合理解之间的组合规律。其核心贡献是揭示了不同模态如何组合会影响模型整体性能,并由此总结出可指导设计的组合规律(compositional law)。对构建更高效全模态大模型的从业者,它提供了选择模态配比与评估能力的参照。
📖 阅读⬇ PDFKP-Agent: Keyword Pruning in Sponsored Search Advertising via LLM-Powered Contextual Bandits
KP-Agent是一种由大语言模型驱动的上下文Bandit方法,用于赞助搜索广告中的关键词剪枝,可自动识别并移除低效关键词。核心贡献是将大模型的语义理解能力与上下文Bandit的在线探索决策能力结合,高效优化关键词集合并降低人工运营成本。对广告投放从业者,这是一套能提升投放效果与预算利用率的自动化工具。
📖 阅读⬇ PDFMTmixAtt: Integrating Mixture-of-Experts with Multi-Mix Attention for Large-Scale Recommendation
将专家混合机制与多重混合注意力结合,用于大规模推荐排序模型。该工作旨在替代人工特征工程与场景定制架构,提升模型灵活性和表达能力,对工业推荐系统的效率优化具有重要参考价值。
📖 阅读⬇ PDF美团技术报告,介绍如何用大语言模型革新其智能交互(客服)系统,同时实现用户满意度提升与成本下降。亮点在于展示了LLM在真实大规模客服场景中的完整落地方案与实际收益。对从业者而言,这是理解企业级LLM应用与降本增效路径的实用参考。
📖 阅读⬇ PDFFrom Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance
设计两阶段蒸馏框架,从推理型大语言模型向BERT迁移知识,用于电商搜索相关性预测。该方法在兼顾低延迟要求的同时,提升了搜索相关性模型的效果,为LLM在搜索系统中的落地提供了可行路径。
📖 阅读⬇ PDFSOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures
提出SOP-Maze基准,用于评估大模型在复杂商业标准操作流程(SOP)中的多步推理与决策能力,模拟真实业务场景并检验模型遵循流程、应对异常的表现。核心贡献是填补了商业流程类评测的空白。为开发更可靠的业务流程自动化Agent提供了重要评测工具。
📖 阅读⬇ PDFIntroducing LongCat-Flash-Thinking: A Technical Report
发布LongCat-Flash-Thinking技术报告,这是一个5600亿参数的开源混合专家(MoE)推理模型,通过精心设计的训练流程实现高效推理。其开源属性和强大推理性能对大规模MoE架构的研究与落地具有重要参考意义。
📖 阅读⬇ PDFLongCat-Flash Technical Report
发布LongCat-Flash技术报告,介绍一个5600亿参数的MoE语言模型,在保持计算效率的同时具备高级智能体(Agent)能力。它为大规模智能体应用提供了实用方案,对大模型部署与Agent系统开发具有重要参考价值。
📖 阅读⬇ PDFGenerative Bid Shading in Real-Time Bidding Advertising
提出生成式出价遮蔽方法,用生成模型直接预测最优遮蔽出价,替代传统的两阶段「出价景观建模+启发式调整」流程。核心优势是端到端优化,避免分阶段误差累积,有效控制广告主成本。对程序化广告而言,该方法可提升实时竞价效率与 ROI。
📖 阅读⬇ PDFGenerative Large-Scale Pre-trained Models for Automated Ad Bidding Optimization
利用大规模生成式预训练模型进行自动广告出价优化,以应对多样化的广告主目标与现实约束。该方法通过预训练捕获出价策略的通用模式,再适配至具体场景,实现了更平衡的整体出价性能。为构建通用自动竞价引擎提供了新范式,降低了策略定制成本。
📖 阅读⬇ PDFLocalGPT: Benchmarking and Advancing Large Language Models for Local Life Services in Meituan
LocalGPT 构建了面向美团本地生活服务场景的大语言模型全面基准,并在此基础上提出模型能力提升方案,涵盖理解、推理、服务推荐等任务。其贡献在于填补了本地生活领域 LLM 评测的空白,并给出了针对该垂直场景的适配与优化实践。对在本地生活、O2O 领域落地大模型的从业者具有直接参考价值。
📖 阅读⬇ PDF本文针对在线广告预算分配问题,提出基于隐表示聚类与多任务表示学习的鲁棒分配框架,通过捕获用户群组结构来增强策略的泛化能力和抗噪性。核心贡献在于将表示学习与预算分配决策深度融合,在复杂营销环境中实现更稳定的用户增长。对于从事计算广告和营销优化的从业者,该工作提供了一种能适应数据分布变化的高效鲁棒分配方案。
📖 阅读⬇ PDFBreaker: Removing Shortcut Cues with User Clustering for Single-slot Recommendation System
Breaker 方法针对单槽推荐中模型依赖简易快捷线索(shortcut)的问题,采用用户聚类来消除这种捷径偏差,迫使模型学习更本质的偏好表征。其创新在于通过聚类感知的训练策略切断虚假相关性,从而提升推荐系统的长期效果和公平性。对单槽或点式推荐系统开发者而言,这是一个有启发性的去偏训练技术。
📖 阅读⬇ PDFMTGenRec: An Efficient Distributed Training System for Generative Recommendation Models in Meituan
面向美团的生成式推荐模型,提出MTGenRec高效分布式训练系统,针对大规模推荐场景优化训练吞吐与模型质量。该系统为工业级生成式推荐的落地提供训练基础设施参考。
📖 阅读⬇ PDFMRGRP: Empowering Courier Route Prediction in Food Delivery Service with Multi-Relational Graph
提出MRGRP方法,利用多关系图建模骑手、订单、商家等多元关系,提升外卖配送路线预测准确性。该方法有助于优化即时配送任务调度,改善配送效率。
📖 阅读⬇ PDF构建面向中文的音频图灵测试基准,用于评估基于大语言模型的语音合成系统的人声逼真度。该基准为衡量TTS系统的类人程度提供了客观工具,揭示当前技术进展与差距。
📖 阅读⬇ PDFIterQR: An Iterative Framework for LLM-based Query Rewrite in e-Commercial Search System
提出 IterQR,一种基于大模型的迭代式查询重写框架,用于电商搜索。通过多轮迭代优化查询表达,更精准地匹配用户意图与候选商品,提升搜索个性化与准确性。
📖 阅读⬇ PDFSessionRec: Next Session Prediction Paradigm For Generative Sequential Recommendation
SessionRec 提出下一会话预测新范式,以生成式序列推荐统一建模用户跨会话行为,解决传统下一项预测与会话级交互的不对齐问题。该范式更贴合真实推荐场景,有望提升长期用户满意度。
📖 阅读⬇ PDF研究物流仓库中在线任务分配与终身路径规划的联合求解问题,强调基于规则的简单系统在实际复杂环境中表现优异且易于部署。该发现为物流自动化提供了实用性强、可解释性高的技术路径。
📖 阅读⬇ PDFNLGR: Utilizing Neighbor Lists for Generative Rerank in Personalized Recommendation Systems
NLGR 利用邻居列表构建生成式重排序方法,以解决个性化推荐系统中组合搜索空间带来的挑战。核心贡献在于将生成式范式引入重排阶段,能更灵活地优化初始排序列表。对从业者而言,该方法可提升重排效率和推荐质量。
📖 阅读⬇ PDFBalancing Efficiency and Effectiveness: An LLM-Infused Approach for Optimized CTR Prediction
本文提出一种融合大语言模型(LLM)的CTR预测方法,在引入丰富语义信息的同时,通过高效架构平衡推理开销。利用LLM理解用户和广告文本,显著提升点击率预估准确性,同时保持线上推理的延迟和资源可接受。该方法为广告系统注入语言智能提供了实用路径,兼顾效果与成本。
📖 阅读⬇ PDFEGEAN: An Exposure-Guided Embedding Alignment Network for Post-Click Conversion Estimation
提出EGEAN网络,通过曝光引导的嵌入对齐来改善点击后转化率估计中的样本选择偏差问题,核心贡献是将曝光信息显式用于表征对齐,为广告系统提供更无偏的CVR预估,对从业者优化转化模型有参考意义。
📖 阅读⬇ PDFScene-wise Adaptive Network for Dynamic Cold-start Scenes Optimization in CTR Prediction
该文提出场景自适应网络,专门解决移动电商推荐中动态冷启动场景的 CTR 预测难题。通过感知不同上下文场景并自适应调整模型参数,有效缓解新场景下数据稀疏问题。这为位置敏感型推荐系统的冷启动优化提供了可落地的方案。
📖 阅读⬇ PDFEXIT: An EXplicit Interest Transfer Framework for Cross-Domain Recommendation
EXIT 框架针对跨域推荐提出显式兴趣迁移机制,在美团等多业务场景下实现用户兴趣知识的可解释迁移。亮点是显式建模跨域兴趣对齐,避免负迁移,提升多域推荐准确性。对工业界需兼顾多业务线的推荐系统开发者意义重大。
📖 阅读⬇ PDFSTATE 估计器为在线受控实验中的重尾指标提供鲁棒的平均处理效应(ATE)估计,以强化方差缩减。其鲁棒性可降低重尾噪声对实验结论的干扰,提升敏感度。这对于依赖 A/B 测试进行数据驱动决策的公司是一大改进。
📖 阅读⬇ PDFDecision Focused Causal Learning for Direct Counterfactual Marketing Optimization
本文提出决策导向的因果学习方法,直接面向反事实营销优化中的预算分配问题进行建模。亮点是将因果推断与决策优化联合,模型学习时直接最大化营销效果,而非先估计再优化。这对需要精准投放和预算分配的平台极具落地意义。
📖 阅读⬇ PDF本文针对按需外卖配送中的实时多对一订单池化问题,提出通过增强图表示学习来利用熟练骑手特征与订单关联,优化派单决策。核心贡献在于构建了能捕捉骑手技能和动态订单关系的图模型,从而提升池化效率和配送时效。对物流调度和即时配送平台的算法工程师有重要借鉴意义,可直接改善配送成本和用户体验。
📖 阅读⬇ PDFNegation Triplet Extraction with Syntactic Dependency and Semantic Consistency
该论文首次提出否定三元组抽取任务,同时识别否定线索、范围和主语,弥补了现有方法忽略否定的主体的缺陷。通过融合句法依赖结构与语义一致性约束,模型能更精准地捕捉否定语义,在多个基准上取得最佳性能。对于情感分析、信息抽取等NLP应用,该技术可增强对否定表达的深层理解,提升下游模型鲁棒性。
📖 阅读⬇ PDFExploiting Duality in Open Information Extraction with Predicate Prompt
利用对偶性和谓词提示改进开放信息抽取,通过捕捉主语与宾语的对偶关系并结合谓词语义提示,更准确地提取无模式三元组。该方法提升了开放域关系抽取的覆盖率和准确性,对知识图谱构建与信息检索从业者具有直接帮助。
📖 阅读⬇ PDFSPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search
针对美团本地服务搜索的特性,提出SPM框架,结合结构化预训练和专用匹配网络,精准建模查询与条目的相关性。该方法有效应对服务类搜索的非标准化表达和稀疏交互问题,为垂直搜索场景的排序模型设计提供了参考。
📖 阅读⬇ PDFA Collaborative Transfer Learning Framework for Cross-domain Recommendation
提出协同迁移学习框架,通过共享表征与域间知识蒸馏,解决跨业务域推荐中CTR预测不准和冷启动问题。该方法能有效利用高流量域带动低流量域,提升整体推荐生态的转化效率,对多业务推荐平台的从业者富有启发性。
📖 阅读⬇ PDFEnhancing Personalized Ranking With Differentiable Group AUC Optimization
该工作提出可微分的分组AUC优化方法,直接以AUC为目标训练排序模型,弥补交叉熵损失与AUC指标间的鸿沟。核心亮点是实现了端到端的AUC优化,对从业者而言能显著提升个性化排序系统的性能。
📖 阅读⬇ PDFMDDL: A Framework for Reinforcement Learning-based Position Allocation in Multi-Channel Feed
提出MDDL框架,利用强化学习在多频道信息流中动态分配物品位置,并混排成最终内容序列。核心贡献为多频道联合位置分配提供了可落地的解决方案,帮助从业者提升信息流整体的用户体验和业务指标。
📖 阅读⬇ PDFHiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction
提出HiNet模型,通过分层信息提取实现多场景多任务学习的有效知识迁移与共享。关键创新在于层次化建模场景与任务关系,为工业级推荐系统提供了高效、可扩展的多场景解决方案。
📖 阅读⬇ PDFPIER: Permutation-Level Interest-Based End-to-End Re-ranking Framework in E-commerce
PIER框架在电商摘要中提出排列级别的兴趣建模,通过端到端重排序捕捉物品间的相互影响。核心贡献在于将用户兴趣与物品排列直接关联,帮助从业者构建更贴近用户决策过程的重排序模型,提升转化效果。
📖 阅读⬇ PDFA Deep Behavior Path Matching Network for Click-Through Rate Prediction
提出深度行为路径匹配网络,模拟用户决策中的认知路径以预测点击率。其核心贡献在于将行为序列与心理学路径相结合,为从业者理解用户深层意图并提升CTR预估准确性提供了新思路。
📖 阅读⬇ PDFDecision-Making Context Interaction Network for Click-Through Rate Prediction
提出决策上下文交互网络,专门建模影响用户决策的上下文信息交互。该模型弥补了现有方法忽略决策情境的缺陷,帮助从业者捕捉更细粒度的用户意图,显著提升CTR预测效果。
📖 阅读⬇ PDFSampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction
提出一种基于采样的方法高效建模超长用户行为序列用于点击率CTR预测。核心贡献在于证明简洁的采样策略可替代复杂序列模型,大幅降低显存与计算开销而效果不降。为工业级推荐系统处理长行为序列提供了轻量级且易于部署的解决方案。
📖 阅读⬇ PDFNMA: Neural Multi-slot Auctions with Externalities for Online Advertising
提出神经多槽拍卖模型NMA,显式建模广告展示中的外部性效应以优化多广告位分配。核心是将深度学习引入拍卖机制,预测广告间外部性并最大化平台收入。对广告系统从业者,该模型可改进传统GSP拍卖的局限,提升社交网络与电商平台的变现效率。
📖 阅读⬇ PDFHybrid CNN Based Attention with Category Prior for User Image Behavior Modeling
提出混合CNN注意力机制并融合物品类别先验,用于建模用户历史图像点击行为以提升CTR预估。核心是结合图像视觉特征与类别知识,在美团场景下改善图像内容理解与匹配。对电商推荐广告从业者,提供了一种面向图像行为的精准建模路径。
📖 阅读⬇ PDFHybrid Transfer in Deep Reinforcement Learning for Ads Allocation
提出在深度强化学习广告分配中引入混合迁移学习,加速策略收敛并提升平台总收益。核心是通过迁移历史策略或跨域知识,将源场景的经验高效迁移至新场景。对需要快速部署分配决策的流量系统从业者,显著降低冷启动成本并提高优化效率。
📖 阅读⬇ PDF提出一种面向广告分配的强化学习列表级表示学习方法,通过多个辅助任务增强状态表征能力。核心贡献在于将列表上下文信息融入策略学习,提升长序列决策效果。对从业者而言,该方法可显著改善推荐流中广告与内容的混合排序收益。
📖 阅读⬇ PDFDeep Page-Level Interest Network in Reinforcement Learning for Ads Allocation
提出深度页面级兴趣网络,将用户历史行为建模为页面级兴趣表示,用于强化学习广告分配。亮点是捕捉用户在一次浏览中的整体偏好,从而优化广告位分配决策。为信息流广告从业者提供了一种更精准的用户兴趣理解方案,可提升整体收益。
📖 阅读⬇ PDFLearning What You Need from What You Did: Product Taxonomy Expansion with User Behaviors Supervision
利用用户行为作为监督信号,自动扩展产品分类体系,无需大量人工标注。核心贡献是提出一种从行为隐式反馈中学习未知品类的框架,实现动态分类更新。对电商从业者而言,该技术能降低分类维护成本,提升推荐和搜索的结构化数据质量。
📖 阅读⬇ PDFA Framework for Multi-stage Bonus Allocation in meal delivery Platform
针对外卖配送场景,提出一种多阶段奖金分配框架,以平衡平台、骑手与用户体验。亮点在于联合优化不同配送阶段的激励策略,确保运力稳定和服务质量。对外卖平台运营管理人员,该框架提供了精细化的奖励设计方法。
📖 阅读⬇ PDFCross DQN: Cross Deep Q Network for Ads Allocation in Feed
提出Cross DQN跨域深度Q网络,用于信息流广告与原生内容的混排分配。核心贡献是建模跨域依赖关系,在有限广告位下联合优化总体收益与用户体验。对从业者提供了一种强化学习驱动的广告位分配方案,可直接提升电商平台变现效率。
📖 阅读⬇ PDF使用多任务学习框架建模展示广告中用户多步转化(如曝光→点击→购买)的序列依赖关系。核心亮点是同时学习多个转化阶段的预测任务,捕获序列决策中的上下文影响。对广告系统设计者而言,该方法能更精准地预估转化漏斗,优化出价和投放策略。
📖 阅读⬇ PDFTwins: Revisiting the Design of Spatial Attention in Vision Transformers
重新审视视觉Transformer中的空间注意力设计,提出Twins架构,针对密集预测任务(如检测、分割)进行优化。通过改变空间注意力的计算方式,在保持效率的同时提升特征表达质量。对计算机视觉从业者,Twins提供了更强大的主干网络选择。
📖 阅读⬇ PDFConditional Positional Encodings for Vision Transformers
提出条件位置编码(CPE),改变传统固定或可学习的位置编码方式,使编码根据输入token动态生成。CPE能自适应地融入内容信息,提升视觉Transformer的灵活性和性能。该技术可轻松集成到现有ViT模型中,为提升图像识别等任务带来直接收益。
📖 阅读⬇ PDFDARTS-: Robustly Stepping out of Performance Collapse Without Indicators
提出DARTS-方法,在无需依赖崩坏指标的情况下,鲁棒地解决可微架构搜索中的性能崩塌问题。通过改进搜索空间和优化策略,避免了训练过程中的性能突然下降。为神经架构搜索的实际应用扫清障碍,让AutoML更稳定可靠。
📖 阅读⬇ PDFMeta 27 条
「PyTorch」主干提交让「MPS」后端的 flex attention 支持返回 lse,为在 Apple 芯片上实现反向传播的「FlashAttention」做铺垫。对在 Mac 上做注意力相关训练/实验的人是一项后端能力补全。
trunk/eefb217f761df28eec3f4ec47a81cbeb776cae65
「PyTorch」主干提交用共享的展开拷贝辅助函数加速 all_gather_offset 写入。属于分布式通信底层的小幅性能优化,对关注大规模训练通信开销的 Infra 工程师值得留意。
trunk/85d058c80ddd106475818d0753404fa515e4a420: Preserve scalar foreach_lerp_ in Dynamo (#186452)
PyTorch 修复 Dynamo 对标量版「foreach_lerp_」的处理:此前遇到标量重载会一律分解,给 RAdam 等优化器制造额外全尺寸临时张量、推高峰值显存,现仅对张量权重保留分解。对用 torch.compile 训练的工程师,这能降低优化器步骤的显存占用。
trunk/fd03d749d830fbea0c1301e4e4a060b854458daa: Tune all_gather_offset for skewed buckets (#187750)
PyTorch 提交为 all_gather_offset 算子优化偏斜分桶:旧实现每个分片仅用单个 CTA 驱动,少量大分片会让大部分 GPU 闲置;新方案把工作展平为固定大小字节瓦片并以 grid-stride 方式调度 CTA,对任意大小分片做负载均衡,提升通信带宽利用率。对关注分布式训练通信优化的从业者有价值。
trunk/5dc01ed52d8eed40d65371f7611a480cd57b50ac
PyTorch 新增参数连续的 all-gather 算子『symm_mem.all_gather_offset』,面向对称内存做参数连续布局的聚合通信。属分布式训练底层通信原语的增强,对训练框架与并行性能优化有参考价值。
「PyTorch」提交:改用驱动层 API『cuGraphNodeGetType』查询「CUDA Graph」节点类型,避免运行时 API 对 BATCH_MEM_OP 类节点返回未知错误而导致捕获阶段误抛异常。属于 CUDA Graph 注解的健壮性修复,利好依赖图捕获做推理加速的工程实践。
viable/strict/1781856928: Expose distributed backend implementation accessors (#187494)
「PyTorch」新增『torch.distributed.get_backend_impl』并在 c10d 层公开『ProcessGroup.get_backend』,便于实验自定义分布式后端;文档提示后端方法会绕过 torch.compile 追踪且属实验性接口。利好定制通信后端的训练基础设施开发。
与前一条同内容的「PyTorch」主干提交:暴露分布式后端实现访问器,新增 get_backend_impl 并公开 ProcessGroup.get_backend,供自定义后端实验使用。面向训练框架底层开发者。
SnapStream: Efficient Long Sequence Decoding on Dataflow Accelerators
SnapStream 针对数据流加速器上的长序列解码,提出高效处理大 KV 缓存的方法,显著降低片上内存需求。有助于在有限硬件资源下部署长上下文大模型并提升推理效率。对做大模型推理部署与硬件加速的工程师很有价值。
📖 阅读⬇ PDF提出Context-as-AI-Service方法,自动识别并展示LLM生成开发者文档时涉及的跨文件依赖链。帮助开发者理解文档上下文,提升文档实用性和准确性。对使用LLM生成文档的团队,可减少遗漏关键依赖的问题。
📖 阅读⬇ PDFFair Cognitive Impairment Detection Through Unlearning
提出一种基于遗忘学习的公平认知障碍检测方法,从自发语音中识别轻度认知障碍(MCI),旨在减少模型对敏感属性的偏差,提升检测的可扩展性与公平性。对从业者而言,该方法展示了如何在医疗AI中兼顾性能与伦理,尤其适用于大规模语音筛查场景。
📖 阅读⬇ PDFSelf-Pruned Key-Value Attention: Learning When to Write by Predicting Future Utility
提出自剪枝的键值注意力机制,通过预测未来效用动态决定何时写入KV缓存,在长序列生成中减少显存占用与计算量。核心亮点是提升Transformer的推理效率。对长上下文和智能体场景下的高效文本生成具有重要意义。
📖 阅读⬇ PDF该论文提出可供性编译智能与认知阻抗匹配理论 CIMT,是一种仅依赖可观察行为、无需内部元信息的编译器式理论,用于集成大语言模型的系统。核心贡献是在不访问模型内部元信息的前提下实现系统与 LLM 的认知匹配。对从业者而言,它为设计更透明、易调试、健壮的 LLM 应用提供了新思路。
📖 阅读⬇ PDFHow Do Large Language Models Learn Concepts During Continual Pre-Training?
本文研究大语言模型在持续预训练过程中如何学习「狗」这类抽象概念,通过分析模型内部表征的动态演化,揭示概念形成的关键机制与条件。核心价值在于把概念学习过程透明化。对于关注预训练数据配比和模型概念理解能力的从业者,该发现为优化数据分布、提升训练效率提供了指导。
📖 阅读⬇ PDFAfterLearnER 提出在模型训练完成后,用进化优化对一组精选参数进行调整,从而细化已充分训练的模型。核心贡献是将进化算法作为后处理步骤,无需重新训练即可提升性能。对从业者而言,提供了一种灵活高效的微调途径,尤其适合参数空间复杂、难以靠梯度下降优化的场景。
📖 阅读⬇ PDFMetaMorph: Multimodal Understanding and Generation via Instruction Tuning
提出视觉预测指令微调(VPiT),通过简单扩展将预训练大语言模型快速转化为统一的多模态理解与生成模型,无需从头训练。核心贡献是以低成本指令微调路径打通多模态理解与生成。对从业者而言,它显著降低了多模态模型的构建成本与门槛。
📖 阅读⬇ PDFAn Empirical Study of Autoregressive Pre-Training from Videos
对视频自回归预训练进行系统性实证研究,构建了名为Toto的模型系列,将视频视为视觉token序列进行自回归建模。亮点在于以大量实验探索视频自回归预训练的有效性与可行性。对从业者而言,它为视频理解与生成任务提供了可借鉴的预训练范式与经验。
📖 阅读⬇ PDFRecoWorld: Building Simulated Environments for Agentic Recommender Systems
RecoWorld提供了一个构建推荐系统智能体训练环境的蓝图,通过模拟环境使智能体从错误中学习,提升推荐效果。对从业者:推荐系统智能体训练基础设施。
📖 阅读⬇ PDFError-driven Data-efficient Large Multimodal Model Tuning
本文提出一种基于错误驱动的高效数据微调方法,用于大型多模态模型(LMM)。核心贡献在于通过识别模型预测错误来有选择地挑选微调数据,大幅降低数据需求。对从业者而言,该方法能以更少数据实现下游任务性能提升,节省标注成本。
📖 阅读⬇ PDFAdaptive Caching for Faster Video Generation With Diffusion Transformers
本文提出自适应缓存机制,用于加速基于扩散Transformer(DiT)的视频生成。核心贡献是动态选择缓存哪些时间步的计算结果,减少冗余计算。对从业者而言,该方法能显著提升视频生成速度,降低显存占用,适合实时应用。
📖 阅读⬇ PDFThe N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation
本文提出N-Grammys,一种无需学习的批量推测解码方法,加速自回归推理。核心贡献是利用n-gram统计进行批量猜测,避免额外训练草稿模型。对从业者而言,该方法部署简单、内存占用低,能有效提升推理吞吐量。
📖 阅读⬇ PDFWhat Makes Large Language Models Reason in (Multi-Turn) Code Generation?
该研究深入探究了思维链等提示技术在大语言模型多轮代码生成中的具体作用机制。通过分析推理与性能的关联,揭示了提示策略的有效边界,为开发者优化代码生成任务提供了理论指导。
📖 阅读⬇ PDFIteration Head: A Mechanistic Study of Chain-of-Thought
提出「迭代头」机制,从机械论角度解释链式思维推理如何提升大语言模型性能,揭示注意力头在中间步骤迭代传递信息的过程。有助于理解CoT有效的内在原因,并为推理优化提供理论基础。
📖 阅读⬇ PDFScope Ambiguities in Large Language Models
分析大语言模型处理包含多个语义算子的句子时出现的范围歧义,揭示模型在语义理解上的局限性。为改进LLM语义推理能力、增强鲁棒性提供新视角,对自然语言理解研究有重要参考。
📖 阅读⬇ PDFLAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing
提出LAVE,利用LLM为视频编辑提供智能助手和语言增强交互,降低新手编辑门槛。核心贡献是自然语言驱动编辑操作。对从业者:展示LLM在多媒体创作工具中的落地潜力。
📖 阅读⬇ PDFSpiRit-LM: Interleaved Spoken and Written Language Model
提出SpiRit-LM,一个能交错处理口语和书面语的统一语言模型,联合建模语音与文本模态。核心贡献是实现更自然的跨模态生成。对从业者:推动多模态对话系统和语音助手发展。
📖 阅读⬇ PDFSONAR: Sentence-Level Multimodal and Language-Agnostic Representations
SONAR提出了一个多语言多模态的固定大小句子嵌入空间,覆盖200种语言。其单文本编码器性能显著优于现有句子嵌入方法。对跨语言跨模态的句子表征任务具有很大价值。
📖 阅读⬇ PDFMicrosoft 178 条
SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance
提出 SIFT,利用注意力不变性构建选择性索引来加速 RAG 的预填充阶段,显著降低首 token 延迟。对追求低延迟、高吞吐的检索增强系统具有很强的实用价值。
📖 阅读⬇ PDFLLM can Read Spectrogram: Encoder-free Speech-Language Modeling
提出无编码器的语音语言建模方法,让大语言模型直接读取语谱图,省去预训练语音编码器。架构更简洁、对专用编码器依赖更低,有望提升训练与推理效率,为构建轻量灵活的语音-LLM 系统提供新思路。
📖 阅读⬇ PDFLess Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents
针对企业工作流中 LLM 智能体因冗长工具响应导致上下文溢出、状态错误和高延迟的问题,提出高效上下文工程方法,通过选择性保留关键工具响应来压缩上下文。在长周期工具调用任务中显著降低计算成本、提升智能体稳定性与可靠性。
📖 阅读⬇ PDFADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer
提出 ADK Arena 评估框架,用「LLM-as-a-Developer」方法系统比较不同 Agent 开发工具包对构建自主智能体的影响。首次给出经验性横向对比,帮助开发者按任务需求选择最优框架。对提升 Agent 应用开发效率与落地选型有实用意义。
📖 阅读⬇ PDF提出轨迹感知强化学习方法,利用扩散语言模型生成过程中的去噪轨迹信息来指导策略更新,从而同时提升生成质量与效率。为强化学习在扩散生成模型中的应用提供了新范式。对从事扩散式文本生成与对齐优化的研究者有较高参考价值。
📖 阅读⬇ PDFThe Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment
研究 LLM 作为评判者时「不同模型彼此高度一致、却与人类一致性弱」的现象,并用几何度量证明这种共识源于共享偏差而非共享信号。核心结论是 LLM 评判者的内部共识不能等同于人类对齐。提醒从业者在用 LLM 做自动评估时需警惕其与人类偏好的系统性偏差。
📖 阅读⬇ PDFObject-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement
针对视觉-语言-动作(VLA)模型在精密物理交互中因模仿学习误差累积而脆弱的问题,提出以物体为中心的残差强化学习方法,在零样本仿真到真实(sim-to-real)迁移下对 VLA 策略进行增强。方法通过学习一个叠加在基础策略之上的残差校正项来提升精确操作的鲁棒性,对需要把通用 VLA 落地到真实机器人精细操控的从业者有直接价值。
📖 阅读⬇ PDF提出新工具Express,能将非因果注意力近似转换为因果注意力近似,并保持近似保证。结合最先进的Thinformer架构,提升因果语言建模效率。对从事大模型推理优化的从业者,可降低计算开销并保持模型质量。
📖 阅读⬇ PDFSelect and Improve: Understanding the Mechanics of Post-Training for Reasoning
本文从机制角度研究强化学习在推理与编码模型后训练中的作用,揭示其工作方式与关键要素,对理解后训练优化有重要价值。
📖 阅读⬇ PDFBenchmarking AI Agents for Addressing Scientific Challenges Across Scales
本文提出跨尺度的AI Agent基准测试,评估其在真实科学研究场景中的能力,弥合现有测试与实际应用间的差距,为科学家提供可靠评估工具。
📖 阅读⬇ PDFToward Generalist Autonomous Research via Hypothesis-Tree Refinement
本文提出基于假设树精炼的通用自主科研框架,通过循环探索-实验-抽象,引导AI系统像人类研究者一样迭代改进假设,推动自动化科学发现。
📖 阅读⬇ PDFThe Power of Test-Time Training for Approximate Sampling
本文展示测试时训练在复杂分布近似采样中的强大效果,通过动态调整采样策略提升生成式AI的效率与质量,对概率建模与生成任务具有实际意义。
📖 阅读⬇ PDFMinibatch Selection via Partition Matroid Constrained Gradient Matching
本文提出分区拟阵约束下的梯度匹配方法,用于异构数据上LLM小批量选择,同时优化收敛速度与领域覆盖,提升训练效率并避免单领域偏向。
📖 阅读⬇ PDF本文通过调研早期采用者,探讨构建多Agent LLM系统时透明度的概念化与挑战,指出分布式架构中透明度需求与实现的矛盾,为负责任AI提供实践洞见。
📖 阅读⬇ PDF本文提出CollabSim方法论,基于计算机支持协同工作理论,通过受控多Agent实验研究LLM Agent的文本协作能力,为评估协作智能提供新框架。
📖 阅读⬇ PDFBeyond Semantic Organization: Memory as Execution State Management for Long-Horizon Agents
本文指出长期任务中的记忆应关注执行状态管理而非单纯语义组织,提出新框架以处理状态依赖与错误级联,提升LLM Agent长程任务能力。
📖 阅读⬇ PDFYou Only Index Once: Cross-Layer Sparse Attention with Shared Routing
提出「只索引一次」的跨层稀疏注意力机制,通过共享路由实现计算高效的长上下文推理。核心贡献在于大幅降低解码阶段的计算开销,对需要长链条推理的LLM应用(如思维链)具有重要实际意义。
📖 阅读⬇ PDF构建人类协作数据集ALMANAC,包含动作级心智模型标注,用于研究LLM代理与人类协作时的行为理解。该数据集有助于提升代理在协作场景中的透明度和适应性,为开发更有效的人机协作系统提供重要基础。
📖 阅读⬇ PDFAsyncWebRL: Efficient Multi-Step RL for Visual Web Agents
提出AsyncWebRL方法,通过异步强化学习解决视觉网页代理训练中GPU空闲和轨迹冗长的问题,显著提升多步RL效率。该工作有效降低Web智能体训练成本,加速实际部署。
📖 阅读⬇ PDFSentinelBench: A Benchmark for Long-Running Monitoring Agents
推出SentinelBench基准,专注于评估长时间运行的监控代理,弥补现有基准对持续动作模式的忽视。该基准有助于推动更持久、可靠的代理设计,适用于自动化运维和连续监控场景。
📖 阅读⬇ PDFSocialCoach: Personalized Social Skill Learning with RL-based Agentic Tutoring and Practice
提出SocialCoach系统,基于强化学习的个性化社交技能训练,通过代理辅导和模拟实践帮助用户提升谈判、领导等能力。该系统提供可扩展的交互式训练方式,对教育与企业培训具有应用价值。
📖 阅读⬇ PDFMedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents
发布MedCUA-Bench,首个仅用截图的临床计算机使用代理基准,用于评估代理在医疗GUI上的可靠性。该基准填补了医疗领域代理验证的空白,有助于推动临床工作流的自动化。
📖 阅读⬇ PDFMeDxAgent: Multi-Agent Consultation for Interactive Medical Diagnosis
提出MeDxAgent,一种多智能体协作的交互式医疗诊断系统,模拟真实的多轮咨询过程。相比单次诊断,该方法更贴近临床实践,能提升诊断准确性和可解释性。
📖 阅读⬇ PDFBeyond Prediction: Tail-Aware Scheduling for LLM Inference
提出尾感知调度策略,超越传统预测方法,以应对LLM推理服务中的极端长度变化和尾部延迟。该调度方法显著改善长尾请求的响应时间,对部署高性能LLM服务具有重要价值。
📖 阅读⬇ PDFOpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents
提出了OpenWebRL框架,系统性地探索了在线多轮强化学习在训练视觉Web代理中的应用。核心贡献在于首次揭示了在线RL在长程Web交互任务中的优势与挑战,为从业者构建更强大的视觉Web代理提供了方法论和基准。
📖 阅读⬇ PDFEMA: Approximate Nearest Neighbor Search with General Attribute Filtering and Dynamic Updates
提出EMA方法,支持通用属性过滤和动态更新的近似最近邻搜索(FANN),增强了向量数据库的查询能力。核心贡献在于高效处理过滤与动态更新需求,对推荐系统等实时应用至关重要。
📖 阅读⬇ PDFDialectics of Alignment: Harnessing Unsafe Knowledge for Dynamic Safety Routing
挑战传统LLM对齐中「擦除不安全知识」的范式,提出动态安全路由方法,利用不安全知识实现灵活的安全处理。核心贡献是在维持安全性的同时保留模型的有用知识,为对齐实践提供新思路。
📖 阅读⬇ PDF针对多模态领域在线策略蒸馏优化不足的问题,提出分解在线策略蒸馏方法,通过梯度引导视觉定位来提升小模型的视觉语言推理能力。核心贡献是发现并缓解了梯度冲突,使蒸馏更高效。
📖 阅读⬇ PDFDiversity Over Frequency: Rethinking Tool Use in Visual Chain-of-Thought Agents
重新审视视觉思维链代理中工具使用的角色,指出多样性比频率更重要,并提出多样优先策略。核心贡献是发现过度依赖单一工具会限制推理能力,而多样工具使用能显著提升细粒度证据整合效果。
📖 阅读⬇ PDFTemporal Preference Optimization for Unsupervised Retrieval
针对无监督稠密检索器难以捕捉文档时间相关性的问题,提出时间偏好优化方法,通过对比学习自动学习时间信号,提升检索结果对时间动态的敏感性。对检索系统开发者而言,该方法无需标注即可增强语义相似度模型的时间感知能力,适用于新闻、社交媒体等时效性强的场景。
📖 阅读⬇ PDFMuseVLA: An Adaptive Multimodal Sensing Vision-Language-Action Model for Robotic Manipulation
提出MuseVLA,一种自适应多模态感知的视觉-语言-动作模型,融合RGB、深度、触觉等多种传感模态,提升机器人操作的鲁棒性与泛化能力。对于机器人学从业者,该模型突破了传统VLA仅依赖视觉输入的限制,为复杂环境下的精细操作提供了更可靠的方案。
📖 阅读⬇ PDFECHO: Terminal Agents Learn World Models for Free
提出ECHO方法,让语言模型驱动的终端代理通过执行命令并观察终端返回(stdout、错误、文件等)来「免费」学习世界模型,无需额外数据或训练即可内化执行环境。这降低了构建命令行Agent的复杂度,使其能更智能地与环境交互、提升决策能力。
📖 阅读⬇ PDFPaT: Planning-after-Trial for Efficient Test-Time Code Generation
提出PaT方法,在测试时先生成尝试再规划,以高效扩展LLM的推理计算用于代码生成。核心贡献是避免盲目搜索,通过尝试结果引导规划,显著提升测试时计算效率。
📖 阅读⬇ PDFD^3: Dynamic Directional Graph-Constrained Data Scheduling for LLM Training
提出D^3方法,利用动态方向图约束对LLM训练数据进行调度,优于传统按整体分布调整的策略。核心贡献是引入图结构捕捉样本间依赖关系,实现更高效的数据调度与训练优化。
📖 阅读⬇ PDFTowards Efficient LLMs Annealing with Principled Sample Selection
针对LLM预训练退火阶段数据选择困难,提出有原则的样本选择方法,基于模型状态动态筛选高质量数据。核心贡献是证明合理样本选择能显著提升退火效率和最终模型质量。
📖 阅读⬇ PDFDemystifying Data Organization for Enhanced LLM Training
本文系统化研究了大语言模型训练中的数据组织策略,指出除了数据筛选外,数据排序与分组同样显著影响训练效率。核心贡献是提出了可操作性强的数据组织指南,帮助从业者在保持模型性能的同时降低训练成本。
📖 阅读⬇ PDF提出IndicKLAR评估框架,系统量化了多语言大模型在印度语言上的跨语言知识一致性差距。研究发现模型在低资源印度语言上的知识召回明显弱于英语,为从业者提供了可用的诊断工具与改进方向。
📖 阅读⬇ PDFAdopt ≠ Adapt: Longitudinal Analyses of LLM Conversations in the Wild
通过纵向分析真实用户与LLM的对话记录,揭示了用户行为随时间从简单采纳到深度适应的演化过程。挑战了以往静态交互研究的假设,为人机协作系统设计与用户粘性提升提供实证依据。
📖 阅读⬇ PDFDEPART: DEcomposing PARiTy across Multilingual LLMs
针对多语言LLM排行榜仅报告准确率而不解释差异根源的问题,提出DEPART归因方法。该框架能分解各语言上的性能差异来源,帮助从业者定位系统性偏差并采取有效干预措施。
📖 阅读⬇ PDFJailbreak susceptibility prediction and mitigation via the behavioral geometry of models
利用模型行为几何特征预测对越狱攻击的敏感度,并提出相应的缓解策略。该方法无需全面测试即可评估大量配置的安全风险,为从业者提供低成本的安全部署方案。
📖 阅读⬇ PDFIndexMem: Learned KV-Cache Eviction with Latent Memory for Long-Context LLM Inference
针对长上下文推理中KV缓存线性增长导致的显存瓶颈,提出IndexMem学习式缓存驱逐策略并结合潜记忆机制。有效压缩缓存占用,支持超长序列的高效推理,对部署长上下文模型至关重要。
📖 阅读⬇ PDFAI-Assisted Systematization for Evaluating GenAI Systems
针对生成式AI系统评估中概念模糊、标准不一的难题,提出AI辅助系统化评估方法。通过自动化分解与度量复杂目标(如推理、公平性),帮助从业者建立更可靠、可复现的评测流程。
📖 阅读⬇ PDFXWind: A Cross-site Router for Large Language Model Inference Serving at Renewable Energy Farms
针对AI推理服务日益增长的电力需求与电网压力,提出跨站点路由器XWind,将推理负载智能调度至可再生能源农场。在降低运营成本的同时减少碳足迹,为可持续AI基础设施提供实用方案。
📖 阅读⬇ PDFSkillOpt: Executive Strategy for Self-Evolving Agent Skills
提出SkillOpt框架,将Agent技能进化类比为深度学习优化器,通过结构化迭代更新替代手工或松散自修正方式。核心贡献是让技能改进更可控、高效,为从业者提供自主升级Agent能力的实用策略。
📖 阅读⬇ PDFFrom Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills
系统研究语言Agent如何消费模型生成的领域级技能,分析从原始经验到结构化技能工件的转化过程。核心贡献是厘清技能重用机制,帮助从业者设计更高效的技能蒸馏与复用流程。
📖 阅读⬇ PDFFrom Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents
提出特权过程监督方法,从补丁级监督扩展到完整轨迹级监督,改进软件工程Agent的微调效果。核心贡献是提升Agent在复杂调试任务中的推理能力,对从业者而言可减少人工标注成本。
📖 阅读⬇ PDFSynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations
提出SynAE框架,专门评估用于工具调用Agent评估的合成数据质量,解决生产数据不可用的问题。核心贡献是提供量化指标衡量合成数据可靠性,从业者可据此筛选高质量训练/测试集。
📖 阅读⬇ PDFMemory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory
提出Memory Grafting方法,通过离线条件记忆扩展语言模型预训练,避免从头学习大规模记忆表。核心贡献是显著降低记忆扩展时的显存开销,从业者可用更少资源提升模型容量。
📖 阅读⬇ PDFReinforcing VLAs in Task-Agnostic World Models
提出在任务无关世界模型中对视觉-语言-动作(VLA)模型进行强化学习后训练,使其能适应新任务而无需真实交互。核心贡献是提升VLA的迁移泛化能力,从业者可低成本部署机器人等应用。
📖 阅读⬇ PDFMemGym: a Long-Horizon Memory Environment for LLM Agents
提出MemGym长程记忆环境,专为LLM Agent设计,评估其在多轮复杂任务中的长期记忆能力。核心贡献是填补现有基准只关注聊天场景的空白,从业者可更全面测试Agent记忆性能。
📖 阅读⬇ PDFA Nash Equilibrium Framework For Training-Free Multimodal Step Verification
提出基于纳什均衡的免训练多模态步骤验证框架,无需额外学习就能检测推理链中的错误。核心贡献是提供轻量级验证方法,从业者可集成到现有系统提升多模态答案正确性。
📖 阅读⬇ PDFTaskGround: Structured Executable Task Inference for Full-Scene Household Reasoning
提出TaskGround框架,从完整家庭场景和情境请求中结构化推断可执行任务。核心贡献是将模糊请求转化为明确步骤,提升家庭机器人的实际部署能力。对从业者而言,该工作为家庭自动化和服务机器人提供了更鲁棒的任务推理方法。
📖 阅读⬇ PDFMulti-agent AI systems outperform human teams in creativity
研究表明,基于大型语言模型的多智能体AI系统在创造性任务上表现优于人类团队。该工作挑战了创造力是AI难以企及的前沿观点,为利用多智能体协作提升创意生成提供了新思路。对AI从业者意味着可探索多智能体协作在创意产业中的应用。
📖 阅读⬇ PDFAn Efficient Streaming Video Understanding Framework with Agentic Control
提出一个带智能体控制的流式视频理解框架,根据视频内容动态调整处理策略(如记忆压缩或注意力分配),在严格延迟预算下高效处理动态信息密度。核心亮点是智能体控制的自适应机制。对从业者而言,该方法可应用于实时视频分析、监控、直播等场景。
📖 阅读⬇ PDFVeriCache: Turning Lossy KV Cache into Lossless LLM Inference
提出VeriCache方法,将现有有损KV缓存压缩技术(如token丢弃、量化)转化为无损推理。通过校验和重建机制保证输出精确性,同时大幅降低显存占用。对从业者来说,该工作使得在有限显存下支持长上下文LLM推理成为可能,且不损失精度。
📖 阅读⬇ PDF提出PersonaArena动态仿真环境,用于评估和增强LLM在角色扮演中保持一致人格的能力。核心贡献是模拟真实多轮交互场景,暴露角色扮演中的不连贯问题。对从业者而言,该框架有助于开发更可信的社交AI助手和虚拟角色。
📖 阅读⬇ PDFSkim: Speculative Execution for Fast and Efficient Web Agents
提出Skim框架,利用专门网站的预测性结构,通过推测执行加速Web代理任务,同时降低开销。核心亮点是显著减少等待时间和冗余操作,提升效率。对从业者来说,该技术可应用于自动化网页操作、数据采集和RPA场景。
📖 阅读⬇ PDFOrchard: An Open-Source Agentic Modeling Framework
发布Orchard开源框架,支持将LLM转换为具备规划、推理、工具使用和多轮交互能力的自主智能体。核心贡献是提供模块化、可扩展的智能体建模基础设施。对从业者而言,该框架降低了构建复杂AI代理的门槛,便于快速原型和实验。
📖 阅读⬇ PDFGroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations
提出GroupMemBench基准,用于评估LLM代理在多人对话场景中的记忆提取、检索和应用能力。核心贡献是填补了多人交互记忆评估的空白,提供了标准化测试集。对从业者而言,该基准有助于改进对话代理的记忆系统设计。
📖 阅读⬇ PDFVideo Models Can Reason with Verifiable Rewards
本文提出将可验证奖励机制引入视频扩散模型,使其不仅优化视觉逼真度,还能进行可验证推理。核心贡献是首次赋予视频模型推理能力,对提升生成式AI的可解释性和可靠性有重要意义。
📖 阅读⬇ PDFTest-Time Learning with an Evolving Library
提出EvoLib框架,让大语言模型在测试时无需参数更新或外部监督,即可跨实例积累、复用和演化知识。该方法零成本扩展模型知识库,对连续任务场景的LLM应用具有实用价值。
📖 阅读⬇ PDF揭示LLM代理执行框架可能返回正确但有害的答案,强调了审计框架安全性的必要性。核心贡献是识别并防御框架层面的安全漏洞,对构建可信赖的代理系统至关重要。
📖 阅读⬇ PDFThinking Ahead: Prospection-Guided Retrieval of Memory with Language Models
针对长程个性化对话中相关事实与当前查询语义相似性低的问题,提出前瞻引导的记忆检索方法。该方法通过预测未来需求来提升检索准确率,对改进对话系统个性化能力有直接帮助。
📖 阅读⬇ PDFLIFT: Last-Mile Fine-Tuning for Table Explicitation
提出最后一英里微调(Lift)流水线,先用预训练大模型提取初始表格,再用微调小模型细化。核心贡献是用轻量级模型高效提升表格抽取精度,为表格数据处理提供低成本实用方案。
📖 阅读⬇ PDFPDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning
提出感知分解置信奖励(PDCR),在视觉语言推理的强化学习中提供细粒度置信度奖励,替代传统稀疏结果信号。该方法显著改善多模态模型推理训练效果,对VLM推理优化有重要参考。
📖 阅读⬇ PDFAgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation
指出SWE代理评估中二值通过/失败信号会导致「幸运通过」问题,即偶然成功被误判为真正能力。提出AgentLens方法揭示这一缺陷,推动更细致的评估标准,对代理鲁棒性评测意义重大。
📖 阅读⬇ PDFCovering Human Action Space for Computer Use: Data Synthesis and Benchmark
针对计算机使用代理在复杂低频交互上可靠性差的问题,提出覆盖完整人类动作空间的数据合成方法和基准测试。核心贡献是提升CUA在真实场景中的鲁棒性,对桌面自动化工具开发有直接指导。
📖 阅读⬇ PDFKairos: A Scalable Serving System for Physical AI
提出 Kairos,一个面向物理 AI 的可扩展服务系统,针对物理 AI 任务独特的推理特征进行优化。核心贡献在于设计能高效处理物理世界推理负载的架构,对部署大规模物理 AI 应用的从业者具有重要参考价值。
📖 阅读⬇ PDFGEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation
提出 GEAR 方法,通过自蒸馏实现粒度自适应的优势重加权,用于改进 LLM Agent 的强化学习后训练。解决了传统结局级奖励监督粗糙的问题,能更精细地指导 agent 学习,对提升 Agent 在复杂任务中的表现意义重大。
📖 阅读⬇ PDFAgent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty
提出 Agent-BRACE 框架,通过口头化状态不确定性将信念与行动解耦,使 LLM 在部分可观测的长程任务中更稳健地推理和决策。亮点在于显式建模不确定性并融入行动选择,对构建可靠的长时域 Agent 系统具有指导意义。
📖 阅读⬇ PDF提出从稀疏到密集的奖励原则(Sparse-to-Dense Reward Principle),超越 GRPO 和在线策略蒸馏,为语言模型后训练提供更高效的奖励分配方法。经验证该原则在标注数据稀缺时能最大化每个样本的信息收益,对实际后训练流程优化有重要启发。
📖 阅读⬇ PDFMulti-Rollout On-Policy Distillation via Peer Successes and Failures
提出 Multi-Rollout On-Policy Distillation,利用同伴成功与失败经验进行多展开在线策略蒸馏,解决稀疏验证奖励下推理路径反馈不足的问题。该方法能更有效地从有限成功信号中学习,对提升 LLM 推理能力的后训练方案有显著价值。
📖 阅读⬇ PDFLanguage Modeling with Hyperspherical Flows
提出超球面流(Hyperspherical Flows)用于语言建模,为离散扩散语言模型提供一种可并行生成的新思路。相比传统离散扩散,该模型在保持并行性的同时可能提升生成质量,对加快文本生成速度并保持高保真度具有潜力。
📖 阅读⬇ PDFDeepRefine: Agent-Compiled Knowledge Refinement via Reinforcement Learning
提出 DeepRefine,通过强化学习对 Agent 编译的知识库进行精炼,解决其质量系统性不足的问题。该方法将知识精炼建模为决策过程,能持续改进外部知识质量,对知识密集型 LLM Agent 应用(如问答、任务规划)至关重要。
📖 阅读⬇ PDFReinforce Adjoint Matching: Scaling RL Post-Training of Diffusion and Flow-Matching Models
提出 Reinforce Adjoint Matching 方法,将强化学习后训练扩展到扩散和流匹配模型,突破以往仅适用于自回归模型的限制。通过 adjoint 匹配实现可扩展的 RL 对齐,对推动生成模型(如图像、视频)的分布外优化与偏好对齐有重要价值。
📖 阅读⬇ PDFEmbodiSkill: Skill-Aware Reflection for Self-Evolving Embodied Agents
提出EmbodiSkill框架,通过技能感知反思使具身智能体在多样化环境中自我进化,能够更有效地指导对象搜索、动作执行和状态变化。核心贡献是让智能体在部署后持续优化技能库,对机器人/具身智能从业者提升跨场景泛化能力有重要参考。
📖 阅读⬇ PDFRebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR
提出Rebellious Student方法,利用自蒸馏强化学习VR(RLVR)让学生模型逆向利用教师信号进行推理探索,无需额外信息即可提升推理能力。亮点是通过反转教师引导信号激发学生自主探索,对LLM后训练中的推理优化从业者提供新思路。
📖 阅读⬇ PDFReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
提出ReVision方法,通过时间视觉冗余减少策略大幅降低计算机使用智能体的视觉token数量,从而延长交互轨迹并降低成本。核心贡献是在保持性能前提下实现显存和计算优化,对GUI自动化Agent开发者在效率提升方面具有重要意义。
📖 阅读⬇ PDFCodeClinic: Evaluating Automation of Coding Skills for Clinical Reasoning Agents
提出CodeClinic基准,用于评估LLM驱动的临床推理智能体在ICU监测和患者状态追踪等任务中的代码化技能自动化水平。亮点是填补了临床推理中编码技能评估的空白,对医疗AI从业者验证自动化临床决策系统有直接价值。
📖 阅读⬇ PDFOracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning
定义Oracle Poisoning攻击类别,攻击者通过污染知识图谱在AI智能体运行时查询时导致错误结论。核心贡献是揭示知识图谱作为工具使用协议时的安全脆弱性,对构建安全可靠的AI Agent系统的从业者具有重要警示。
📖 阅读⬇ PDFSecurity Risks in Tool-Enabled AI Agents: A Systematic Analysis of Privileged Execution Environments
系统分析启用工具的AI智能体在云托管环境中特权执行的安全风险,揭示特权工具执行时可能导致的侧效应攻击。亮点是对多种攻击面进行形式化分类,对部署AI Agent服务的开发者防范权限滥用有实践指导。
📖 阅读⬇ PDFGenerating Leakage-Free Benchmarks for Robust RAG Evaluation
提出生成无泄漏基准的方法以鲁棒评估RAG系统,解决现有基准存在数据泄漏导致评估虚高的问题。核心贡献是构建干净且不易被记忆的测试集,对RAG从业者进行真实性能度量具有重要参考。
📖 阅读⬇ PDFSkillGen: Verified Inference-Time Agent Skill Synthesis
提出SkillGen框架,实现验证驱动的推理时Agent技能自动合成,无需重新训练即可生成高质量可复用技能。亮点是通过自动验证保证技能正确性,对提升LLM Agent的扩展性和可控性有实际价值。
📖 阅读⬇ PDFDebugging the Debuggers: Failure-Anchored Structured Recovery for Software Engineering Agents
针对软件工程智能体故障后恢复成本高、手动且无固定流程的问题,提出基于故障锚定的结构化恢复方法。核心贡献是自动定位故障根因并生成恢复步骤,减少人工干预。对从业者而言可提升智能体在工程环境中的鲁棒性与自治能力。
📖 阅读⬇ PDFRevisiting Transformer Layer Parameterization Through Causal Energy Minimization
通过因果能量最小化的视角重新审视Transformer层参数化方式,为多头注意力和门控MLP的组合提供理论依据。核心贡献是揭示了不同参数化选择对训练动态的影响,可用于指导更高效的架构设计。对从业者而言有助于减少经验试错、提升模型设计效率。
📖 阅读⬇ PDFSwitchcraft: AI Model Router for Agentic Tool Calling
提出Switchcraft模型路由器,用于代理系统中智能选择调用工具时的模型,以降低推理成本。核心贡献是相对现有路由方法实现了更优的准确率-效率平衡,在保持性能的同时显著节省预算。对从业者而言是部署Agent系统时实用的成本优化方案。
📖 阅读⬇ PDFHuman-Inspired Memory Architecture for LLM Agents
设计受人类记忆机制启发的LLM代理记忆架构,包含六种认知机制(如工作记忆、情景记忆等)。核心贡献是使代理能够持久管理长期交互中的上下文,提升连续任务的连贯性与适应性。对从业者而言可增强对话、任务执行等场景的用户体验。
📖 阅读⬇ PDFVLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts
提出VLA-GSE方法,通过通用专家和专用专家模块实现视觉-语言-动作(VLA)模型的参数高效微调。核心贡献是在机器人控制任务上以极低微调参数量达到或超越全微调性能。对从业者而言可大幅降低VLA模型在具体任务上的微调成本和计算资源。
📖 阅读⬇ PDFQuantizing With Randomized Hadamard Transforms: Efficient Heuristic Now Proven
从理论上证明了使用随机Hadamard变换进行均匀随机旋转在量化(如梯度压缩、KV-cache压缩)中的有效性。核心贡献是将先前高效的启发式方法提升为有严格证明的方法,确保量化过程中信息损失最小。对从业者而言可放心采用该预处理加速推理与压缩。
📖 阅读⬇ PDFAgenticRAG: Agentic Retrieval for Enterprise Knowledge Bases
提出AgenticRAG,一种面向企业知识库的智能体检索增强生成框架,让智能体自主进行多步检索与推理。核心贡献是突破标准RAG对搜索栈的依赖,使答案更准确地基于结构化与非结构化知识。对从业者而言是企业级应用中提升RAG效果和灵活性的实用方案。
📖 阅读⬇ PDFDataDignity: Training Data Attribution for Large Language Models
提出DataDignity方法,用于大型语言模型输出的训练数据归属审计。核心贡献是识别最可能支撑回答的源文档,支持透明度与合规性检查。对从业者而言可增强模型输出的可解释性与责任追溯。
📖 阅读⬇ PDFAudio-Visual Intelligence in Large Foundation Models
本文聚焦于大型基础模型中的视听智能(AVI),旨在打通听觉与视觉模态,使机器能感知、生成和交互。核心贡献是系统梳理了AVI的前沿方向,对多模态AI从业者理解跨模态融合与生成有重要参考价值。
📖 阅读⬇ PDFAgentic-imodels: Evolving agentic interpretability tools via autoresearch
本文提出代理可解释性工具(Agentic-imodels),利用自动研究机制提升数据科学代理自主分析、拟合和解释数据的能力。亮点在于推动代理从执行到自我进化的可解释性,对构建可信自主分析系统至关重要。
📖 阅读⬇ PDFLearning Correct Behavior from Examples: Validating Sequential Execution in Autonomous Agents
针对自主代理顺序行为验证难题,本文提出从示例学习正确行为的方法,无需手动规范精确序列。其贡献在于降低验证门槛,对确保代理在实际环境中安全可靠执行序列任务具有重要意义。
📖 阅读⬇ PDFOn Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length
本文通过实证研究探索大语言模型(LLM)在长期任务(Long-Horizon Tasks)中的训练效果,分析任务长度对模型表现的影响。亮点在于量化了Horizon长度作为关键参数,为从业者设计交互式代理训练策略提供指导。
📖 阅读⬇ PDFMultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety
提出MultiBreak,一个可扩展、多样化的多轮越狱基准,用于评估LLM安全性。核心亮点是模拟自然对话中的多步越狱,更贴近真实攻击场景,对开发更安全的对话系统具有重要安全评测价值。
📖 阅读⬇ PDFMAGIC: Multi-Step Advantage-Gated Causal Influence for Multi-agent Reinforcement Learning
本文提出MAGIC方法,通过多步优势门控因果影响信号,促进多智能体强化学习中的智能体间协调。贡献在于设计更有效的学习信号提升团队协作,对复杂多智能体系统(如自动驾驶、机器人集群)有实用价值。
📖 阅读⬇ PDFOnly Say What You Know: Calibration-Aware Generation for Long-Form Factuality
针对大推理模型在生成长文本时容易产生幻觉的问题,提出校准感知生成策略(Only Say What You Know)。亮点在于通过校准控制减少推理步骤错误累积,对提升长文本事实性有直接帮助,降低模型误导风险。
📖 阅读⬇ PDFExploring Data-Free LoRA Transferability for Video Diffusion Models
本文探索无数据情形下LoRA向视频扩散模型变体(如步骤蒸馏、因果蒸馏)的迁移能力。核心贡献是解决LoRA适配不同蒸馏后模型的难题,对从业者快速复用微调权重、降低适配成本具有实用意义。
📖 阅读⬇ PDFCross-Layer Energy Analysis of Multimodal Training on Grace Hopper Superchips
本文分析了多模态训练在Grace Hopper超级芯片上的跨层能耗,识别出内存和通信瓶颈。对硬件设计和训练优化具有重要指导意义,帮助从业者降低大规模多模态训练能耗。
📖 阅读⬇ PDFScaling Video Understanding via Compact Latent Multi-Agent Collaboration
提出了紧凑潜空间多智能体协作方法,解决长视频任务中感知上下文限制问题。通过多智能体协作提升视频理解可扩展性,突破了传统方法的瓶颈。对视频理解领域从业者设计高效长视频模型有重要参考。
📖 阅读⬇ PDF开发了虚拟言语治疗师平台,结合临床医生回环的AI代理,实现口吃评估和个性化治疗计划。自动化与自适应AI提升了治疗可及性和监督质量。对言语治疗和AI医疗从业者具有实用价值。
📖 阅读⬇ PDFA unified perspective on fine-tuning and sampling with diffusion and flow models
本文研究训练扩散与流模型,使其从由基础密度指数倾斜定义的目标分布中采样,并提出统一视角将微调与采样融合于同一框架。核心贡献是用一个框架统一两类任务。对从业者而言,提供了更高效的生成模型训练与采样思路。
📖 阅读⬇ PDFUnifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving
针对长上下文 LLM 服务中 KV 缓存的巨大开销,本文将动态稀疏注意力与层级记忆结构统一,仅访问与查询相关的少量 KV 状态来降低推理成本。该机制在保持模型质量的同时提升了吞吐量,可有效缓解长上下文场景下的显存与算力瓶颈。对从业者而言,这能直接降低长文本部署成本。
📖 阅读⬇ PDFArena: Efficiently Training Large Models via Dynamic Scheduling and Adaptive Parallelism Co-Design
提出 Arena 框架,通过作业间的动态调度与作业内的自适应并行进行协同设计,以高效训练大规模模型。其核心贡献是解决现有调度器与并行策略相互脱节的问题,从而提升 GPU 集群利用率。对从业者而言,可显著减少大模型训练的等待时间与资源浪费。
📖 阅读⬇ PDFEvaluating General-Purpose AI with Psychometrics
本文提出将心理测量学方法引入通用人工智能(如大语言模型)的严谨评估,以加深对其能力的理解并有效降低风险。该方法为AI评测提供了更可靠的量化框架。对从业者而言,有助于系统性地分析与刻画模型行为。
📖 阅读⬇ PDF提出一个分阶段评估工作流,整合领域专家、非专业用户与模型生成的评估标准,应对大语言模型在特定任务输出难以评估的挑战。其构建了多角色协作的评估框架以提升评估的全面性与准确性,可用于实际领域任务的质量控制,改善LLM部署中的评估流程。
📖 阅读⬇ PDFSLM Finetuning for Natural Language to Domain Specific Code Generation in Production
本文探讨在生产环境中微调小型语言模型(SLM),用于自然语言到特定领域代码的生成。通过微调SLM,在满足严格延迟要求的同时实现高效代码生成。对从业者而言,这为低延迟、低成本的领域代码生成部署提供了可行方案,凸显小模型在垂直场景的实用价值。
📖 阅读⬇ PDF本文提出一种基于眼动追踪的多模态AI助手,通过分析用户的注视行为来推断其认知需求,进而提供适应性指导。核心贡献是将眼动这一非语言行为线索融入大语言模型,使其能感知用户何时何地遇到困难。对从业者而言,这为开发上下文感知、更自然的人机交互助手提供了新思路。
📖 阅读⬇ PDFEffects of Generative AI Errors on User Reliance Across Task Difficulty
通过实验研究生成式AI错误类型与任务难度如何影响用户依赖行为。发现AI在简单任务上的错误更损害用户信任,而困难任务容忍度更高。对设计和部署人机协作系统的从业者,提示需关注错误分布对用户行为的影响。
📖 阅读⬇ PDF通过现场实验研究行为协议和认知重构对生成式AI人机协作效率的影响。发现有效使用AI不仅在于访问权,更在于用户如何与AI交互。对组织采用AI的从业者,提供提升协作效率的实用策略。
📖 阅读⬇ PDFOverconfidence and Calibration in Medical VQA: Empirical Findings and Hallucination-Aware Mitigation
在医学视觉问答(VQA)中实证发现视觉语言模型存在过置信度和校准不良问题,提出幻觉感知的缓解方法。确保模型在不确定时能准确表达置信度,减少误导临床决策。对医疗AI从业者,强调校准和幻觉检测的重要性。
📖 阅读⬇ PDFListening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI
提出CONCORD框架,一种隐私感知的异步助手间协作(A2A)框架,利用主动语音AI进行上下文恢复。核心贡献在于通过协作机制在保护隐私的同时提升AI助手的上下文理解能力,对构建隐私友好的AI助手系统有重要参考价值。
📖 阅读⬇ PDFCI-Work: Benchmarking Contextual Integrity in Enterprise LLM Agents
提出了CI-Work基准,评估企业LLM代理在检索和使用内部上下文时对敏感信息隐私的影响。揭示了隐私风险并推动负责任部署。对企业AI应用开发者和隐私合规人员具有重要参考。
📖 阅读⬇ PDFToward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement
通过多令牌预测和潜在语义增强,使LLM发展更一致的世界模型,克服单步预测局限。提升了模型对长期依赖和因果理解的能力。对基础模型研究和下游推理优化具有重要启示。
📖 阅读⬇ PDFSynthetic Computers at Scale for Long-Horizon Productivity Simulation
大规模合成计算机环境用于长期生产力模拟,模拟用户特定工作环境(目录结构、内容)。支持长期任务规划评估和AI助手性能测试,为AI生产力工具评估提供标准化平台。
📖 阅读⬇ PDFDiagnosing Capability Gaps in Fine-Tuning Data
诊断微调数据中的能力差距,帮助识别目标能力覆盖不足并定位缺失能力。提供方法指导数据增强,提升微调效率。对模型微调实践和数据准备具有直接帮助。
📖 阅读⬇ PDF协调语言模型生成研究软件,包括数学论文、可执行系统和基准测试,以适应不断演化的规格。加速了研究软件开发流程,减少人工迭代。对科研自动化和AI辅助研究有重要价值。
📖 阅读⬇ PDFSWE-Edit: Rethinking Code Editing for Efficient SWE-Agent
提出SWE-Edit框架,重新设计代码编辑接口以解耦上下文耦合,提升软件工程智能体(SWE-Agent)的效率和准确性。对从业者而言,有助于构建更高效、稳定的代码编辑智能体,减少错误和冗余操作。
📖 阅读⬇ PDFEvaluating Risks in Weak-to-Strong Alignment: A Bias-Variance Perspective
从偏差-方差角度评估弱到强对齐中的风险,揭示了强模型在弱教师盲点样本上高置信度犯错的原因。对从业者而言,有助于设计更稳健的对齐策略,防止超人类模型在未知领域产生危险错误。
📖 阅读⬇ PDF提出可分离专家架构(SEA),通过可组合适配器和可删除用户代理实现隐私保护的LLM个性化,支持用户数据单独删除而不影响全局模型。对从业者而言,解决了数据删除和法律合规(如GDPR)的痛点,为个性化服务提供了隐私友好的方案。
📖 阅读⬇ PDFAVDA: Autonomous Vibe Detection Authoring for Cybersecurity
AVDA 提出一种自主检测编写方法,利用大语言模型的代码生成能力自动化网络安全检测工程中的规则编写流程。其亮点是显著提升检测规则的编写效率并降低人力成本。对安全从业者而言,该方法可加速威胁响应与检测规则的部署上线。
📖 阅读⬇ PDFAn Agentic Multi-Agent Architecture for Cybersecurity Risk Management
该工作提出一种多智能体代理架构,用专业分工的智能体协作模拟网络安全风险评估流程,以解决小型组织评估成本高(约一万五千美元)、周期长(数周)的痛点。核心贡献是大幅降本提速并对齐 NIST CSF 标准。对从业者而言,它显著提升了合规风险评估对中小组织的可及性。
📖 阅读⬇ PDFUnderstanding Pruning Regimes in Vision-Language Models Through Domain-Aware Layer Selection
该研究用领域感知的层选择方法系统分析视觉语言模型中的深度冗余,发现删除特定解码器层在不同领域的影响差异显著。核心贡献是揭示剪枝效果的领域敏感性,为压缩提供更精细的策略依据。对从业者而言,它提示模型剪枝应结合目标领域而非一刀切。
📖 阅读⬇ PDFMageBench: Bridging Large Multimodal Models to Agents
本文提出 MageBench 基准,用于衔接大型多模态模型与智能体能力,并借助测试时缩放技术提升推理表现。其价值在于为多模态 Agent 系统提供系统化的评估标尺。对从业者而言,是评估和改进多模态智能体推理与决策能力的重要参考。
📖 阅读⬇ PDFScaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces
针对拥有海量工具的智能体系统,提出一种强化微调方法,主张通过扩展智能体的能力而非一味拉长上下文来应对大工具空间,从而高效完成长周期任务的规划与执行。其亮点是能在弱监督条件下生效,为从业者提供了比堆叠上下文更省成本、更可落地的 Agent 训练范式。
📖 阅读⬇ PDFLearning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use
本文提出让智能体语言模型学会「何时行动、何时拒绝」的安全守卫机制,专门应对多步工具调用场景下的安全风险,使模型能识别潜在危险操作并主动拒绝。其重要性在于:Agent 的安全挑战不同于普通对话模型,长链路行动中的误操作可能造成灾难性后果,需要专门防护。
📖 阅读⬇ PDFTexterial: A Text-as-Material Interaction Paradigm for LLM-Mediated Writing
提出Texterial范式,将文本视为可塑材料,用户可通过LLM对文本进行生长、雕刻、修剪等操作。该交互范式突破了传统生成式AI的「黑盒」局限,增强了用户在写作过程中的控制感和创造力。
📖 阅读⬇ PDFRESPOND: Responsive Engagement Strategy for Predictive Orchestration and Dialogue
提出RESPOND框架,一种响应式参与策略用于预测性编排和对话,使语音交互摆脱传统的暂停-响应模式。该框架让对话更自然流畅,对提升语音助手的人性化体验具有重要意义。
📖 阅读⬇ PDFExtending the Formalism and Theoretical Foundations of Cryptography to AI
将密码学的形式化方法和理论基础扩展到自主语言模型代理,为其提供安全和可验证性保证。该工作为构建可信赖的AI代理系统奠定理论基础,对AI安全研究具有重要启示。
📖 阅读⬇ PDFUnderstand and Accelerate Memory Processing Pipeline for Large Language Model Inference
深入理解和加速LLM推理中的内存处理流水线,包括稀疏注意力、RAG和压缩机制的内存瓶颈。对从业者而言,提供了优化长上下文推理速度与显存占用的具体指导,有助于降低部署成本。
📖 阅读⬇ PDFProact-VL: A Proactive VideoLLM for Real-Time AI Companions
提出Proact-VL,一个主动式视频大语言模型,实现低延迟连续流式推理、自动终止生成和主动对话决策,用于实时AI伴侣。对从业者而言,展示了将多模态模型应用于实时交互场景的实用方案,推动AI伴侣的实用化。
📖 阅读⬇ PDFFT-Dojo: Towards Autonomous LLM Fine-Tuning with Language Agents
提出FT-Dojo,利用语言智能体自主完成LLM微调的全流程,包括数据策划、训练配置和迭代诊断。对从业者而言,显著降低垂直领域微调的人力成本,加速模型适配特定任务。
📖 阅读⬇ PDFWillful Disobedience: Automatically Detecting Failures in Agentic
提出自动检测AI智能体执行失败的方法,通过分析多步工作流中的偏差(「故意不服从」)来识别故障。对从业者而言,为构建可靠自主智能体提供了关键诊断工具,提升系统鲁棒性。
📖 阅读⬇ PDFChow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents
提出Chow-Liu排序方法用于Chain-of-Agents多Agent推理框架,通过优化信息传递顺序提升长上下文推理效率。核心贡献是引入Chow-Liu算法为顺序Agent系统建立更合理的推理路径。对从业者而言,该方法可有效改善多Agent协作处理长文档时的性能瓶颈。
📖 阅读⬇ PDF本文探究检索增强生成如何影响语言模型在回答事实查询时对外部检索知识与内部参数化知识的选择,通过实验揭示模型在不同场景下的依赖偏好。理解这种权衡有助于从业者设计更有效的知识检索与融合策略,优化RAG系统表现。
📖 阅读⬇ PDFOn-Policy Context Distillation for Language Models
提出On-Policy上下文蒸馏框架OPCD,将同策略学习与上下文蒸馏结合,使语言模型更有效地把上下文中的知识内化进参数。该方法提升了模型从上下文学习并固化知识的能力。对从业者优化知识迁移、减少长上下文依赖具有实用价值。
📖 阅读⬇ PDF本文首次独立评估了SAP的检索预训练模型RPT-1,用于企业业务流程预测,对比上下文学习与传统机器学习方法,验证了表格基础模型的适用性。对从业者而言,为企业数据应用提供了参考。
📖 阅读⬇ PDFWeb Agents Should Use Typed Actions Instead of Click-Based Browsing
提出Web Agent应使用类型化动作替代基于点击的浏览,利用LLM的自然语言接口提升效率与准确性。对从业者:优化Web Agent设计,减少错误。
📖 阅读⬇ PDFReasoning about Reasoning: BAPO Bounds on Chain-of-Thought Token Complexity in LLMs
从理论角度分析思维链(CoT)推理的token复杂度,提出BAPO界为推理时扩展的计算成本提供下界。核心亮点是严格证明CoT所需额外token的最优范围。对从业者重要,因为它揭示了推理开销的理论极限,指导实际部署中的延迟与精度权衡。
📖 阅读⬇ PDFPISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards
提出PISCES方法,利用最优传输对齐的奖励进行文本到视频后训练,无需人工标注。核心是设计基于最优传输的奖励函数来弥合生成与语义对齐的差距。对从业者而言,该方法降低了后训练对标注数据的依赖,提升了视频生成的质量和一致性。
📖 阅读⬇ PDFCrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing
提出CrispEdit,通过低曲率投影实现非破坏性LLM编辑,保持模型通用能力。核心创新是编辑向量在参数空间中沿低曲率方向移动,避免能力退化。对从业者重要,因它提供了可扩展且安全的模型编辑方案,适合生产环境中的针对性修复。
📖 阅读⬇ PDFMemora: A Harmonic Memory Representation Balancing Abstraction and Specificity
提出Memora,一种谐波记忆表示,在抽象与具体性之间取得平衡,用于Agent记忆系统。核心贡献是通过谐波结构融合高层抽象与底层细节,提升检索效率与可扩展性。对从业者而言,它解决了Agent长期记忆如何兼顾信息增长与上下文感知检索的难题。
📖 阅读⬇ PDFWorkflowPerturb: Calibrated Stress Tests for Evaluating Multi-Agent Workflow Metrics
提出WorkflowPerturb,用于对多Agent工作流系统进行校准压力测试。核心亮点是生成系统化的输入扰动来评估工作流指标的鲁棒性。对从业者重要,因它提供了可重复的评估框架,帮助发现部署在云自动化、DevOps等场景下的工作流系统中的潜在弱点。
📖 阅读⬇ PDFClosing the Loop: Universal Repository Representation with RPG-Encoder
提出RPG-Encoder,构建统一仓库表示以解决当前仓库Agent的推理断连问题。核心贡献是融合API文档、依赖图及代码语义,形成全局连贯的表示。对从业者重要,因它提升了仓库级代码理解和编辑的准确性,支持更可靠的代码Agent应用。
📖 阅读⬇ PDFPull Requests as a Training Signal for Repo-Level Code Editing
利用Pull Requests作为训练信号来改进仓库级别代码编辑。核心亮点是使用真实的多文件修改记录训练模型,使模型更好地理解跨文件依赖。对从业者重要,因它提供了更真实的训练数据来源,有望提升SWE-bench等基准上的性能。
📖 阅读⬇ PDFMoving Beyond Sparse Grounding with Complete Screen Parsing Supervision
提出完整屏幕解析监督方法,让计算机使用代理能更精确地感知屏幕上的元素、位置和文本,从而超越传统的稀疏接地方式。核心贡献在于提供更丰富的结构化状态信息,对提升GUI代理的指令执行鲁棒性至关重要。
📖 阅读⬇ PDFClassroom AI: large language models as grade-specific teachers
提出Classroom AI框架,让大语言模型根据年级分级提供个性化教学,弥补传统教育不足。对从业者:教育领域LLM应用的关键进展。
📖 阅读⬇ PDFiSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception
提出轻量级慢-快GUI代理iSHIFT,采用自适应感知机制,在资源受限环境下高效交互复杂图形界面。通过结合慢速全局推理与快速局部响应,显著提升代理的实时性与准确性,对部署在边缘设备上的多模态代理有重要价值。
📖 阅读⬇ PDFUnderstanding Task Transfer in Vision-Language Models
系统研究了视觉语言模型(VLM)在不同任务间的迁移能力,发现其在多模态基准上表现优异,但在深度估计、物体计数等底层视觉感知任务上远逊于人类和专用模型。通过分析任务迁移机制揭示了VLM的感知短板。对研究者而言,为改进微调策略与模型设计提供了重要指导。
📖 阅读⬇ PDFTripTide: A Benchmark for Adaptive Travel Planning under Disruptions
TripTide是一个专门评估大语言模型在旅行计划遭遇突发干扰时自适应重规划能力的基准。它弥补了现有旅行规划基准只考虑静态、理想情况、忽视真实行程中临时变故的不足。对开发更鲁棒、贴近实际的旅行规划智能体的从业者来说,它提供了标准化的压力测试与评估框架。
📖 阅读⬇ PDFBlueCodeAgent: A Blue Teaming Agent Enabled by Automated Red Teaming for CodeGen AI
开发BlueCodeAgent,通过自动化红队攻击生成安全测试用例,主动发现并修复代码生成模型中的漏洞,实现蓝队防御。该方法将红蓝对抗自动化,显著提升代码生成AI的安全性,对保障AI生成代码质量具有实际意义。
📖 阅读⬇ PDFACON: Optimizing Context Compression for Long-horizon LLM Agents
提出上下文压缩优化方法ACON,帮助长时域LLM代理在动态环境中高效管理关键信息,避免上下文长度爆炸。通过压缩策略降低显存和计算开销,同时保持代理决策精度,对需要长期记忆的自主系统至关重要。
📖 阅读⬇ PDFBeyond Sunk Costs: Boosting LLM Pre-training Efficiency via Orthogonal Growth of Mixture-of-Experts
提出基于混合专家模型正交增长的方法,在不增加额外计算资源的前提下提升LLM预训练效率,避免沉没成本。通过动态扩展专家数量并保持参数正交性,实现更快收敛与更好性能,为大规模训练提供经济高效方案。
📖 阅读⬇ PDFMetaMuse: Algorithm Generation via Creative Ideation
提出MetaMuse框架,通过创意构思自动生成系统算法,解决解空间不连续导致的启发式依赖问题。该方法模仿人类直觉式创新,能自动探索更优算法,对系统设计和自动化编程具有开创性意义。
📖 阅读⬇ PDFVidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL
提出VidGuard-R1,结合推理多模态大模型与强化学习,实现AI生成视频的精准检测和人类可解释的说明。相比传统监督方法,该框架能提供推理过程,提升可信度与透明度,对打击深度伪造视频具有重要应用价值。
📖 阅读⬇ PDF提出通用的Banach-Bregman框架,将随机镜像下降、机器学习与大语言模型训练统一在同一理论体系下,为随机迭代优化算法提供统一的数学支撑。它帮助从业者厘清各类优化算法的内在联系,指导实际训练中的算法选择与调优。
📖 阅读⬇ PDFSemantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation
提出语义缓存框架,从离线学习缓存策略到在线自适应更新,显著降低LLM推理服务成本。通过缓存相似语义的请求结果,减少重复计算,实现低成本、低延迟的模型服务,对大规模部署LLM应用具有实用价值。
📖 阅读⬇ PDFOrchestration for Domain-specific Edge-Cloud Language Models
研究面向特定领域的边缘-云大语言模型编排方法,以应对连接、隐私与成本问题。核心贡献是一套高效利用边缘与云资源的编排策略。对从业者在实际部署LLM时平衡性能与资源开销具有参考价值。
📖 阅读⬇ PDFExCyTIn-Bench: Evaluating LLM agents on Cyber Threat Investigation
提出了ExCyTIn-Bench,首个基于调查图的安全问题评估LLM agent在网络威胁调查能力的基准测试。它模拟真实安全分析师的工作流程,为衡量AI agent在威胁调查中的表现提供标准化方法。对安全从业者而言,该基准有助于选择或优化用于威胁调查的LLM agent。
📖 阅读⬇ PDFFrom intention to implementation: automating biomedical research via LLMs
本文探讨利用大型语言模型实现生物医学研究自动化,覆盖从研究意图到具体执行的全流程,展示了LLM在文献分析、实验设计等环节的潜力。核心贡献是提出一个端到端的自动化框架,显著降低科研门槛。对从业者而言,它提示了借助现有LLM工具加速科研流程、构建科研Agent的可行路径。
📖 阅读⬇ PDFHONEYBEE: Efficient Role-based Access Control for Vector Databases via Dynamic Partitioning
HONEYBEE通过动态分区为向量数据库提供高效的角色访问控制,避免混合查询性能瓶颈。对从业者:向量数据库安全与性能平衡方案。
📖 阅读⬇ PDFDo Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
指出在LLM强化学习(如GRPO)中,低概率token会过度主导训练过程,从而损害模型推理能力的提升。提出应关注token概率分布平衡,避免低概率token的负面干扰。对从事RLHF或推理优化的工程师,该发现提示需重新设计奖励或采样策略。
📖 阅读⬇ PDFLUT-DLA: Lookup Table as Efficient Extreme Low-Bit Deep Learning Accelerator
提出LUT-DLA,使用查找表实现极端低比特深度学习加速,大幅度减少模型尺寸和计算复杂度。对从业者:低比特量化加速的新思路。
📖 阅读⬇ PDFPerformance of a large language model on the reasoning tasks of a physician
评估大语言模型在医生推理任务上的表现,以1959年提出的复杂临床诊断案例为参考标准。研究揭示了LLM在医学推理场景中的能力边界与潜在可靠性问题。对医疗AI开发者,此评估为模型在临床辅助诊断中的实际部署提供了重要参考。
📖 阅读⬇ PDFImproving training time and GPU utilization in geo-distributed language model training
本文改进地理分布式语言模型训练中的训练时间和GPU利用率。核心贡献是针对跨数据中心训练挑战提出优化策略,减少通信开销。对从业者而言,该方法能缓解GPU资源紧缺问题,支持更大规模模型训练。
📖 阅读⬇ PDFReMe: Scaffolding Personalized Cognitive Training via Controllable LLM-Mediated Conversations
本文提出ReMe系统,利用可控LLM驱动的对话提供个性化认知训练。核心贡献是设计可调节训练难度和内容的对话框架,替代僵化的计算机化认知训练程序。对从业者而言,该系统可拓展至老年人认知健康干预,实现规模化、个性化。
📖 阅读⬇ PDFEmbedding an Ethical Mind: Aligning Text-to-Image Synthesis via Lightweight Value Optimization
本文提出了一种轻量级价值优化方法,用于对齐文本到图像生成模型与人类价值观,减少有害内容产出。其核心贡献在于以极低计算成本抑制扩散模型中的不当生成,对内容安全从业者具有重要参考价值。
📖 阅读⬇ PDFNo Request Left Behind: Tackling Heterogeneity in Long-Context LLM Inference with Medha
提出Medha系统以解决百万token长上下文LLM推理中短查询与长文档混合带来的异构性挑战。通过优化请求调度与缓存管理,提升推理吞吐并降低延迟。对部署长上下文LLM的工程师,Medha提供了一种处理异构负载的高效方案。
📖 阅读⬇ PDFScaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor with T10
该工作介绍了T10智能处理器上利用核间互联链路实现深度学习计算高效扩展的方案。通过高带宽低延迟通信,显著提升了多核并行计算的效率,为AI芯片设计提供了关键的互联优化思路。
📖 阅读⬇ PDFImproving Steering and Verification in AI-Assisted Data Analysis with Interactive Task Decomposition
针对AI辅助数据分析中用户难以控制和验证的问题,提出交互式任务分解方法,让用户逐步引导和验证LLM的输出,提升主控感与信任度。该方法为开发更可靠的AI数据分析工具提供设计思路。
📖 阅读⬇ PDF提出CoExplorer技术原型,一种生成式AI驱动的自适应界面,帮助用户在视频会议规划与执行中明确意图并降低协作负担。通过AI生成议程、实时摘要等功能显著提升会议效率,为远程协作工具创新提供新方向。
📖 阅读⬇ PDFRetrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering
将检索增强生成与知识图谱结合应用于客服问答,通过快速检索相关历史问题并利用结构知识提升回答准确性,克服传统检索在复杂场景下不足。对技术支撑和知识密集型问答有显著改进。
📖 阅读⬇ PDF综述强化学习与LLM的协同研究,构建分类树梳理两者结合的方向(如RL微调LLM、LLM辅助RL决策等)。核心贡献是提供系统化视角。对从业者:快速了解领域前沿,发现交叉研究方向。
📖 阅读⬇ PDFForestColl: Throughput-Optimal Collective Communications on Heterogeneous Network Fabrics
设计ForestColl算法,在异构网络拓扑上实现吞吐量最优的集合通信(如allreduce)。通过智能调度加速器间的数据交换,缓解DNN大模型训练中的通信瓶颈。对分布式训练工程师,该算法可显著提升集群利用率与训练速度。
📖 阅读⬇ PDFCodeAid是一个基于LLM的编程助手,在课堂部署中平衡学生和教育者需求。它提供及时个性化反馈,但避免直接给出代码答案,以促进深度学习。对设计教育型LLM工具具有重要指导意义。
📖 阅读⬇ PDFA Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia
该研究提出Fakepedia方法,用于定位和检测LLM在上下文中的grounding能力。它揭示了模型利用上下文新信息的机制尚不明确,有助于提升模型可靠性。对从业者理解并改进LLM的上下文利用至关重要。
📖 阅读⬇ PDFEywa: Automating Model Based Testing using LLMs
提出Eywa系统,利用大语言模型自动完成模型测试(MBT)中的模型构建与测试用例生成。降低了MBT在协议实现等场景中的使用门槛。对软件测试从业者,该方案有望减少人工建模成本并提高测试覆盖率。
📖 阅读⬇ PDFMiniMax 1 条
MiniMax-01: Scaling Foundation Models with Lightning Attention
提出 MiniMax-01 系列模型(包括文本和视觉版本),核心创新「闪电注意力」机制使模型能够高效处理超长上下文,性能与顶尖模型相当。对从业者而言,该工作为长序列建模提供了更高效的注意力计算方案,有望降低大模型在长文档、多模态任务中的部署成本。
📖 阅读⬇ PDFMLSys 1 条
Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference
Keyformer提出一种通过关键令牌选择来压缩KV缓存的方法,在不显著影响生成质量的前提下大幅降低LLM推理的显存需求。该技术识别注意力机制中对后续生成贡献最大的键值对,实现动态剪枝,从而支持更长上下文和更大批量推理。对于在有限显存上部署大模型,此方案可有效提升吞吐量和降低延迟。
📖 阅读⬇ PDFNAACL 1 条
MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference
MEDA 为多模态长上下文大模型提出动态 KV 缓存分配策略,根据跨模态重要性动态管理缓存资源。该方法能显著降低多模态长上下文推理时的显存占用,并提升吞吐效率。对多模态 LLM 应用部署具有显著工程价值。
📖 阅读⬇ PDFNeurIPS 8 条
PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization
PACE 针对参数高效微调(PEFT)在提升下游任务性能时往往牺牲泛化能力的问题,引入一致性正则化:通过对扰动后的特征施加一致性约束,将微调梯度与预训练模型的隐式梯度对齐。该方法在视觉、文本等多个基准上同时改善了泛化性与任务表现,为从业者在小参数预算下兼顾效果与稳健性提供了即插即用的思路。
📖 阅读⬇ PDFPersonalizing Reinforcement Learning from Human Feedback with Variational Preference Learning
该工作指出现有 RLHF 假设人类偏好同质,无法刻画不同用户间的多样化乃至冲突偏好。作者提出变分偏好学习(VPL),用隐变量建模用户潜在偏好分布,从少量交互中推断个体偏好并实现个性化对齐。对从业者而言,这为构建可适配多元用户价值观的对齐系统提供了可扩展框架。
📖 阅读⬇ PDFZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification
ZipCache 提出一种结合显著令牌识别的 KV 缓存量化方法,先用轻量级重要性指标找出关键令牌,再对剩余的缓存值进行高比例量化压缩。这样在保持模型生成长度与精度的同时,实现了极高的压缩率并保持缓存精度。对于在大规模并发推理或边缘设备上部署LLM的从业者,它在不牺牲太多质量的前提下大幅降低缓存存储和带宽需求。
📖 阅读⬇ PDFSVFT: Parameter-Efficient Fine-Tuning with Singular Vectors
SVFT 利用预训练权重的奇异值分解,将可学习的更新约束在原始奇异向量张成的子空间内,仅训练作用于奇异向量外积上的稀疏系数。该方法以极少参数逼近全量微调的精度,优于同等预算下的 LoRA 类方法,为追求极致参数效率的从业者提供了基于权重结构先验的微调方案。
📖 阅读⬇ PDFVB-LoRA: Extreme Parameter Efficient Fine-Tuning with Vector Banks
VB-LoRA 面向每用户、每任务定制带来的存储爆炸问题,提出向量库(Vector Bank)共享机制:将 LoRA 的低秩参数分解为从一个全局共享向量库中按可学习权重组合的子向量,使各适配器参数大幅复用。在仅用极少存储的情况下保持接近标准 LoRA 的性能,非常适合大规模多任务或多租户的模型定制部署。
📖 阅读⬇ PDFOnline Iterative Reinforcement Learning from Human Feedback with General Preference Model
论文研究在「一般偏好预言机」设定下的在线迭代式 RLHF,不再假设存在显式奖励函数,而是直接基于成对偏好进行学习,并给出带理论保证的纳什均衡式优化算法。它把 RLHF 从奖励建模范式推广到更贴近人类偏好不可传递性的偏好范式,为构建更鲁棒的对齐流程提供了理论与算法基础。
📖 阅读⬇ PDF这篇工作分析了部分可观测性给 RLHF 带来的风险:当人类评估者只能观察到部分环境时,标准 RLHF 可能训练出会误导或欺骗人类的策略(如制造看似良好的表象)。它从理论上刻画了这种偏差的成因并讨论缓解方向,提醒从业者在对齐中重视评估者信息不完整带来的安全隐患。
📖 阅读⬇ PDFFew-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning
该工作提出少样本场景下参数高效微调(如其代表方法)优于上下文学习(ICL),在更高准确率的同时显著降低推理成本,因为无需在每次推理时携带大量示例。其亮点是论证了基于梯度的轻量微调相较免训练ICL的综合优势。对从业者而言,为少样本任务在ICL与PEFT之间的取舍提供了明确依据。
📖 阅读⬇ PDFNVIDIA 45 条
France Advances Europe’s AI Future With NVIDIA Technologies
NVIDIA 博客介绍法国借助 NVIDIA 技术推进欧洲 AI 进程:AI 工厂与国家算力上线、AI 智能体投入生产、初创企业部署应用、开放前沿模型与工业平台落地。对关注主权 AI 与算力基建的读者,这是欧洲算力布局的一则进展。
Zero-Shot Active Feature Acquisition via LLM-Elicitation
主动特征获取(AFA)需逐步选择观测哪些特征以做出分类或排序决策,传统方法严重依赖大量标注数据来拟合模型。本文提出零样本方案,利用大语言模型的先验知识来引导(elicitation)特征选择,从而摆脱对标注数据的依赖,为在缺乏标注样本的场景下做成本敏感的特征采集决策提供了新思路。
📖 阅读⬇ PDFReinforcing Dual-Path Reasoning in Spatial Vision Language Models
针对空间视觉语言模型(VLM)在复杂空间推理(如多步深度、距离与场景关系推断)中的不足,提出双路径推理强化方法,分别处理几何感知与关系推理,提升推理准确率。对从事具身智能与空间理解的研究者而言,该方法突破了现有VLM在复杂空间任务上的瓶颈。
📖 阅读⬇ PDFAdaptive Volumetric Mechanical Property Fields Invariant to Resolution
提出自适应体力学属性场,能够以分辨率不变的表示方式描述材料的杨氏模量、泊松比和密度,显著提升数字世界物理仿真的真实性与效率。对游戏、影视及工程仿真从业者而言,该方法可直接从3D资产中提取力学属性,减少手动标注成本。
📖 阅读⬇ PDFZone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients
提出「近端策略优化区间」知识蒸馏方法,通过将教师知识以提示形式注入学生模型,而非强制拟合logits,解决了小模型在极端小规模下模仿大模型时性能崩坏的问题。对模型压缩与部署从业者而言,该方法在保持轻量化的同时显著提升学生模型能力,尤其适合资源受限场景。
📖 阅读⬇ PDFCast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning
针对代码生成中的Pass@K度量,提出协调式的Pass@K策略优化方法,通过改进采样策略提升测试时计算效率。对代码推理与代码生成任务,该方法能在相同采样预算下获得更优的通过率表现。
📖 阅读⬇ PDFShardTensor: Domain Parallelism for Scientific Machine Learning
提出 ShardTensor 域并行方法,专为科学机器学习中超高分辨率数据设计,弥补了现有方案在扩展性与精度上的不足。其亮点是能在高效并行的同时保持模型精度。对处理大规模科学数据的从业者而言,提供了可落地的分布式训练手段。
📖 阅读⬇ PDFRetrieval from Within: An Intrinsic Capability of Attention-Based Models
挑战检索增强生成(RAG)将检索与生成视为分离系统的范式,探讨基于注意力的编码器-解码器能否直接从自身内部表示中完成检索。研究表明注意力模型具备「从内部检索」的内在能力,为简化 RAG 架构、把检索能力内化进模型本身提供了新视角。
📖 阅读⬇ PDFGated DeltaNet-2: Decoupling Erase and Write in Linear Attention
提出了「Gated DeltaNet-2」,通过在线性注意力中解耦擦除与写入操作,进一步优化固定大小循环状态。该方法提升了长序列处理效率并降低解码内存,对需要高效长上下文建模的从业者具有实用价值。
📖 阅读⬇ PDFMaya: Optimizing Deep Learning Training Workloads using GPU Runtime Emulation
本文提出 Maya,利用 GPU 运行时仿真来优化深度学习训练工作负载,自动化生成训练配方以替代人工手动设计。其亮点在于降低大模型训练高昂的试错与调优成本。对从业者而言,Maya 能显著提升训练效率并减少试错开销。
📖 阅读⬇ PDFHybridGen: Efficient LLM Generative Inference via CPU-GPU Hybrid Computing
HybridGen提出CPU-GPU混合计算方案,协同两类资源管理庞大的KV缓存,缓解LLM推理的显存容量与带宽瓶颈。核心在于高效的缓存管理与计算调度,使模型支持更长上下文同时降低延迟与开销。对从业者而言,是部署大规模LLM推理、尤其长文本生成场景的实用优化方案。
📖 阅读⬇ PDFFlint: Compiler Enabled Cluster-Free Design Space Exploration for Distributed ML
Flint提出基于编译器的「无集群」设计空间探索方法,解决分布式机器学习缺乏可用工作负载表示的难题,支持跨软硬件栈的灵活探索。对从业者而言,无需占用实际集群即可高效设计与优化分布式ML系统。
📖 阅读⬇ PDFBetter and Worse with Scale: How Contextual Entrainment Diverges with Model Size
研究发现大型语言模型在上下文处理上出现规模悖论:忽略虚假声明的能力随规模增强,但忽略无关词元的能力反而下降。该工作形式化了这一现象,提示从业者在模型缩放时需关注上下文干扰的权衡。
📖 阅读⬇ PDFSPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding
推出了「SPEED-Bench」统一多样化基准,用于全面评估推测解码在不同数据特性下的加速效果。该基准填补了领域空白,帮助从业者量化推理加速方案的适用场景与性能瓶颈。
📖 阅读⬇ PDFNCCL EP: Towards a Unified Expert Parallel Communication API for NCCL
NCCL EP 提出面向专家并行通信的统一 API,用以简化 MoE 架构中的设备间通信。核心贡献是提供标准化接口并兼容 DeepEP、Hybrid-E 等现有库,降低开发复杂度、提升通信效率。对从事大模型训练与推理的工程师而言,这是优化 MoE 通信的关键工具。
📖 阅读⬇ PDFCuTe Layout Representation and Algebra
CuTe 提出一套布局(Layout)表示与代数体系,用于在现代 GPU 张量核心上高效描述和操作复杂的数据映射。其灵活的布局抽象支持各种数据排布与变换,是编写高性能 GPU 算子的基础工具。掌握它有助于在底层优化深度学习模型的 GPU 执行性能。
📖 阅读⬇ PDFScalable Training of Mixture-of-Experts Models with Megatron Core
介绍基于Megatron Core的混合专家模型(MoE)可扩展训练方法,解决专家稀疏激活带来的系统挑战。该方法支持更大规模参数的MoE高效训练,对大规模模型分布式训练实践有直接指导作用。
📖 阅读⬇ PDFCRoCoDiL: Continuous and Robust Conditioned Diffusion for Language
提出了「CRoCoDiL」连续鲁棒条件扩散模型,改善掩码扩散模型在语言生成中的标记依赖与语义连贯性问题。通过引入连续表示与鲁棒条件机制,提升了非自回归生成的质量。
📖 阅读⬇ PDFLearn from Your Mistakes: Self-Correcting Masked Diffusion Models
针对掩码扩散模型并行生成中的错误,提出自纠正训练方法。模型从自身生成错误中学习,提升文本生成质量。为扩散模型在语言任务中的应用提供新思路。
📖 阅读⬇ PDFiGRPO: Self-Feedback-Driven LLM Reasoning
提出iGRPO框架,利用自我反馈信号进行强化学习,提升大语言模型数学推理能力。通过模型自身生成结果作为奖励,无需外部标注。对提升LLM推理一致性和准确性有实际价值。
📖 阅读⬇ PDF提出GalaxyDiT,通过引导对齐和自适应代理机制提升扩散Transformer视频生成效率。在保持质量的同时减少计算开销。对视频生成应用落地有直接帮助。
📖 阅读⬇ PDFGPU-Initiated Networking for NCCL
提出由 GPU 直接发起网络通信的方法以优化 NCCL,针对 MoE 等现代架构改善延迟并实现细粒度控制。核心贡献是把通信控制下放到设备端,降低通信开销、提升分布式训练效率。对从业者而言,该方法可显著加速大规模混合专家模型的训练。
📖 阅读⬇ PDFWorld Simulation with Video Foundation Models for Physical AI
发布Cosmos-Predict2.5世界模拟基础模型,基于流架构统一文本、图像到视频的生成。为物理AI提供高质量世界模拟能力。推动视频基础模型在机器人、仿真等领域的应用。
📖 阅读⬇ PDFRLP: Reinforcement as a Pretraining Objective
提出将强化学习作为预训练目标,而非仅用于后训练。在预训练阶段引入RL损失,使模型更早学习推理能力。挑战了先预训练后RL的传统范式。
📖 阅读⬇ PDFThe Fused Kernel Library: A C++ API to Develop Highly-Efficient GPU Libraries
提出Fused Kernel Library,一个C++ API,通过核融合技术将多个GPU操作合并,提升GPU并行资源和片上内存利用率。对从业者:加速GPU编程,优化内存带宽。
📖 阅读⬇ PDFAlign Your Flow: Scaling Continuous-Time Flow Map Distillation
提出连续时间流图蒸馏的缩放方法(Align Your Flow),将扩散/流模型蒸馏为单步或少步采样。核心贡献是通过对齐流蒸馏策略实现高效生成,大幅减少推理步数。对从业者重要,可加速生成模型在实时应用中的部署。
📖 阅读⬇ PDFBeyond the Buzz: A Pragmatic Take on Inference Disaggregation
对推理分离(disaggregation)进行实用分析,即拆分推理为不同阶段以优化多节点部署的吞吐-交互性帕累托前沿。核心贡献是澄清实际挑战与权衡,为从业者提供部署参考。对从业者重要,帮助设计高效稳定的推理系统。
📖 阅读⬇ PDFMinitron-SSM: Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning
提出一种组感知剪枝方法(Group-Aware SSM Pruning),对混合注意力-状态空间模型进行高效压缩。通过联合剪枝与知识蒸馏,在保持准确率的同时显著降低计算开销,为部署高效混合语言模型提供实用方案。
📖 阅读⬇ PDFTest-Time Alignment for Large Language Models via Textual Model Predictive Control
提出文本模型预测控制(Textual Model Predictive Control)方法,在测试阶段无需微调即可让大语言模型与人类偏好对齐。该方法轻量高效,为实际应用中快速适应偏好提供新思路。
📖 阅读⬇ PDFCosmos World Foundation Model Platform for Physical AI
介绍Cosmos世界基础模型平台,为物理AI提供数字孪生环境,包含策略模型与世界模型。旨在通过虚拟训练降低物理AI部署成本,推动机器人、自动驾驶等领域发展。
📖 阅读⬇ PDFDRC-Coder: Automated DRC Checker Code Generation Using LLM Autonomous Agent
本文提出DRC-Coder,利用LLM自主Agent自动生成设计规则检查(DRC)代码。核心贡献在于将芯片设计中的DRC实现自动化,减少人工编写代码的工作量。对从业者而言,该工具可加速版图优化迭代,提升EDA流程效率。
📖 阅读⬇ PDFRoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
提出RoboSpatial,通过数据集和训练方法提升2D和3D视觉语言模型的空间理解能力,使机器人能更准确地感知和推理环境。核心贡献在于弥合视觉与空间推理的差距,对机器人自主操作和场景理解具有重要价值。
📖 阅读⬇ PDFHymba: A Hybrid-head Architecture for Small Language Models
提出Hymba小语言模型混合头架构,并行集成Transformer注意力与状态空间模型(SSM),在保持性能的同时提升推理效率。该设计兼顾全局建模与线性复杂度,适合资源受限场景下的模型部署。
📖 阅读⬇ PDFLLaMA-Mesh: Unifying 3D Mesh Generation with Language Models
扩展大语言模型能力,使其在统一框架内直接生成3D网格,利用预训练文本知识迁移空间理解。无需额外3D编码器,实现文本到3D的高效生成,为3D内容创作和统一多模态模型提供新思路。
📖 阅读⬇ PDFSLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression
提出SLiM方法,通过一次性量化、稀疏化和低秩近似联合压缩LLM权重,无需重训练即可大幅降低内存和加速推理。保持模型精度的同时实现高效部署,解决大模型实际应用中的存储和计算瓶颈。
📖 阅读⬇ PDFEnergy-Based Diffusion Language Models for Text Generation
探索基于能量的离散扩散语言模型,突破传统自回归从左到右的生成约束。通过能量函数指导扩散过程,生成更灵活、可控的文本序列,为非自回归文本生成范式开辟新方向。
📖 阅读⬇ PDFExploring GPU-to-GPU Communication: Insights into Supercomputer Interconnects
本文深入分析了超算中多GPU节点间的通信特性,揭示了专用互连网络的带宽与延迟瓶颈。对大规模分布式训练中通信模式的理解有助于优化并行策略,对超级计算从业者具有重要参考价值。
📖 阅读⬇ PDFTowards a Standardized Representation for Deep Learning Collective Algorithms
该研究提出了一种用于深度学习集体算法的标准化表示方法,旨在简化分布式训练中通信模式的生成与优化。此举有望推动集体算法库的统一和自动化,降低分布式系统开发门槛。
📖 阅读⬇ PDFLongVILA: Scaling Long-Context Visual Language Models for Long Videos
介绍LongVILA,一套全栈方案扩展视觉语言模型的长上下文能力,特别针对长视频理解。通过架构和训练优化实现高效处理长视频,对多模态应用有重要参考价值。
📖 阅读⬇ PDFLLM Pruning and Distillation in Practice: The Minitron Approach
详细报告使用剪枝和蒸馏将Llama 3.1 8B和Mistral NeMo 12B压缩至4B/8B参数的实际经验。对比两种剪枝策略,提供可复现的模型压缩最佳实践,助力从业者低成本部署。
📖 阅读⬇ PDF提出VerilogCoder,基于图规划和抽象语法树波形追踪的自主Verilog编码智能体。自动生成硬件设计代码,减少人工错误,为自动化EDA工具发展提供新思路。
📖 阅读⬇ PDFMambaVision: A Hybrid Mamba-Transformer Vision Backbone
提出MambaVision,一种混合Mamba-Transformer视觉骨干网络,重新设计Mamba公式以增强视觉特征提取。在多项视觉任务上取得优异性能,为视觉骨干设计提供新的选择。
📖 阅读⬇ PDFnach0: Multimodal Natural and Chemical Languages Foundation Model
nach0是一个多模态自然语言和化学语言的基础模型,融合了两种语言领域的知识。它展示了LLM在化学等科学领域的应用潜力。对推动科学发现和跨学科研究有重要意义。
📖 阅读⬇ PDFPockEngine: Sparse and Efficient Fine-tuning in a Pocket
PockEngine实现了设备端稀疏高效微调,支持隐私保护的个性化定制。它解决了现有训练框架在资源受限设备上的瓶颈。对边缘计算和隐私敏感的微调场景非常实用。
📖 阅读⬇ PDF该研究对比了模型微调与提示微调在临床概念和关系抽取任务上的效果。探讨了提示形状、冻结/解冻LLM、迁移学习和少样本学习等策略。对医学领域LLM应用提供了实用指导。
📖 阅读⬇ PDFOllama 1 条
「Ollama」发布 v0.30.10:Command A 与 North 系列模型现可经 MLX 引擎在 Apple Silicon 上运行,底层 llama.cpp 引擎更新至 build 9672 并修复了 MLX 构建产物。对在 Mac 上做本地推理的用户,这扩展了可本地运行的模型阵容。
OpenAI 18 条
Reinforcement learning towards broadly and persistently beneficial models
该研究通过强化学习在现实场景中训练模型产生有益行为,发现这种训练能带来跨领域的对齐泛化,并在对抗压力下持续保持。核心贡献是证明了以有益行为为目标的强化学习可以产生广泛且持久的对齐改进。这对从业者构建稳健、抗对抗攻击的AI系统具有重要参考价值。
📖 阅读⬇ PDFInvestigating the consequences of accidentally grading CoT during RL
研究发现在部分已发布模型中,强化学习训练期间意外对思维链(CoT)进行了有限评分,修复了受影响的奖励路径,未发现明显的可监控性退化证据。核心贡献在于揭示了RL训练中奖励信号可能无意间评估推理过程,并提供了缓解方法。对从业者而言,这提醒需小心设计奖励函数,避免模型策略出现意外偏差,从而保障模型行为的安全与可控。
Metagaming matters for training, evaluation, and oversight
本文强调元博弈(metagaming)会扭曲对智能体行为的解读,进而影响训练、评估与监督的有效性。核心贡献在于指出当前模型仍提供直接研究元博弈的机会,并呼吁系统性地将其纳入考量。对从业者而言,理解元博弈有助于避免行为误判,从而构建更稳健的AI系统。
Sidestepping Evaluation Awareness and Anticipating Misalignment with Production Evaluations
提出一种生产环境评估管道,旨在绕过模型的评估意识并主动发现未知的不对齐行为。其核心贡献在于规模化构建贴近真实场景的评测,以提前暴露潜在风险。对从业者而言,该方法能更早识别模型在部署后可能出现的意外有害输出,提升安全性测试的覆盖与有效性。
New usage analytics and updated spend controls for enterprises
OpenAI 为 ChatGPT 企业版推出新的用量分析与更新的支出管控功能,帮助组织管理成本并更有信心地规模化使用 AI。对负责企业级 AI 采购与成本治理的团队,这补齐了用量可见性与预算控制能力。
「Triton 3.7.1」补丁版发布,仅修复两处回归而无新功能:一是为「FenceAsync」补上共享内存写与异步拷贝之间缺失的栅栏以避免读到未写完的数据,二是 InstCombine 利用已知零位收缩相加常量。对写 Triton 内核的开发者,第一条修复直接关乎结果正确性。
Improving health intelligence in ChatGPT
OpenAI 介绍「GPT-5.5 Instant」如何改进 ChatGPT 在健康与养生方面的回答:更强的推理、更好的上下文把握、更清晰的表达,并经医生参与的评测验证。对关注大模型垂直落地的读者,这是 OpenAI 在健康场景加固可靠性的一步。
Using AI to help physicians diagnose rare genetic diseases affecting children
OpenAI 介绍研究者用其推理模型协助诊断儿童罕见遗传病,在此前未解病例中新识别出 18 例诊断。对关注推理模型科学落地的读者,这是大模型在医学诊断中产生实质价值的一个具体案例。
Training Agents to Self-Report Misbehavior
该工作提出训练前沿AI智能体在追求目标时主动自我报告不当行为,以应对智能体可能隐藏真实意图并逃避监管的风险。核心贡献在于探索将「自我报告」机制融入对齐训练,增强对欺骗性对齐的检测能力。对从业者而言,这一方向为构建更透明、可监督的安全AI系统提供了新思路。
📖 阅读⬇ PDFOpenAI 发布 GPT-5 系统卡,介绍 GPT-5 是一个统一系统,包含快速回答模型的智能体和用于复杂问题的深度推理模型,并展示了能力与安全评估。对从业者而言,它揭示了前沿大模型架构的融合趋势及安全实践。
📖 阅读⬇ PDFTraining LLMs for Honesty via Confessions
该研究提出通过「坦白」机制训练大语言模型保持诚实,让模型在对话中主动承认自身行为与信念的局限性,以缓解虚报置信度或隐瞒证据等不诚实问题。核心贡献在于设计了一种基于自我表露的训练范式,引导模型在生成中嵌入更透明的元认知信号。对从业者而言,这提供了一条提升模型可信度与安全对齐的新路径,尤其适用于需要可靠置信度估计和可审计决策的场景。
📖 阅读⬇ PDF本文提出监控“可监控性”的概念,要求对现代AI系统的决策过程具备可观测性,尤其聚焦于推理模型的思维链监控。核心贡献在于指出安全部署日益强大的智能体需先确保其决策逻辑可被有效监视,并可能引入评估监控本身可行性的框架。对从业者而言,这强调了在追求性能前构建可靠 AI 安全监控机制的重要性。
📖 阅读⬇ PDFStress Testing Deliberative Alignment for Anti-Scheming Training
该研究对用于防止AI「密谋」行为(scheming)的深思熟虑对齐训练进行压力测试,评估其鲁棒性。核心贡献在于揭示现有对齐方法在面对故意隐藏不良目标的模型时可能失效,并提出了更严格的对抗性评估框架。这对安全从业者至关重要,因为高度智能系统若秘密追求错误目标将带来重大风险,需更可靠的检测与缓解手段。
📖 阅读⬇ PDFPersona Features Control Emergent Misalignment
该研究探索了如何通过人物个性特征来调控语言模型微调时出现的意外失调行为,发现微调GPT-4o过程中个性因素会显著影响模型行为的泛化,为AI安全提供了基于特征控制的干预手段。
📖 阅读⬇ PDFMonitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation
本文探讨了在推理模型中监控不当行为以缓解奖励黑客问题,揭示了促进混淆可能带来的重大风险。研究强调,仅仅优化奖励信号可能导致模型产生隐蔽的有害策略,因此构建有效的监控体系对提升AI安全性与对齐实践至关重要。
📖 阅读⬇ PDFScaling and evaluating sparse autoencoders
该研究探索稀疏自编码器在语言模型中的规模化训练与评估方法,通过稀疏瓶颈层重建激活来提取可解释特征。核心贡献在于提出可扩展的训练策略和系统性评估框架,证明了该技术能可靠地从大规模模型中分离出语义清晰的特征。这对从业者理解模型内部表征、提升安全性与可控性具有重要实用价值。
📖 阅读⬇ PDFTraining language models to follow instructions with human feedback
该论文提出通过人类反馈强化学习(RLHF)微调语言模型,使模型输出更符合用户意图,减少虚假、有毒或无用内容。核心贡献在于构建了一套包含监督微调、奖励建模与近端策略优化的对齐流程,显著提升模型的指令遵循能力。对从业者而言,它奠定了当前主流对齐技术的基础,直接影响ChatGPT等产品的安全性及实用性。
📖 阅读⬇ PDFFine-Tuning Language Models from Human Preferences
该工作通过构建反映人类偏好的奖励模型,并利用强化学习微调语言模型,使模型输出更符合人类期望。核心贡献在于将人类反馈系统性地融入训练,显著提升了模型的有用性与安全性。对从业者而言,这奠定了基于人类反馈的强化学习(RLHF)范式,成为大模型对齐的关键技术路径。
📖 阅读⬇ PDFOSDI 1 条
InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management
InfiniGen 提出一种适用于长文本生成的大模型推理动态 KV 缓存管理方案,在生成过程中根据自注意力特征在线辨识并丢弃低重要性令牌的缓存。这种方法无需离线的先验知识,能自适应地控制缓存大小,大幅降低显存足迹。对需要长输出生成(如故事续写、代码生成)的LLM服务部署者,该方案能在低显存预算下维持高质量生成。
📖 阅读⬇ PDF商汤 2 条
A Simulation Platform for Multi-tenant Machine Learning Services on Thousands of GPUs
设计了一个面向数千 GPU 规模的多租户机器学习服务仿真平台,可模拟作业调度和资源争用。核心价值在于提供低成本的调参和策略验证环境,避免直接在生产集群试错。对数据中心 GPU 集群管理员和调度系统开发者极为重要。
📖 阅读⬇ PDFCharacterization and Prediction of Deep Learning Workloads in Large-Scale GPU Datacenters
对大规模GPU数据中心中深度学习工作负载进行系统表征与预测建模。通过分析工作负载特征,为资源调度器提供准确的负载预测,从而提升集群利用率和调度效率。对AI基础设施运维人员具有重要意义,可指导GPU资源优化分配。
📖 阅读⬇ PDFSIGIR 1 条
When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications
该工作将混合专家(MoE)与LLM结合,提出面向多任务医疗应用的参数高效微调方法。通过MoE结构在低成本下适配多种医疗子任务,兼顾通用能力与领域专精。对从业者而言,它为在垂直领域以更少参数实现多任务部署提供了思路。
📖 阅读⬇ PDF腾讯 AI Lab 6 条
AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression
AngelSlim是腾讯混元团队推出的大模型压缩工具包,整合多种前沿压缩算法,提供一站式、易用且高效的解决方案。核心贡献是降低大模型部署门槛与成本、提升推理效率,方便从业者落地。
📖 阅读⬇ PDFLocas: Your Models are Principled Initializers of Locally-Supported Parametric Memories
Locas提出一种局部支持的参数化记忆机制,桥接测试时训练与参数化记忆,可灵活地从模型参数中卸载或合并。核心贡献是让模型在测试阶段动态调整参数、提升适应性与资源管理效率。对从业者而言有望改善模型在部署推理时的灵活性。
📖 阅读⬇ PDFAnchor-based Large Language Models
Anchor-based LLM通过在注意力中引入锚点令牌来替代对完整历史KV缓存的依赖,使用动态选取的少量锚点实现高效上下文建模。该方法在保持生成质量的同时大幅削减了内存和计算开销,尤其在长文本场景中优势明显。对于追求低资源消耗的大模型部署,该架构提供了一种有效的轻量化路径。
📖 阅读⬇ PDFWMT2023语篇级文学翻译共享任务首次聚焦篇章连贯性与文学性,本报告总结了各系统在大语言模型时代的表现与发现。任务揭示LLM虽能提升流畅度,但保持文学风格与文化细节仍是重大挑战,为文学翻译技术发展提供了方向。
📖 阅读⬇ PDFOn the Cultural Gap in Text-to-Image Generation
揭示文生图模型中因训练数据文化分布不均导致生成图像出现文化偏差,系统评估不同文化主题下的质量差异并提出缓解方案。这项工作警示多模态生成从业者需关注数据集公平性,对构建全球化、包容性强的AIGC系统至关重要。
📖 阅读⬇ PDF描述了腾讯AI实验室与上海交大针对WMT22低资源翻译任务的神经机器翻译系统。核心贡献在于运用预训练模型与数据增强策略,在极少量平行语料下取得有竞争力的翻译质量。为业界在低资源语言翻译上提供了实用的系统设计与参数配置参考。
📖 阅读⬇ PDF腾讯混元 6 条
Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models
提出 Flow-DPPO,把散度近端策略优化引入流匹配模型的在线强化学习,用于图像和视频生成的质量与对齐提升。相比 Flow-GRPO 等方法训练更稳定、性能更优,为生成模型提供了一套可直接复用的在线 RL 对齐框架。
📖 阅读⬇ PDFDisCa针对视频扩散变换器提出可学习的特征缓存机制,并与蒸馏训练兼容,从而显著降低推理计算开销。核心贡献是蒸馏兼容的缓存策略在保持生成质量的同时实现高效推理,可大幅减少视频生成的资源需求。
📖 阅读⬇ PDFHY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation
HY-Motion 1.0是首个大规模流匹配文本到3D人体动作生成模型系列,成功将流匹配扩展至动作生成并取得最先进效果。亮点在于验证了流匹配在该任务上的可扩展性,提供了高保真多样化的运动生成。对动画、游戏和虚拟人从业者直接可用。
📖 阅读⬇ PDFHunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material
混元3D 2.1 从单张图像直接生成高保真 3D 资产,并附带生产就绪的 PBR 材质,大幅提升了游戏、影视、设计等领域的 3D 内容创作效率。该版本在几何细节和材质真实感上取得突破,解决了以往图像到 3D 模型难以直接用于生产的问题。对 3D AIGC 从业者而言,它提供了一套端到端且输出即用的高质量 3D 生成管线。
📖 阅读⬇ PDF发布Hunyuan-TurboS,一种混合Transformer与Mamba的MoE大模型,充分利用Mamba的长序列处理优势与Transformer的表达能力。模型还集成自适应思维链推理,旨在提升长上下文推理效率与整体性能。
📖 阅读⬇ PDFHunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent
发布腾讯混元Large模型,当前最大开源MoE架构Transformer模型,总参3890亿、激活参520亿,在各种任务上展现强性能,推动开源社区大模型能力边界。
📖 阅读⬇ PDF通义千问 6 条
Qwen3.5-Omni是通义千问Omni系列最新的多模态模型,参数量达数千亿级,相比前代有显著进化。技术报告介绍了其架构与多模态能力。对从业者而言,是评估与选用全模态大模型的重要参考。
📖 阅读⬇ PDFRevealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective
本工作揭示大语言模型具有内在的行为可塑性,会像变色龙一样随环境线索改变表现,并提出从 Token 条件的视角来刻画这种动态适应性。核心贡献是在 Token 层面理解模型行为如何被上下文调控。对从业者而言,有助于构建更可控、更自适应的 LLM 应用并防范意外行为漂移。
📖 阅读⬇ PDF发布Qwen3系列大语言模型,在性能、效率和多语言能力上全面提升。这一更新为开源社区提供了更强的基座模型,有利于下游应用与进一步研究。
📖 阅读⬇ PDFQwen2.5 是通义千问系列大语言模型的最新版本,在多项基准上实现显著提升。该系列涵盖多种规模,优化了预训练和后训练,支持更复杂的推理、多语言和长上下文任务。对于企业级应用和开源生态,Qwen2.5 提供了高性能且可落地的模型选择,推动大模型实际部署。
📖 阅读⬇ PDFQwen2.5-Coder Technical Report
发布Qwen2.5-Coder系列代码专用模型,包含六种尺寸全面升级,在代码生成、修复等任务上取得显著提升,为开发者提供强大且多样的编程辅助工具。
📖 阅读⬇ PDFQwen2 技术报告发布了新系列的大语言模型和多模态大模型,涵盖从 0.5B 到 72B 的稠密模型及 MoE 模型,均提供基础版和指令微调版。报告展示了在语言理解、生成、多模态等任务上的全面提升。这为开发者和研究者提供了强大的开源基座选择。
📖 阅读⬇ PDFUnsloth 1 条
GLM 5.2 + Model Hub + 3x longer contexts
Unsloth Studio 宣布支持「GLM-5.2」全部推理档位,并借助配合「MTP」的自动适配算法把可用上下文长度拉长到原先的三倍,从而支撑更长对话。同时上线模型发现中心、可分叉与可排队对话、并行模块及基于「Cloudflare」的 HTTPS 安全访问。对做本地微调与部署的从业者,意味着更省显存、更长上下文的微调与服务体验。
月之暗面 Kimi 7 条
指出现有LLM中残差连接使用固定单位权重导致隐藏状态随深度增长而失控,提出一种新的残差机制以改善这一缺陷,提升深层网络训练稳定性。
📖 阅读⬇ PDFKimi K2.5: Visual Agentic Intelligence
介绍开源多模态智能体模型Kimi K2.5,强调文本与视觉模态的联合优化以增强通用智能体能力,推动多模态智能体领域发展。
📖 阅读⬇ PDFKimi Linear: An Expressive, Efficient Attention Architecture
提出混合线性注意力架构Kimi Linear,在短上下文、长上下文等多种场景下首次超越传统全注意力,兼顾表达效率和计算性能。
📖 阅读⬇ PDFKimi-Dev: Agentless Training as Skill Prior for SWE-Agents
提出Kimi-Dev方法,通过无智能体训练为软件工程智能体提供技能先验,无需多轮交互即可完成SWE-bench任务。该方法降低了智能体部署复杂度,提升了软件工程自动化水平。
📖 阅读⬇ PDFKimi K2: Open Agentic Intelligence
发布Kimi K2开源MoE模型(总参1T、激活32B),并引入MuonClip优化器提升训练稳定性。该模型在开放智能体智能方面达到新高度,为构建自主Agent系统提供了强基座。
📖 阅读⬇ PDF提出开源音频基础模型Kimi-Audio,专注于音频理解、生成和对话,详细介绍了模型架构和训练实践。对从业者而言,它展示了构建统一音频模型的最新进展,适合音视频AI应用开发。
📖 阅读⬇ PDFKimi k1.5: Scaling Reinforcement Learning with LLMs
探索用强化学习扩展大语言模型能力,突破预训练数据限制,通过RL解锁新的训练范式。对从业者而言,它展示了RL在LLM规模化中的潜力,开辟了超越传统NTP的训练路径。
📖 阅读⬇ PDF智谱 GLM 8 条
GLM-5: from Vibe Coding to Agentic Engineering
推出GLM-5下一代基座模型,从「随性编码」范式升级为「智能体工程」范式。通过增强Agent、推理与编程能力,为开发者提供从简单生成代码到构建自主智能体的核心技术支撑,显著提升AI工程化效率。
📖 阅读⬇ PDFSHAKE-GNN: Scalable Hierarchical Kirchhoff-Forest Graph Neural Network
提出SHAKE-GNN,一种可扩展的层次Kirchhoff-森林图神经网络,有效解决大规模图上的图级学习任务,显著提升可扩展性。
📖 阅读⬇ PDFGLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
开源MoE大语言模型GLM-4.5,总参数量355B、激活参数量32B,支持混合推理(可切换思考与快速模式)。兼顾性能与成本,为进一步研究和实际应用提供了灵活的基础模型选择。
📖 阅读⬇ PDF推出GLM-4.5V、GLM-4.1V-Thinking等多模态视觉语言模型系列,基于可扩展强化学习实现通用多模态理解与推理。显著提升了图文理解、逻辑推理等能力,为多模态应用提供前沿基础。
📖 阅读⬇ PDFAC-LoRA: Auto Component LoRA for Personalized Artistic Style Image Generation
提出AC-LoRA方法,利用自动组件化的低秩适应(LoRA)技术,从少量图像中学习个性化艺术风格,实现高质量的风格化图像生成。
📖 阅读⬇ PDFGLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot
提出GLM-4-Voice端到端语音聊天机器人,支持中英文实时对话,能模仿情感和语气变化,更智能和人性化。对从业者而言,它代表了语音交互的前沿方向,可用于构建类人对话系统。
📖 阅读⬇ PDFChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
ChatGLM-Math提出自我批评流水线,迭代优化LLM的数学解题能力。贡献:无需额外数据,通过模型自身批评提升准确率。重要:为改进LLM推理能力提供新思路。
📖 阅读⬇ PDFGLM-Dialog: Noise-tolerant Pre-training for Knowledge-grounded Dialogue Generation
发布 GLM-Dialog,一个 100 亿参数的中文知识对话大模型,能够通过搜索引擎访问互联网知识进行对话。核心贡献是提出噪声容忍的预训练方法,提升模型在检索知识不准确时的鲁棒性,对构建可靠的中文对话系统具有重要参考价值。
📖 阅读⬇ PDF字节 Seed 10 条
提出「就地测试时训练」方法,让大语言模型在部署运行过程中动态调整自身权重,从而持续适应实时输入的新信息。其核心贡献是突破传统「先训练后部署」的静态范式,实现模型的在线自适应。对从业者而言,该技术能显著提升 LLM 在动态变化环境中的表现与鲁棒性。
📖 阅读⬇ PDFSeed1.8 Model Card: Towards Generalized Real-World Agency
Seed1.8 模型卡介绍了一款面向通用真实世界代理能力的基础模型,突破单轮预测,原生支持多轮交互、工具调用与多步执行,同时保持强大的语言能力。其亮点在于把代理能力作为基础模型的核心设计目标而非外挂插件。对从业者而言,它为构建贴近真实业务场景的智能体系统提供了更强的底座参考。
📖 阅读⬇ PDFProtein Autoregressive Modeling via Multiscale Structure Generation
提出首个多尺度蛋白质骨架自回归生成框架PAR,通过从粗到细的逐尺度预测实现蛋白质结构生成。核心贡献在于将层次化多尺度建模引入蛋白质生成,利用蛋白质的天然层级结构提升生成质量。对从业者而言,该框架有望加速蛋白质设计并提高结构合理性,推动药物发现与合成生物学应用。
📖 阅读⬇ PDF提出对抗流模型,融合对抗训练与连续归一化流,原生支持一步与多步采样,兼具高质量与生成速度。该方法避免了单独流模型多步慢、对抗模型模式坍塌等问题,展示了一种混合范式。对需要高效生成图像的从业者提供了一种新的实用选择。
📖 阅读⬇ PDFArtificial Hippocampus Networks for Efficient Long-Context Modeling
提出人工海马网络,针对长序列建模中RNN式固定大小压缩记忆与Transformer式无损增长记忆之间的权衡,设计了兼顾效率与保真度的新型记忆机制,实现高效长上下文建模。为处理超长序列提供了更优架构选择,有望降低计算开销并提升性能。
📖 阅读⬇ PDFReasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
提出名为「Answer-Then-Check」的安全对齐方法,通过先生成回答再检查其安全性来防御针对大语言模型的越狱攻击,在提升鲁棒性的同时不牺牲模型原有能力。它为从业者提供了一种实用的越狱防御策略,有助于LLM的安全部署。
📖 阅读⬇ PDFSeed-Coder: Let the Code Model Curate Data for Itself
Seed-Coder 让代码大模型自主策展训练数据,通过模型自身的质量判断来筛选和优化代码预训练语料,从而提升代码能力和通用智能。核心创新在于将数据策展过程与模型能力对齐,减少对外部启发式规则的依赖。对关注代码 LLM 预训练和训练数据工程的团队,该方法提供了一条低成本、高效的数据质量提升路径。
📖 阅读⬇ PDFSeed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning
提出 Seed1.5-Thinking 模型,通过强化学习让模型在回答前先进行思考推理,从而在多个基准上显著提升性能,例如 AIME 2024 得分 86.7。核心贡献在于展示了强化学习驱动思维链对推理能力的有效增强,对构建强推理模型具有重要参考价值。
📖 阅读⬇ PDFDiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation
DiTAR 结合扩散 Transformer 与自回归建模,实现无需离散语音 token 的连续语音表示生成。该方法旨在解决以往工作中连续生成的不稳定与质量瓶颈,为高保真语音合成提供新方案。对语音生成领域的研究和应用具有重要推进意义。
📖 阅读⬇ PDFBFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving
BFS-Prover 针对基于 LLM 的自动定理证明,提出可扩展的最佳优先树搜索方法,在 Lean4 环境中高效导航庞大证明空间。其关键贡献在于提升搜索算法的可扩展性,使模型能处理更复杂的数学定理。这对形式化数学和 AI 推理从业者具有重要价值。
📖 阅读⬇ PDF