标签: reinforcement learning

包含标签的所有文章 "reinforcement learning".

当思考(CoT)遇见embedding

17 May, 2026

生产搜索系统在嵌入查询前会先用大语言模型对其进行改写。ICLR 2026 的两篇论文探究了当改写与嵌入共用同一模型（乃至同一梯度）时会发生什么。