标签: reinforcement learning
包含标签的所有文章 "reinforcement learning".
-
当思考(CoT)遇见embedding
生产搜索系统在嵌入查询前会先用大语言模型对其进行改写。ICLR 2026 的两篇论文探究了当改写与嵌入共用同一模型(乃至同一梯度)时会发生什么。
包含标签的所有文章 "reinforcement learning".
生产搜索系统在嵌入查询前会先用大语言模型对其进行改写。ICLR 2026 的两篇论文探究了当改写与嵌入共用同一模型(乃至同一梯度)时会发生什么。