温度参数大概是LLM推理中最简单了解的操控手法了。把温度调低,输出就更确认、更收敛;调高,模型就更发散、更有构思。问题是,这套机制依赖于显式的logits——而接连自回归言语模型(CALM)恰恰没有这东西。
咱们在前面CALM结构的介绍中看到,CALM基本上把架构都做过修正,可是唯一温度采样这块一向没动。
这时由于模型猜测的是无限维空间中的接连向量,底子没办法枚举一切或许输出,更别提核算概率了。 或者说咱们只要一个能吐样本的黑盒,没有logits能够缩放,没有softmax能够操作。
出产环境里简直一切LLM布置不能脱离温度采样——它决议了输出在创造性和确认性之间的平衡点
传统做法是在softmax之前对logits做缩放,直接重塑词汇表上的概率散布。但CALM的输出空间是接连的、无限的,这条路是走不通,那怎么办?本文要处理的便是这样的一个问题:只靠抽样才能,不碰任何概率数值,照样能轻松完成温度操控。
这儿介绍的技能补全了CALM东西链的最终一块拼图,证明接连言语模型在可控性上并不逊于传统token模型,功率优势还能保住
先快速回忆下经典温度采样的机制。设 x_i_ 为第i个token的logit,温度调整后的概率散布长这样:
温度值T的效果很直观:T 1时散布变尖利,概率质量往头部token会集,合适编程、数学这类需求确认性的场景;T 1时散布变平整,尾部token也有更多机会被采到,合适构思写作、brainstorming。
本质上便是除以一个更大的T会紧缩logit之间的距离,削弱softmax的赢家通吃效应,但CALM每一步并不输出有限词汇表上的离散散布,天然也就没有logits向量可供缩放
上图展现了温度对散布形状的影响:左面低温,散布尖利、确认性强;右边高温,散布平整、多样性高。
CALM的生成器便是个黑盒:能够从里边抽样本,但拿不到概率值也没有logits。
中心思路和经典温度采样相同的方针,从温度调整后的散布中采样但把直接操作概率的过程悉数换成纯采样操作。具体来说,假定有个根底采样器能发生x∼P(x),方针是结构一个新采样器发生x∼PT(x),且只能用原采样器重复抽样这一种手法。
下一步是把温度采样重写成不需求logits的方式,这便是后续一切推导的起点公式:
磕碰办法(collision method)供给了根底结构。可是还有一个重要的问题:1/T不是整数怎么办?
先把CALM的采样适配到温度操控结构上。这儿要运用到磕碰办法:抽取多个独立样本,依据它们的匹配状况来直接确认概率。
这儿说的样本x是单个CALM解码过程发生的整个K-token块,不是单个token
磕碰技巧的数学根底是独立性:n次独立抽样悉数等于同一个块x的概率恰好是 P(x)n
问题在于1/T 一般不是整数,比方无法抽3.33个样本。并且低温度状况下回绝率会很高,比方 T=0.1意味着需求接连10个完全相同的样本,所以整数部分和小数部分有必要分隔处理,这就引出了分化战略。
分化战略把指数运算的代数规矩映射到概率上,把1/T拆成整数n和小数 α 两个重量:
小数重量就麻烦了,无法用样本重复的办法,所以要把问题转化成无限级数方式。这便是伯努利工厂的用武之地:用只能拜访概率为p的硬币,制造出一个概率为pᵅ 的有偏硬币。
所谓概率为p的硬币实践上的意思便是个匹配指示器:从根底采样器抽一个样本,跟方针x持平就回来成功。这是个伯努利随机变量(真/假),成功概率等于 p=P(x)
数学上这套东西仍是很好解说的但核算上有个严峻瓶颈。低温度的状况下——比方T=0.1——需求接连10个相相同本。模型或许要跑几百万次才出一个有用成果。
作者给出的解法是批量近似。与其等接连n个相相同本,不如一次性抽一大批样本(N n)然后在里边找重复。
具体操作如下:假定 n=10(即 T=0.1),一次抽 N=200 个样本计算每个块呈现的次数,呈现次数≥10的块就成为整数部分阶段的合格候选
当 N=10、n=2 时,合格候选便是那些在10个样本里呈现至少2次的块,这可比等接连相相同本高效多了。
这种做法用一次可并行的批量抽样代替了重复重启,低温状况下的样本利用率大幅提高。
结合组合数学,低温文小数重量的问题都有了稳健解法。温度被正确迁移到隐式散布上,创造性和精确性之间的调理照样能做,并且底子不有必要了解到实在散布长什么样。
这套采样结构补齐了CALM东西链,剩余的应战主要是工程层面的:让低温解码在实践推理中跑得够快。批量近似供给了思路——不必重复重启等磕碰,抽一个大批次然后在里边找,了解的创造性↔精确性旋钮就保住了。
这个思路的合适运用的规模远不止CALM。任何能采样但无法给概率打分(或做归一化)的隐式生成模型都能复用相同的原理。
别的值得一提的是CALM把自回归步数降到了本来的 1/K(比方K=4 时便是4倍紧缩),而上面这套采样结构保住了细粒度的解码操控,而实用性没打扣头。
中心立异点在于:不需求概率值也能做温度操控。办法是把概率重加权P(x)ⁿ转化成一个采样事情——只在n个独立抽样磕碰到同一成果时承受。
数学上的要害技巧是把 1/T写成n+α的方式。整数指数靠磕碰处理,小数指数靠伯努利工厂搞定pᵅ。
工程上的打破是批量近似:一次并行批量加组合分组,替代了低效的重复重启,低温解码总算变得可行。
更广泛地看,这套办法适用于一切能采样但无法评分归一化概率的隐式模型——分散模型、流匹配等新范式都能用。
