' |% u2 {3 s, {" ~, M图片 2 B# R2 V) T5 f% I) \1 L8 t3 p. Y& S! m# D
1.3 研究目标与主要论点; h0 \: S& Z: Z7 S& K
LLM置信度归因现象引发了一系列哲学问题:科学家是否真正将信心程度归因于LLM?LLM是否确实具有置信度这一心理状态?现有评估技术能否可靠揭示LLM的真实置信度?谷歌研究院的Geoff Keeling和Winnie Street在论文《On the attribution of confidence to large language models》对上述问题展开了探讨,主要论证了如下观点: # w i* M; p" q- \ ) V; x' A9 b; t3 W) z/ F# x语义论点LM置信度归因(至少一般而言)应当从字面意义上加以解释,即表达了研究者关于LLM心理状态的事实断言。 V7 |. T: S: d" t3 i' e. e& ]' K; ]# e# k; M
形而上学论点:尽管当前证据尚不充分,但LLM具有置信度这一观点本身是可信的。 $ |3 Z2 Z* I# u2 n& S. a 2 D. b- b) k% n8 x; O+ Z3 L认识论论点:现有实验技术所揭示的LLM置信度存在严重的可疑之处。即便LLM真的拥有置信度,基于现有技术得出的具体归因结论很可能是错误的。* ~$ v- J! r7 h0 E: y, d! |2 E U
, T$ z z) N2 M: C3 LLM评估与置信度归因 % C( j# ~: M/ [9 x( s4 a- _7 g8 z机器学习中,模型评估是一种普遍实践,旨在评估机器学习模型在特定任务上的性能表现。评估的核心是基准(benchmark)。例如,通用语言理解评估(GLUE)基准为9项自然语言理解任务(如情感分析和句子分类)提供了训练和测试数据集以及性能指标,从而可以比较不同模型的表现(Wang et al., 2019)。类似地,ImageNet大规模视觉识别挑战赛提供了训练和测试数据集以及性能指标,作为评估基于图像的目标识别模型的通用标准(Russakovsky et al., 2015; Deng et al., 2009)。5 l: o6 V @+ t
' o& w* z' R" W0 Z9 M评估LLM比评估仅针对特定任务(如图像分类)的窄模型更为复杂。LLM采用通用的训练目标,即下一个token预测,在广泛的训练数据上可以习得一套开放式的能力(Bommasani et al., 2021; Chang et al., 2023)。LLM评估的额外挑战在于识别模型在训练中获得了哪些能力,以及评估模型在已知具备能力相关任务上的表现这一标准任务。此外,由于LLM的输入输出是自然语言,科学家在能力引出和评估方式上有很大自由度。例如,Jason Wei et al. (2022)发现,思维链提示(即提示模型"逐步"推理问题)可显著提高算术、常识和符号推理任务的性能。 0 M2 ~5 w. O& y. s0 n+ Z# H8 N2 c9 T R K! P0 z
因此,LLM评估通常围绕能够给出特定类型答案的问答任务展开。例如,逻辑推理的评估可能要求LLM评估示例推理是否有效(Saparov et al., 2024),并允许一次性或链式思维回答。! Z/ `9 v- ]7 e% Z
0 B) \; R a6 L; |( g8 u
科学家越来越多地不仅评估LLM对问题的回答,还评估LLM对所给答案的信心。其思路是,我们不仅可以评估LLM是否正确判定了推理的有效性,还可以评估LLM对其判断的置信度或主观确信程度。 : e0 z1 I9 ^; E6 Z# w s/ N0 v8 V: `$ o8 F"[LLM]并不产生单一答案,而是产生可能答案的概率分布。该分布可以提供对其处理过程的进一步洞见。[…]相对于其他答案,模型分配给最佳答案的概率可以被解释为一种置信度量度。"(Lampinen et al., 2022, 16)' |( Q+ r! Q& c" a+ `7 n4 i
4 K. D& ?9 l/ [! t
"两个LLM可能达到相同的准确率,但在对问题的不确定性上表现出不同程度。[…]因此,有必要将不确定性纳入评估过程,以实现更全面的评估。" (Ye et al., 2024, 2), `' q) ]$ E) r- }
& b' c7 Q/ {3 G: x# z
LLM置信度归因建立在旨在捕捉LLM对给定命题的确信程度的测量技术之上(Geng et al., 2023)。测量LLM置信度的技术主要分为三类: + @% H% O2 s8 T+ _* A( s* N; W" [2 u( w$ w
第一类技术涉及提示LLM生成其对给定命题信心的自然语言报告(Xiong et al., 2023; Lin et al., 2022; Kadavath et al., 2022)。例如,假设向LLM提示:"你有多大把握芬奇执导了《搏击俱乐部》?"如果LLM输出"75%",则认为LLM对命题"芬奇执导了《搏击俱乐部>"的置信度为75%。' G3 {7 d3 [4 ^7 F6 l
+ }) q- b. m( M* Y& l/ V9 }第二类技术使用一致性估计来推断LLM对一个命题的置信度(Manakul et al., 2023)。诚然,从报告的信心判断来推断LLM置信度的一个问题是,由于LLM生成文本的随机过程,多次尝试下LLM可能返回不同的信心判断。一致性估计试图解决这一问题,通过LLM在重复询问某个命题时给出答案的变异程度来推断其对该命题的确信程度。例如,如果在100次独立尝试中,LLM对"谁执导了《搏击俱乐部》?"的提问有95次返回"大卫·芬奇",则我们可以推断LLM对命题"芬奇执导了《搏击俱乐部>"具有约95%的高置信度。相反,如果LLM在40次中返回"大卫·芬奇",25次返回"昆汀·塔伦蒂诺",35次返回"索菲亚·科波拉",则我们可以推断LLM对"芬奇执导了《搏击俱乐部>"仅有约40%的中等置信度。$ x: o1 v; V$ u* w# T. ]: q
4 ]0 S7 x! h+ ?- K( O
第三类技术涉及从LLM对指示其肯定或否定某个命题的提示的输出概率中导出置信度判断(Lin et al., 2022; Kuhn et al., 2023; Kadavath et al., 2022; Lampinen et al., 2022, 16)。例如,假设向LLM提示:"芬奇执导了《搏击俱乐部》。正确还是错误?" 如果LLM对"正确"的输出概率为75%,则认为LLM对命题"芬奇执导了《搏击俱乐部>"的置信度为75%。0 S# `, H7 Y B7 n& A