TA的每日心情 | 开心 2020-4-8 10:45 |
---|
签到天数: 227 天 [LV.7]分神
|
本帖最后由 xiejin77 于 2025-8-12 10:21 编辑 ! k& w4 J. {2 t
' P: M: l4 \# [- ~* S6 ~
4 `; B0 M! w) }1 F# O* A
我的看法是,要深入理解生成式AI的工作原理,核心问题在于调和其开放式的输出行为与回归式的底层设计之间的关系。在经典自动控制理论中,系统的首要目标是稳定与收敛。其工作模式是通过闭环负反馈,使系统的状态不断“回归”到一个固定、全局的设定点,任何导致轨迹发散的开放式行为都意味着失控,是必须被抑制的。但是,大语言模型(LLM)虽然在宏观上表现出这种开放性,其微观的运作机制却恰恰是回归式的。在生成文本的每一步,模型都会执行一次“自回归”计算,即根据已经存在的文本序列,通过回归分析来预测出概率上最合理的下一个词元。 J' |4 y a5 z. G. P
1 q5 j5 W9 m6 R5 x
这一看似矛盾的现象,其关键在于“回归”所指向的目标截然不同。控制系统的回归目标是静态且唯一的,它像一个强大的引力中心,将所有系统状态都拉向它。相比之下,大语言模型的回归目标则是动态且局部的。当模型生成一个新词后,这个词立刻成为新的上下文的一部分,从而彻底改变了下一次回归计算的起点和目标。模型并非要回到某个初始状态,而是在不断变化的语境中,持续地向下一个最符合逻辑和概率的“瞬时目标”前进。
: E& d: P3 _* l" c/ P2 c$ R' J+ \* w7 P1 Z$ H3 _2 m
这好比两种不同的旅程:自动控制系统是一次目标明确的返航,其所有航线都为了最终停泊在唯一的母港;而大语言模型则是一场永不回头的探索式航行,在每一个航点,它都会根据当前的水文气象(上下文)计算出最佳的下一段航线,从而驶向一个全新的、未知的海域。因此,大模型开放式的生成能力与其回归式的底层设计并非矛盾,而是因果相成的统一体。正是通过在微观层面每一次严谨的、以动态目标为导向的局部回归,才最终在宏观层面涌现出了那种强大的、能够探索无限语言空间的开放式创造力。
+ a+ W. @: L8 I8 X& X9 E8 n
+ C! }% j( _- ~( B5 U, }1 p赫然老师的这个问题其实是一个非常好也非常容易混淆的点,我尝试解释一下,爱坛的专家很多,我的不确之处还请大家海涵,欢迎纠正指出。 |
评分
-
查看全部评分
|