TA的每日心情 | 开心 2020-4-8 10:45 |
|---|
签到天数: 227 天 [LV.7]分神
|
第一篇:参数的标王:当模型分数变成新时代的央视广告
5 }( p, M) Q0 b3 k* b5 y- s2023年2月8日,Google在Twitter上发布了一个Bard演示视频。视频很简短——一段GIF动画,展示Bard回答一个问题:"詹姆斯·韦伯太空望远镜有哪些新发现可以告诉我的9岁孩子?"/ A* O$ d4 d; K& c( a# {5 H7 l
* Y- v8 k. G7 M3 F Z2 wBard给出了几条回答。其中一条是:"韦伯望远镜拍摄了太阳系外行星的第一张照片。"
5 d- F5 ?. {5 [$ B7 T4 D
4 ?7 P# ^* I9 _$ H2 I5 t这句话是错的。世界上第一张系外行星的直接图像,是2004年由欧洲南方天文台的甚大望远镜拍摄的,比韦伯发射早了近二十年。Bard把"韦伯的第一张"误解成了"人类的第一张"。一个读过高一物理的人都能在30秒内纠正它。
6 `" I$ H. Y, v2 Y! u) n2 y
I) l4 k& Y! N1 c5 Y( NReuters的记者在演示发布几小时内发现了这个错误。Alphabet的股价在当天暴跌了7.7%——市值蒸发约1000亿美元。
6 T; C. q( @, G! ^; a: O, D; H+ e: @, t$ a0 B. ~" v7 D
一个事实错误。一条推文。1000亿美元。
1 K# D- z9 ^3 ~. l# ]! ^, N5 i9 b3 s0 J+ {( Q, I7 F5 \6 J
这不是一个"AI翻车"的趣闻。它裸露了大模型时代最根本的一种幻觉——指标幻觉。不是"模型没有能力",而是"能力展示被当成了能力本身"。发布会Demo、排行榜得分、参数规模、媒体通稿中的"人类水平""超越GPT-4""最强推理能力"——所有这些本质上都是在重复同一个动作:把一种复杂的技术实体压缩成一个简单的、可传播的、可比较的信号,然后让全世界围绕这个信号做决策。
4 d/ C, ]4 U6 j$ u2 q
?" B' z5 g5 S8 s) ~% r9 o5 EGoogle的工程师当然知道Bard可能出错。Alphabet的投资者当然知道大模型不是完美的。但在一场以"谁先发布"为赌注的注意力战争里,所有这些"当然知道"都被压平成了同一种动作:抢在对手前面把Demo推出去,让市场为"我们在牌桌上"这个信号买单。
( X5 \) b- x/ k" X8 {4 }
C( u0 v0 s6 k# I: _: O% l而市场确实买了——在错误被发现之前。在错误被发现之后,它用1000亿美元给同一个信号反向定了价。
* j, j2 t: M6 V3 D2 p8 P# ?# {8 I: U' }
这是二十多年前中国商业史上反复上演过的一幕。1995年11月,山东秦池酒厂在梅地亚中心以3.2亿元拍下央视标王——相当于当时整个临朐县财政收入的三分之二。姬长孔的逻辑简单到只有一句话:这个国家有12亿人,每天晚上7点半同时打开电视机,只要在那个时段出现15秒,就等于站在12亿人面前。广告即品牌,品牌即市场,市场即一切。这个逻辑在1996年被验证了——秦池的销售额从1.8亿飙升至9.5亿。然后1997年1月,《经济参考报》披露秦池的原酒大部分是从四川邛崃收购来的,它自己的产能只有销量的五分之一。"标王=市场"的等式在一夜之间崩塌——到年底,这家年销售额近10亿的企业陷入停产。
: u) E% ]% x5 S7 X
* N2 e- O9 z+ p4 T把Bard事件和秦池放在一起,不是因为它们"很像",而是因为它们暴露了同一种结构性缺陷:当一个时代的所有参与者——企业、投资人、媒体、客户、用户——都在围绕一个过于简化的信号做决策时,这个信号承载的期望远远超过了它背后实体能承受的重量。当信号崩塌,被压碎的不是信号本身,而是那些踩着信号做的所有决策。/ A) t& z1 T7 m2 a# s$ m
' h2 V% ?" m6 Q+ O排行榜如何变成了新的标王/ e8 G8 @6 s7 X! T9 R
) l8 [: ~' L& t3 P% ?# G) y大模型领域的"标王拍卖"不是在一间拍卖厅里完成的。它分散在全球各地的评测排行榜、发布会舞台、科技媒体头条和投资人的Excel表格中。但运作机制是一模一样的:把复杂能力压缩成简单数字,让所有人相信数字等于一切。9 Y) ?, m* ^0 g
0 W/ Z$ _. A8 [9 ~" V# L6 R9 J而大模型天然的"可压缩性"让这套机制运转得比白酒行业更顺畅。一瓶酒好不好喝,至少需要打开瓶盖倒进嘴里。一个模型好不好用——你只需要看它的MMLU分数。分数比口感容易传播一万倍。
* j; K3 A' I) W. G
7 i/ U i- Y0 e: Z7 e4 T从2023年初到2025年中,全球大模型产业围绕几组核心数字展开了持续的"标王竞赛":参数规模(从数百亿到数千亿再到万亿传闻)、上下文长度(从4000 token到百万token的跳跃)、以及永无止境的评测排行榜。每一次刷新都被媒体处理为"战场报告"——OpenAI占领文本生成高地、Google在推理能力发起反攻、Anthropic凭安全性包抄侧翼、Meta用开源策略开辟第二战场。这种战争叙事让每一份排行榜更新都变成了"谁领先了"的探照灯,而探照灯照不到的东西——模型在真实用户手中是否真的更好用、在特定企业场景中是否真的更可靠——在叙事中完全不可见。
`! k9 P. B+ m7 { J. u4 S6 C# |& m+ h# A" n
创业者是最先被这套逻辑捕获的。如果一个模型没有在MMLU、GSM8K、HumanEval上拿下高分,投资人的第一反应不是"这个模型可能在其他方面很强",而是"为什么不score高?"排行榜决定了一个创业公司能不能融到下一轮——不是因为它真的测量了商业价值,而是因为它是唯一所有人都能看到的东西。投资人需要一个快速筛选标的的指标,排行榜恰好提供了这个指标。至于排行榜分数与付费意愿之间有没有因果关系——这个问题在投资决策的Excel里没有列。
, ?# g& D L9 o0 _1 q$ j$ {3 N$ Q _" g8 T
媒体进一步放大了这套逻辑。2023年到2025年间,科技媒体的AI报道形成了一种高度统一的话语模式:新模型发布→与竞品对比分数→"逼近人类水平"/"在某些维度上已超越人类"→附带一句"但仍存在幻觉和可靠性问题"作为免责。这种模板的后果是:每一次报道都在强化"分数=能力"的公众认知,而每一次附带的那句"但仍存在问题"都在被前文的"超越人类"淹没。6 H$ ^/ d! d7 { e r- U7 K* t
( q# h5 V' l/ ?5 M
企业客户的采购决策是整个链条中最后一块也是最大的一块多米诺骨牌。当一家大企业的CIO要向CEO推荐"我们该用哪个AI平台"时,他面对的不是一个可以慢慢测试、深度评估的场景——他面对的是一个需要在两周内给出答案的压力。他的做法是:打开最新的模型排行榜,选择分数最高的那个,写进采购建议。至于那个模型在他们公司特定的数据环境、权限结构、业务流程中的真实表现——这个问题的答案要等合同签完、系统部署好、员工开始用之后才知道。而到那个时候,下一个排行榜已经更新了。- Q9 \ ?0 G2 ^8 u; I
1 l$ C5 Q' j+ U1 S* }) _& {) F普通用户是这一整条传导链的末端。他们看到的是媒体上的"超越人类"、产品页上的"最新最强模型"、和大V评测中的惊艳Demo。当他们真的开始使用这些工具并发现"它又没有理解我的意思"时,个体的失望感被分散到社交媒体上的数千万条吐槽中,没有汇聚成对"排行榜信号质量"的系统性质疑。因为质疑需要替代方案——而替代的评估方式,目前不存在。
4 m/ @" `6 l q4 K% k0 w+ a# h$ b/ Y9 \( S0 L' r8 a. b# v
四道裂缝:从"能展示"到"能负责"& t1 p5 }8 n6 V6 l3 |; Z& ?; |7 j
排行榜和Demo本身不是错。中央电视台的广告时段也不是错——它确实是当时最有效的传播渠道。错的是把传播信号当成了对实体能力的完整测量。在大模型领域,"信号"和"实体"之间的不对应至少有四个层次。
; t+ b5 ?/ ?4 L; Y& W! X+ R0 p- G- u( ]) T7 j& n) d+ r
第一,可展示不等于可稳定。大模型在评测集上的表现本质上是"考试能力"——在已知题型和有限范围内给出正确答案。但真实世界没有固定题型。一个用户今天问你"帮我写一封辞职信",明天问你"分析这份合同第7.3条的潜在风险",后天问你"我妈头疼三个月了看了三个医生都没用你帮我看看可能是什么原因"。三个问题需要三种完全不同的能力,但模型对它们会以同样的自信回答——无论它是否真的具备回答这些问题的知识。更致命的是,同一个问题换一个措辞可能得到完全不同的答案。你问"这个药有什么副作用"它列出七条,你问"吃这个药安不安全"它说"一般来说是安全的"——两条回复可能分别漏掉了最重要的那条副作用和那条风险提示。
& @- i1 y6 f) E: F. \4 c% e7 Y* w
2 C9 C1 D3 r: i/ y9 b R ~5 Z, W第二,可稳定不等于可产品化。即便模型在某种任务上表现稳定——比如90%的常见法律问题能正确回答——这距离一个可以被律师事务所使用的产品之间,还隔着交互设计、错误处理、流程嵌入、成本核算和责任边界。这些问题没有一个能在MMLU排行榜上找到答案。但它们在真实世界中的每一个都比排行榜排名重要。/ u# Q3 P+ _# @. D
4 o: B( c6 O! ~$ N- f' p
第三,可产品化不等于可规模化。同样一个产品,在一家保险公司和一家电商公司的客服场景中表现可能天差地别。大模型要规模化落地,不是在100个客户那里重复卖同一个模型——而是要在100种不同的数据环境、权限结构、流程逻辑、责任分配中反复实施工程化改造。而企业AI落地真正的成本大头不是API调用费——是组织适配。
% L' W" ^- P9 e0 p0 h, A* B! _
+ o! Y4 ?1 `) e. f3 q5 }+ I" `; J第四,也是最深的一道裂缝——可规模化不等于可负责。一个模型能被100万用户使用,不等于它能承担100万次交互中任何一次出错的后果。当一个模型给用户提供了错误的医疗建议、给企业客户提供了错误的合同条款、给金融机构漏掉了一个合规风险信号——责任在谁?模型提供商说"我们是技术工具",企业说"我们用的是第三方服务",用户说"我就是相信了你们官网上推荐的AI"。这三方推诿暴露了大模型产业最根本的制度空白:一个能流畅说话的机器,在法律上仍然只是机器,但在用户心智中已经变成了一个对话者。
0 U7 C/ @& w5 x: b4 g" t
* B- R, b: N# V% x$ h9 V4 W评测污染:裂缝的加速器. k' h! i: g6 \7 f! N, D
四道裂缝已经够宽了。但还有一层更隐蔽的问题在持续加宽它们——而且这层问题出在评测本身。! t/ L' Q2 c1 l6 {: X# _
2 s- I2 F% J- ^* \当全世界的研究团队都在同一组评测集上反复优化时,评测集本身会"泄漏"进训练数据。MMLU包含57个学科的约1.4万个选择题,OpenAI用它评测GPT-4,Google用它评测Gemini,Anthropic用它评测Claude。每个团队的工程师都研究过MMLU的题目格式和知识范围。互联网上散布着大量包含MMLU题目的网页——有人把题目贴到论坛讨论,有人用MMLU题目写博客。当大模型从互联网爬取数据时,这些"污染网页"混入训练语料。模型在MMLU上考出高分,可能是因为它的推理能力真的更强——也可能只是因为它在训练时已经见过这些题。3 G9 A1 Z {/ ?0 y' W) Y
4 w1 Y2 J" b2 Z- a% l: n斯坦福HELM项目在2023年的一篇论文中估计,在某些评测上数据污染可能使分数虚高5到15个百分点。这5到15个百分点恰好是很多模型在排行榜上"超越上一代"所依赖的差距。/ O J* v: U5 f/ v6 c0 l- @
9 G- {' Q; W, H Q. y比无意污染更棘手的是有意识的"排行榜游戏"——在训练后期加入与评测集格式高度相似的样本,对评测集覆盖的知识领域进行过采样,在模型输出格式上做针对性调整。这些操作单独看都不构成作弊——没有直接使用原题,没有违反明文规定。但它们的叠加效果是:模型在排行榜上的数字与它在真实用户面前的真实表现之间,被系统性撑开了一道从表面上看不见的缝隙。
' l) o i* M* H# n0 k# G( x: z' v
' g9 l2 y9 Z* V# O% [: w更麻烦的是这道裂缝的囚徒困境属性。几乎每一位大模型研究者都知道评测污染的存在,但没有人愿意第一个公开承认自己的分数含有水分——如果别人不说而只有你说,你的模型在排行榜上就凭空落后5到15个百分点。所有人都在沉默中维持着虚高的分数。这让人想起2010年代机器学习领域ImageNet的"过拟合"危机——各家团队针对ImageNet训练集进行极度精细的调参,导致模型在榜单上越来越强,在真实世界的不同光照、角度和背景下表现远不如榜单。但大语言模型评测的复杂度远超图像识别——语言任务的多样性高了几个数量级,重建一套MMLU级别评测集需要几十位研究者耗时数月。! H( o) d7 J( g$ Y3 |
8 ^& m8 F' |* j7 E大模型评测领域最深层的困境因此不是"评测分数不完美",而是它用来测量裂缝的那把尺子本身,正在被所有人合力弄弯——而修正这把尺子的正确激励,对研究团队、投资人、媒体和企业采购部门来说,目前不存在。% l' S, B$ b V3 R
" D' ` c$ F. r+ A- g; H
从分数膨胀到信任折价
& l, }% y; P& g6 t Y5 x) b评测分数与真实能力之间的裂缝不会自己愈合。它只会沿着一条逐渐加速的滑坡扩大。
3 ^4 k5 g& [7 z$ l I0 }4 p
: c: A& h, G& X9 a第一阶段:分数膨胀。研究团队不是故意作弊——但评测集被研究、被讨论、被当作训练参考太多次了,它的"干净度"是可疑的。当分数从70%膨胀到80%再到90%,"接近人类水平"的标题就不可避免地出现。而这些标题又反过来加速了外界的期待滚雪球。
g! b3 X* ?( I8 t. V5 r% {
% C/ H: g+ Z. q, ]2 R- C) `第二阶段:Demo高光化。发布会演示从"实时展示"变成"精选集锦"。Google Gemini的演示视频被曝经过了后期编辑和加速——团队从录制素材中挑选最好片段,剪辑在一起,加速了模型响应时间,让观众产生"实时交互"的错觉。Google后来承认了这些处理,同时说它们在行业中是"常见的"。这句话本身就是一个信号:当一个行业把表演当作"常见的"展示方式,演示就不再是演示——它是广告。而广告不等于产品。
a# R4 }/ x" N. X/ G+ C* y% J4 Z7 I! P, F% n6 U) M
第三阶段:信任折价。当用户和企业逐渐发现Bard演示有事实错误、Gemini视频不是实时的、排行榜排名和实际体验差距很大时,信任不会直接归零,而是以折价的方式下降。用户会在心里给每一个AI产品打折扣,企业会在每一次采购时多打一个折扣系数。这种"信任折价"不像股价暴跌那么戏剧化,但它对产业长期影响比暴跌更深远——信任一旦被折价,要重新涨价极其困难。- z+ j E+ X' H' O4 A" n x! G8 f
! |* t0 w: v! e6 W1 K
第四阶段:责任真空。当模型被部署到高风险场景而"这是一台机器""请自行核实信息"的免责声明被不断张贴时,用户发现自己是整个链条中最脆弱的一环:平台说这是AI生成的,企业说这是第三方服务,模型厂商说这是训练数据的统计属性。没有人在说谎,但也没有人负责。- k" y7 {' P% L9 e
/ F; S3 R7 a7 C" D; n) g
这四个阶段的叠加结果是:大模型产业制造了一种"技术已经ready"的集体假象,然后所有参与者——创业者、投资人、企业客户、媒体、用户——在假象的基础上做了各自的决策。当假象开始剥落,每一个踩着假象做的决策都变成沉没成本。6 W$ @( A2 d' s1 q4 K
0 n5 R+ z% B1 E4 X该留下的不是"不要评测",而是"要评测什么"
5 _; D1 J0 @8 Z! a8 b4 x1 e9 T% O J! x
参数排行榜和发布会Demo没有错。中央电视台的广告时段也没有错——它确实是那个时代最有效的传播渠道。错的是把广告当产品,把分数当能力。3 g, e2 Q, P' N6 V' |, J& N m" {
: Y2 O5 e) ^' i0 c7 H$ o
大模型产业真正需要的不是抛弃评测,而是建立一套远比"哪个分数更高"更精细的评估框架。它至少需要区分五个层次。
/ \: L9 F, i* X2 z4 \* r" P/ ~" w( @& b, V0 G. u& W! K
第一层:可展示的能力——在一个干净测试集上的表现。这是"我们的模型在MMLU上拿了90分"。第二层:可稳定的能力——在不同条件、对抗性输入和分布偏移下的一致性。这是"在不同的提问方式、不同语言、不同领域分布下,分数不会从90掉到70"。第三层:可产品化的能力——在真实用户工作流中被嵌入后的端到端任务完成率。这是"用户不只是让它答一道题,而是让它完成一个包含多轮交互、工具调用和错误修正的完整任务——成功率是多少?"第四层:可规模化的能力——在不同行业、不同数据环境、不同组织条件下的可复制性。这是"在保险公司跑通的场景,到银行还能不能用?到政府还能不能用?到一家从来没做过数据治理的中小企业还能不能用?"第五层:可负责的能力——在错误可追溯、后果可归因、受害者可救济的制度框架下运行。这是"当AI的输出导致了真实世界的损失——医疗误诊、金融错判、法律误导——谁在哪个环节承担什么责任?" {$ i! S1 s2 D+ z) m! c
; O. g% i- L5 q- z这五个层次不是阶梯——走完第一级不会自动走到第二级。每往上一层,需要的不是更好的模型参数,而是完全不同的能力种类:工程化能力、产品化能力、治理能力、制度能力。而这些能力,大多不在大模型公司天然的组织基因里。一个擅长训练SOTA模型的研究团队不一定擅长设计用户工作流。一个擅长设计用户工作流的团队不一定擅长构建跨行业的规模化部署方案。一个擅长规模化部署的公司不一定擅长在法律和监管真空中建立责任闭环。
" q; E9 Y8 P5 D; U
+ Y v! q- y& N5 A8 p这才是"标王逻辑"最深的讽刺。秦池以为买下广告时段就等于买下品牌——但实际上,广告时段能带来的只是注意力,而品牌需要在消费者每一次打开瓶盖的体验中被持续验证。几千万广告费买来的注意力是真实但短暂的。几十亿次开瓶体验累积的品牌才是持久的。前者可以靠举牌拿下。后者只能靠时间、系统和组织能力来缓慢构建。
) I- S6 t% b: P9 g* I: B6 F( c, s1 R4 l4 f
同样地,大模型公司以为占领排行榜就等于占领市场。排行榜能带来的只是关注度——真实的、可转化为融资和媒体报道的关注度。但市场需要在每一个真实场景、每一次用户交互、每一次错误被追溯修正、每一次用户在"AI又出错了但我已经习惯了"和"这个AI真的帮到我了"之间的反复摇摆中被缓慢构建。排行榜解决的是"让世界知道你存在"的问题。它解决不了"让你的产品在真实世界中可靠到值得被反复使用"的问题。后者不是一个评测问题。是一个制度问题。
/ }! ]# J% n0 b0 u3 {3 ^ Y% J
) ~/ b$ B- }6 O) b+ t二十多年前,秦池在梅地亚中心举起的牌子上写的是3.2亿元。今天在大模型评测榜上举起的牌子上写的是"人类水平""超越GPT-4""最强推理能力"。字不一样,但举牌子的那只手——那种把一个复杂实体压缩成一个简单信号、然后围绕那个信号押注所有筹码的本能——并没有变。$ j" C4 P1 G1 O4 K; i5 t
& B/ j2 X7 S% ^' D8 @. o
参数标王的败局可以压缩为一个简洁的逻辑链:可展示的Benchmark分数被媒体和资本共同放大为一个过于简化的信号,所有人都围绕这个信号做决策,而信号背后——真实业务闭环——从未被建成。 当信号崩塌时,被压碎的不是信号本身,而是所有踩着信号做出的创业、投资、采购和叙事决策。3 j. `. t' N# I0 |) X
3 x+ n3 j! G2 t% a8 ^本系列后续各篇中将反复出现的一个主题,在这里已经提前暴露了它的全部结构。大模型产业的每一个败局现场——AI硬件、陪伴机器人、对齐系统、AI客服、Agent创业、开源商业化、包装术、企业Copilot、金融越界——本质上都是同一个故事在不同场景中的重演:一个真实但被过度神话的技术能力,在缺乏制度约束的条件下被推入真实世界,然后被真实世界的复杂度还击。参数标王只是这个故事的第一章——而且是最干净的一章。因为在这里,崩塌只涉及金钱。在后面的章节中,崩塌将涉及生命。
( R* F1 G7 ?* g" F7 e1 d
- {9 U' B' {! }6 x广告能买来注意力,却买不来经营能力。榜单能证明高光时刻,却证明不了组织可以长期承受它。
8 O+ W- a- m; G2 x& o$ D |
评分
-
查看全部评分
|