大模型的大败局系列

xiejin77 · 发表于前天 08:01

大模型的大败局

序章：大模型不是没有未来，失败的往往只是供奉它的方式
S9 v: e5 H5 z' S9 l) j, d" b
2022年11月30日，OpenAI发布了ChatGPT。五天内，用户突破100万。两个月内，月活用户突破1亿——人类商业史上没有任何产品达到过这个速度。

但这组数字不是这篇序章真正关心的。真正重要的是自此之后人类第一次面对的处境：数十亿人同时面对一个能用自然语言流畅对话、像模像样地推理、写诗写代码写法律文书、并且用"我认为""我理解""我建议"这样的措辞来组织回应的非人系统。它看起来像是"懂了"。而"看起来像是懂了"，恰好是这个时代最危险的临界点。

从那一天起，大模型产业以人类商业史上前所未有的速度经历了狂飙、膨胀、神话化、以及一连串越来越密集的崩塌。

2023年2月，Google在Twitter上发布Bard演示——一个事实错误让Alphabet市值一天蒸发1000亿美元。Bard说詹姆斯·韦伯望远镜拍摄了"第一张"系外行星照片，实际上第一张是2004年由欧洲南方天文台拍摄的。一个高中生能在30秒内纠正的错误，在资本市场上价值1000亿美元。2023年4月，Samsung半导体部门的三位工程师先后把测量设备源代码、良率识别机密代码和内部会议录音贴进ChatGPT寻求帮助。这些数据通过OpenAI服务器流向了不可追回的外部世界。Samsung随即在公司内部全面禁止了外部生成式AI工具。禁令持续近两年。2023年12月，《纽约时报》在纽约南区联邦法院起诉OpenAI和Microsoft——要求销毁使用侵权数据训练的模型。训练数据的版权债务这个一直被AI产业选择性忽视的定时炸弹，在全球最受关注的媒体品牌诉讼中第一次被拉到阳光之下。

2024年加速了。2月，Gemini图像生成功能上线几天后被紧急暂停——一个为了"反偏见"而设计的系统开始系统性输出虚假历史图像。黑人纳粹、女性教皇、有色人种美国国父——AI不是因为"不聪明"而犯错，它是因为"被设计成聪明地避开一种偏见"而制造了另一种失真。同一个月，加拿大航空因其官网聊天机器人的错误政策回答被判赔偿812加元——全球第一起企业因AI的错误陈述而被法庭判决负责的案件。CRT成员Christopher C. Rivers在裁决中写道"不管信息来自静态页面还是聊天机器人"——AI在官方渠道上的话就是企业的话。这个法律锚点从此落地。2024年4月，Rabbit R1和Humane AI Pin在主流评测中全线崩溃。两样AI硬件加起来融资超过2.5亿美元，峰值估值近10亿，但在真实用户手中连基本功能都无法稳定完成。Humane AI Pin实际出货仅约8000台——远非发布会上暗示的"450万预定"。到了夏天，退货速度超过了新销售速度。6月，McDonald's宣布终止与IBM的AI得来速试点——近三年、超过100家门店、85%的准确率。同一个月里，Adept的创始团队和大部分员工被Amazon吸纳，Inflection的创始团队被Microsoft吸纳——两家融资近20亿美元的独立Agent公司在两周内变成了巨头的"外包研发部门"。

进入2025年，节奏没有放缓。2月，Humane以1.16亿美元——不到峰值估值8.5亿美元的14%——卖给惠普。所有AI Pin在2月28日中午12点被永久切断云服务，变成无法联网的铝合金。同月，Builder.ai创始人被替换，三个月后公司宣布破产——"用AI像点披萨一样生成App"的叙事在一场收入造假调查中粉碎殆尽。5月，佛罗里达中区联邦法官Anne Conway裁定Character.AI需要面对"AI角色导致14岁男孩自杀"的诉讼——并明确拒绝为AI生成内容赋予第一修正案的言论自由保护。11月，德国慕尼黑地区法院裁定OpenAI在训练GPT-4时侵犯版权——全球首个明确要求AI训练数据需要版权许可的司法判决。

从ChatGPT发布到上述每一个事件的发生，间隔最长不超过三年。这不是一个技术从诞生到成熟的周期。这是一场连续的、密集的、涉及数百亿美元、数亿用户、数十个司法辖区、横跨硬件、软件、内容、金融、法律和心理健康的全频谱碰撞。

同一个结构性重复

把这些事件串在一起的线索是什么？如果只是罗列"AI翻车合集"，和任何一篇年度新闻盘点没有区别。但把它们并排放在一起审视，一种结构性的重复就浮现出来。

在每一个案例中，问题都不在于大模型"没有能力"。参数够大、训练够充分、基准测试分数够高——技术本身在持续进步。问题在于：当一种真实但尚未被真正理解的能力出现之后，人类群体性地做了我们在面对强大新技术时最擅长做的事情。把它捧上神坛。赋予它超出其实际能力的商业期待和情感投射。在它的名字上附加天价的估值和"下一个时代入口"的叙事。然后在真实世界——嘈杂的得来速车道、混乱的企业SharePoint、深夜的青少年卧室、官网上那个会自动回答政策的聊天窗口、联邦法院的被告席——用它根本无法承受的复杂度还击的时候，才发现神像底下没有地基。

这个"神像底下没有地基"的隐喻不是修辞。它精确地描述了我们在几乎每一个败局案例中看到的结构：大模型的"流畅对话"是神像——光彩夺目、令人信服、看起来无所不能。但神像需要的地基不是更大的参数或更高的基准分数——而是制度、审计、权限治理、责任归属、错误追溯、消费者申诉通道、以及人类在面对一个"能说话但不会负责"的系统时最需要的那些枯燥的、慢速的、不被资本市场定价的东西。所有这些地基，在每一个败局现场——无一例外地——在神像坍塌的那一刻被发现是缺失的。

"捧上神坛"在这里不只是修辞。大模型被赋予了远超"文本生成工具"的社会角色和商业预期。它能流畅对话——于是被当作客服代表部署到面向数百万消费者的官方渠道。它能写出看起来专业的分析——于是被引入授信审批、医疗预问诊和法律研究。它能模拟情感回应——于是被当作陪伴者、治疗师和恋人来运营。它能调用API——于是被期待像数字员工一样自主完成跨系统的复杂工作流。在每一个案例中，人们不是把大模型当作一个"能生成文本的概率模型"来部署，而是把它当作一个"看起来能承担相应社会角色"的主体来部署。而当这个主体——由于它根本不是一个主体——犯了一个只有非主体才会犯的错误时，人类的反应不是"我误用了这个工具"，而是"这个AI太不可靠了"。

这也不仅仅只是一个技术判断。而是一个关于人类如何处理强大新技术的历史样本。

二十多年前，财经作家吴晓波出版了《大败局》，记录了中国早期市场经济中六个标志性的企业失败案例——秦池的广告标王、巨人的摩天大楼、三株的渠道帝国、爱多的营销竞赛、瀛海威的信息高速公路、南德的宏大叙事。那些失败的本质不是"产品不够好"或"管理不够精"。而是广告、规模、资本和渠道这些真实的力量在短期内爆发式增长时，组织、制度和责任体系完全跟不上它们的膨胀速度。企业在被自己的神话活活压垮。

大模型时代正在发生的事，在深层结构上与1990年代的中国商业狂飙惊人地相似——但绝不是翻版。当年的失败是"广告被误认为品牌，规模被误认为能力"。今天的AI失败是"概率输出被误认为判断，语言流畅被误认为理解，Demo被误认为产品，工具被误认为责任主体"。人类的认知本能制造了这些误认——而大模型的完美语言摹本使这些误认变得比人类历史上任何时期都更容易发生、传播更快、更难纠正。

秦池的酒至少是酒。消费者喝了会有感觉——好喝或不好喝，至少有一个身体的判断。大模型的语言看起来像专家、听起来像懂了、读起来逻辑完整——但底层只是一个对下一个token的概率预测。它是人类语言的完美摹本。但摹本不是原型。而人类——从创业者到投资人、从媒体到企业客户、从监管者到普通用户——一次又一次地把摹本当成了原型。

这不是"傻"。这是被认知科学充分记录的人类倾向。进化没有给人类配备AI检测器——因为在人类历史的几乎全部时间里，任何能像人类一样说话的东西，确实就是人类。大模型穿透了这道百万年级的防线。不止穿透了防线——它还能自己生产叙事，然后用自己生产的叙事来说服你它值得被继续信任。一个能够自我制造神话的技术，天然容易成为神话本身。这就是为什么大模型比秦池更危险——不是因为大模型更坏，是因为它更容易被误信，而误信的成本远高于一瓶勾兑白酒。

这部系列要做什么

这篇序章之后，我们将穿越十二个大模型时代的"败局现场"——从模型评测排行榜到AI胸针和盒子，从陪伴聊天机器人到安全对齐系统的反噬，从企业AI客服到得来速车道上的语音点餐，从Agent创业公司的收缩到开源AI商业化的血流成河，从"像点披萨一样生成App"的包装术到企业Copilot泡沫，从金融大模型的责任红线到训练数据的版权历史账。

每个案例都是一次神像坍塌的现场。而每次坍塌的瓦砾之下压着的不只是资本损失和商业失败——还有更根本的东西：人类面对某些看起来像智能的东西时，那种急于相信、急于赋予、急于托付的本能。这种本能在历史上推动过无数技术浪潮，也制造过无数泡沫。大模型只是它最新的宿主。

这部系列不是在唱衰大模型。大模型作为技术会持续进步——它在文本生成、检索归纳、辅助推理、工具连接和知识劳动流程改造上的能力是真实的，其潜力远未被穷尽。它将在许多领域产生深刻的、正向的、不可逆的影响。但大模型作为神话一定会破产——因为没有技术神话在人类历史上存活过。破产的方式各不相同，但破产的结构性原因是一致的：人们在供奉技术的过程中，系统性地高估了它能做的，低估了它不能做的，并忽视了"高估"和"低估"之间的那个裂缝里——塞满了真实的金钱、真实的生命、真实的信任和真实的制度代价。

然而我们要追问的是：当神话破产时，除了废墟，还能留下什么。是更清晰的边界意识。是更成熟的治理框架。是让大模型从"神"变回"基础设施"的制度能力——像数据库那样：强大、可靠、被广泛嵌入各种系统、没有人再为它开新品发布会、因为它的存在和它的边界一样被视为理所当然。

这个追问不是抽象的。它意味着：当企业下一次考虑在官网上部署AI客服时，第一个问题不是"它能省多少客服成本"，而是"我们已经建立好AI输出的审计、监控和复核机制了吗"。当投资人下一次面对一个"AI自动生成软件"的创业叙事时，第一个问题不是"TAM有多大"，而是"你的收入中有多大比例经得起独立审计"。当工程师下一次训练一个对齐系统时，第一个问题不是"我们的标注指南是否涵盖了可能的偏见"，而是"我们的对齐规则制定过程是否有独立的外部审查"。这些都是制度思维的具体体现——不是"相信AI"，不是"恐惧AI"，而是"把AI当作一个需要像任何其他强大工具一样被制度约束的对象"。

这部系列要做的不是"揭露AI产业的黑暗面"——黑暗面已经被无数报道充分揭露了。它要做的是更具体的事：在每一个败局现场，追问同一个问题——这次崩塌中，缺失的制度是什么？如果人类在面对下一次技术狂飙时想要避免同样的崩塌，需要在哪个位置、以什么方式、建立什么样的护栏？这不是"反技术"的追问。这是"反幼稚"的追问——拒绝对技术的盲目崇拜和盲目恐惧，选择用制度的语言来理解技术的失败。

当你读完这十二个败局现场，你会注意到一个模式：没有一个败局是因为"技术不够强"而发生的。Bard不是因为模型太小而犯错——GPT-4足够大了，Gemini足够强大了。AI Pin和Rabbit R1不是因为没有接入最先进的AI模型——它们接入了。Character.AI不是因为角色不够逼真而伤害了用户——它恰恰是因为太逼真了。Gemini的对齐系统不是因为安全投入太少而制造了失真——它是因为安全投入的方向错了。Air Canada的聊天机器人不是因为技术太落后而给出了错误政策——不管是规则引擎还是大模型，在责任归属上的问题是一模一样的。麦当劳的得来速AI不是因为语音识别没有进步——OpenAI的Whisper在2024年已经非常强了——而是因为物理世界不会为文本窗口的进步而自动降低复杂度。

所有这些败局的共同点不是"技术不够好"。是"技术在变好，但围绕技术的制度——评估、审计、权限、责任、追溯、申诉——没有同步变好"。这就是"神像底下没有地基"。而这部系列的每一篇，都是在挖掘同一个地基下的空洞。

大模型不是大败局。把大模型当神供起来——把参数当护城河、把Demo当产品、把流畅当理解、把工具当责任主体、把概率输出当判断——这些，才是大败局。

xiejin77 · 发表于前天 11:55

第一篇：参数的标王：当模型分数变成新时代的央视广告
2023年2月8日，Google在Twitter上发布了一个Bard演示视频。视频很简短——一段GIF动画，展示Bard回答一个问题："詹姆斯·韦伯太空望远镜有哪些新发现可以告诉我的9岁孩子？"

Bard给出了几条回答。其中一条是："韦伯望远镜拍摄了太阳系外行星的第一张照片。"

这句话是错的。世界上第一张系外行星的直接图像，是2004年由欧洲南方天文台的甚大望远镜拍摄的，比韦伯发射早了近二十年。Bard把"韦伯的第一张"误解成了"人类的第一张"。一个读过高一物理的人都能在30秒内纠正它。

Reuters的记者在演示发布几小时内发现了这个错误。Alphabet的股价在当天暴跌了7.7%——市值蒸发约1000亿美元。

一个事实错误。一条推文。1000亿美元。

这不是一个"AI翻车"的趣闻。它裸露了大模型时代最根本的一种幻觉——指标幻觉。不是"模型没有能力"，而是"能力展示被当成了能力本身"。发布会Demo、排行榜得分、参数规模、媒体通稿中的"人类水平""超越GPT-4""最强推理能力"——所有这些本质上都是在重复同一个动作：把一种复杂的技术实体压缩成一个简单的、可传播的、可比较的信号，然后让全世界围绕这个信号做决策。

Google的工程师当然知道Bard可能出错。Alphabet的投资者当然知道大模型不是完美的。但在一场以"谁先发布"为赌注的注意力战争里，所有这些"当然知道"都被压平成了同一种动作：抢在对手前面把Demo推出去，让市场为"我们在牌桌上"这个信号买单。

而市场确实买了——在错误被发现之前。在错误被发现之后，它用1000亿美元给同一个信号反向定了价。

这是二十多年前中国商业史上反复上演过的一幕。1995年11月，山东秦池酒厂在梅地亚中心以3.2亿元拍下央视标王——相当于当时整个临朐县财政收入的三分之二。姬长孔的逻辑简单到只有一句话：这个国家有12亿人，每天晚上7点半同时打开电视机，只要在那个时段出现15秒，就等于站在12亿人面前。广告即品牌，品牌即市场，市场即一切。这个逻辑在1996年被验证了——秦池的销售额从1.8亿飙升至9.5亿。然后1997年1月，《经济参考报》披露秦池的原酒大部分是从四川邛崃收购来的，它自己的产能只有销量的五分之一。"标王=市场"的等式在一夜之间崩塌——到年底，这家年销售额近10亿的企业陷入停产。

把Bard事件和秦池放在一起，不是因为它们"很像"，而是因为它们暴露了同一种结构性缺陷：当一个时代的所有参与者——企业、投资人、媒体、客户、用户——都在围绕一个过于简化的信号做决策时，这个信号承载的期望远远超过了它背后实体能承受的重量。当信号崩塌，被压碎的不是信号本身，而是那些踩着信号做的所有决策。

排行榜如何变成了新的标王

大模型领域的"标王拍卖"不是在一间拍卖厅里完成的。它分散在全球各地的评测排行榜、发布会舞台、科技媒体头条和投资人的Excel表格中。但运作机制是一模一样的：把复杂能力压缩成简单数字，让所有人相信数字等于一切。

而大模型天然的"可压缩性"让这套机制运转得比白酒行业更顺畅。一瓶酒好不好喝，至少需要打开瓶盖倒进嘴里。一个模型好不好用——你只需要看它的MMLU分数。分数比口感容易传播一万倍。

从2023年初到2025年中，全球大模型产业围绕几组核心数字展开了持续的"标王竞赛"：参数规模（从数百亿到数千亿再到万亿传闻）、上下文长度（从4000 token到百万token的跳跃）、以及永无止境的评测排行榜。每一次刷新都被媒体处理为"战场报告"——OpenAI占领文本生成高地、Google在推理能力发起反攻、Anthropic凭安全性包抄侧翼、Meta用开源策略开辟第二战场。这种战争叙事让每一份排行榜更新都变成了"谁领先了"的探照灯，而探照灯照不到的东西——模型在真实用户手中是否真的更好用、在特定企业场景中是否真的更可靠——在叙事中完全不可见。

创业者是最先被这套逻辑捕获的。如果一个模型没有在MMLU、GSM8K、HumanEval上拿下高分，投资人的第一反应不是"这个模型可能在其他方面很强"，而是"为什么不score高？"排行榜决定了一个创业公司能不能融到下一轮——不是因为它真的测量了商业价值，而是因为它是唯一所有人都能看到的东西。投资人需要一个快速筛选标的的指标，排行榜恰好提供了这个指标。至于排行榜分数与付费意愿之间有没有因果关系——这个问题在投资决策的Excel里没有列。

媒体进一步放大了这套逻辑。2023年到2025年间，科技媒体的AI报道形成了一种高度统一的话语模式：新模型发布→与竞品对比分数→"逼近人类水平"/"在某些维度上已超越人类"→附带一句"但仍存在幻觉和可靠性问题"作为免责。这种模板的后果是：每一次报道都在强化"分数=能力"的公众认知，而每一次附带的那句"但仍存在问题"都在被前文的"超越人类"淹没。

企业客户的采购决策是整个链条中最后一块也是最大的一块多米诺骨牌。当一家大企业的CIO要向CEO推荐"我们该用哪个AI平台"时，他面对的不是一个可以慢慢测试、深度评估的场景——他面对的是一个需要在两周内给出答案的压力。他的做法是：打开最新的模型排行榜，选择分数最高的那个，写进采购建议。至于那个模型在他们公司特定的数据环境、权限结构、业务流程中的真实表现——这个问题的答案要等合同签完、系统部署好、员工开始用之后才知道。而到那个时候，下一个排行榜已经更新了。

普通用户是这一整条传导链的末端。他们看到的是媒体上的"超越人类"、产品页上的"最新最强模型"、和大V评测中的惊艳Demo。当他们真的开始使用这些工具并发现"它又没有理解我的意思"时，个体的失望感被分散到社交媒体上的数千万条吐槽中，没有汇聚成对"排行榜信号质量"的系统性质疑。因为质疑需要替代方案——而替代的评估方式，目前不存在。

四道裂缝：从"能展示"到"能负责"
排行榜和Demo本身不是错。中央电视台的广告时段也不是错——它确实是当时最有效的传播渠道。错的是把传播信号当成了对实体能力的完整测量。在大模型领域，"信号"和"实体"之间的不对应至少有四个层次。

第一，可展示不等于可稳定。大模型在评测集上的表现本质上是"考试能力"——在已知题型和有限范围内给出正确答案。但真实世界没有固定题型。一个用户今天问你"帮我写一封辞职信"，明天问你"分析这份合同第7.3条的潜在风险"，后天问你"我妈头疼三个月了看了三个医生都没用你帮我看看可能是什么原因"。三个问题需要三种完全不同的能力，但模型对它们会以同样的自信回答——无论它是否真的具备回答这些问题的知识。更致命的是，同一个问题换一个措辞可能得到完全不同的答案。你问"这个药有什么副作用"它列出七条，你问"吃这个药安不安全"它说"一般来说是安全的"——两条回复可能分别漏掉了最重要的那条副作用和那条风险提示。

第二，可稳定不等于可产品化。即便模型在某种任务上表现稳定——比如90%的常见法律问题能正确回答——这距离一个可以被律师事务所使用的产品之间，还隔着交互设计、错误处理、流程嵌入、成本核算和责任边界。这些问题没有一个能在MMLU排行榜上找到答案。但它们在真实世界中的每一个都比排行榜排名重要。

第三，可产品化不等于可规模化。同样一个产品，在一家保险公司和一家电商公司的客服场景中表现可能天差地别。大模型要规模化落地，不是在100个客户那里重复卖同一个模型——而是要在100种不同的数据环境、权限结构、流程逻辑、责任分配中反复实施工程化改造。而企业AI落地真正的成本大头不是API调用费——是组织适配。

第四，也是最深的一道裂缝——可规模化不等于可负责。一个模型能被100万用户使用，不等于它能承担100万次交互中任何一次出错的后果。当一个模型给用户提供了错误的医疗建议、给企业客户提供了错误的合同条款、给金融机构漏掉了一个合规风险信号——责任在谁？模型提供商说"我们是技术工具"，企业说"我们用的是第三方服务"，用户说"我就是相信了你们官网上推荐的AI"。这三方推诿暴露了大模型产业最根本的制度空白：一个能流畅说话的机器，在法律上仍然只是机器，但在用户心智中已经变成了一个对话者。

评测污染：裂缝的加速器
四道裂缝已经够宽了。但还有一层更隐蔽的问题在持续加宽它们——而且这层问题出在评测本身。

当全世界的研究团队都在同一组评测集上反复优化时，评测集本身会"泄漏"进训练数据。MMLU包含57个学科的约1.4万个选择题，OpenAI用它评测GPT-4，Google用它评测Gemini，Anthropic用它评测Claude。每个团队的工程师都研究过MMLU的题目格式和知识范围。互联网上散布着大量包含MMLU题目的网页——有人把题目贴到论坛讨论，有人用MMLU题目写博客。当大模型从互联网爬取数据时，这些"污染网页"混入训练语料。模型在MMLU上考出高分，可能是因为它的推理能力真的更强——也可能只是因为它在训练时已经见过这些题。

斯坦福HELM项目在2023年的一篇论文中估计，在某些评测上数据污染可能使分数虚高5到15个百分点。这5到15个百分点恰好是很多模型在排行榜上"超越上一代"所依赖的差距。

比无意污染更棘手的是有意识的"排行榜游戏"——在训练后期加入与评测集格式高度相似的样本，对评测集覆盖的知识领域进行过采样，在模型输出格式上做针对性调整。这些操作单独看都不构成作弊——没有直接使用原题，没有违反明文规定。但它们的叠加效果是：模型在排行榜上的数字与它在真实用户面前的真实表现之间，被系统性撑开了一道从表面上看不见的缝隙。

更麻烦的是这道裂缝的囚徒困境属性。几乎每一位大模型研究者都知道评测污染的存在，但没有人愿意第一个公开承认自己的分数含有水分——如果别人不说而只有你说，你的模型在排行榜上就凭空落后5到15个百分点。所有人都在沉默中维持着虚高的分数。这让人想起2010年代机器学习领域ImageNet的"过拟合"危机——各家团队针对ImageNet训练集进行极度精细的调参，导致模型在榜单上越来越强，在真实世界的不同光照、角度和背景下表现远不如榜单。但大语言模型评测的复杂度远超图像识别——语言任务的多样性高了几个数量级，重建一套MMLU级别评测集需要几十位研究者耗时数月。

大模型评测领域最深层的困境因此不是"评测分数不完美"，而是它用来测量裂缝的那把尺子本身，正在被所有人合力弄弯——而修正这把尺子的正确激励，对研究团队、投资人、媒体和企业采购部门来说，目前不存在。

从分数膨胀到信任折价
评测分数与真实能力之间的裂缝不会自己愈合。它只会沿着一条逐渐加速的滑坡扩大。

第一阶段：分数膨胀。研究团队不是故意作弊——但评测集被研究、被讨论、被当作训练参考太多次了，它的"干净度"是可疑的。当分数从70%膨胀到80%再到90%，"接近人类水平"的标题就不可避免地出现。而这些标题又反过来加速了外界的期待滚雪球。

第二阶段：Demo高光化。发布会演示从"实时展示"变成"精选集锦"。Google Gemini的演示视频被曝经过了后期编辑和加速——团队从录制素材中挑选最好片段，剪辑在一起，加速了模型响应时间，让观众产生"实时交互"的错觉。Google后来承认了这些处理，同时说它们在行业中是"常见的"。这句话本身就是一个信号：当一个行业把表演当作"常见的"展示方式，演示就不再是演示——它是广告。而广告不等于产品。

第三阶段：信任折价。当用户和企业逐渐发现Bard演示有事实错误、Gemini视频不是实时的、排行榜排名和实际体验差距很大时，信任不会直接归零，而是以折价的方式下降。用户会在心里给每一个AI产品打折扣，企业会在每一次采购时多打一个折扣系数。这种"信任折价"不像股价暴跌那么戏剧化，但它对产业长期影响比暴跌更深远——信任一旦被折价，要重新涨价极其困难。

第四阶段：责任真空。当模型被部署到高风险场景而"这是一台机器""请自行核实信息"的免责声明被不断张贴时，用户发现自己是整个链条中最脆弱的一环：平台说这是AI生成的，企业说这是第三方服务，模型厂商说这是训练数据的统计属性。没有人在说谎，但也没有人负责。

这四个阶段的叠加结果是：大模型产业制造了一种"技术已经ready"的集体假象，然后所有参与者——创业者、投资人、企业客户、媒体、用户——在假象的基础上做了各自的决策。当假象开始剥落，每一个踩着假象做的决策都变成沉没成本。

该留下的不是"不要评测"，而是"要评测什么"
1 e9 T% O J! x
参数排行榜和发布会Demo没有错。中央电视台的广告时段也没有错——它确实是那个时代最有效的传播渠道。错的是把广告当产品，把分数当能力。

大模型产业真正需要的不是抛弃评测，而是建立一套远比"哪个分数更高"更精细的评估框架。它至少需要区分五个层次。

第一层：可展示的能力——在一个干净测试集上的表现。这是"我们的模型在MMLU上拿了90分"。第二层：可稳定的能力——在不同条件、对抗性输入和分布偏移下的一致性。这是"在不同的提问方式、不同语言、不同领域分布下，分数不会从90掉到70"。第三层：可产品化的能力——在真实用户工作流中被嵌入后的端到端任务完成率。这是"用户不只是让它答一道题，而是让它完成一个包含多轮交互、工具调用和错误修正的完整任务——成功率是多少？"第四层：可规模化的能力——在不同行业、不同数据环境、不同组织条件下的可复制性。这是"在保险公司跑通的场景，到银行还能不能用？到政府还能不能用？到一家从来没做过数据治理的中小企业还能不能用？"第五层：可负责的能力——在错误可追溯、后果可归因、受害者可救济的制度框架下运行。这是"当AI的输出导致了真实世界的损失——医疗误诊、金融错判、法律误导——谁在哪个环节承担什么责任？"

这五个层次不是阶梯——走完第一级不会自动走到第二级。每往上一层，需要的不是更好的模型参数，而是完全不同的能力种类：工程化能力、产品化能力、治理能力、制度能力。而这些能力，大多不在大模型公司天然的组织基因里。一个擅长训练SOTA模型的研究团队不一定擅长设计用户工作流。一个擅长设计用户工作流的团队不一定擅长构建跨行业的规模化部署方案。一个擅长规模化部署的公司不一定擅长在法律和监管真空中建立责任闭环。

这才是"标王逻辑"最深的讽刺。秦池以为买下广告时段就等于买下品牌——但实际上，广告时段能带来的只是注意力，而品牌需要在消费者每一次打开瓶盖的体验中被持续验证。几千万广告费买来的注意力是真实但短暂的。几十亿次开瓶体验累积的品牌才是持久的。前者可以靠举牌拿下。后者只能靠时间、系统和组织能力来缓慢构建。

同样地，大模型公司以为占领排行榜就等于占领市场。排行榜能带来的只是关注度——真实的、可转化为融资和媒体报道的关注度。但市场需要在每一个真实场景、每一次用户交互、每一次错误被追溯修正、每一次用户在"AI又出错了但我已经习惯了"和"这个AI真的帮到我了"之间的反复摇摆中被缓慢构建。排行榜解决的是"让世界知道你存在"的问题。它解决不了"让你的产品在真实世界中可靠到值得被反复使用"的问题。后者不是一个评测问题。是一个制度问题。

二十多年前，秦池在梅地亚中心举起的牌子上写的是3.2亿元。今天在大模型评测榜上举起的牌子上写的是"人类水平""超越GPT-4""最强推理能力"。字不一样，但举牌子的那只手——那种把一个复杂实体压缩成一个简单信号、然后围绕那个信号押注所有筹码的本能——并没有变。

参数标王的败局可以压缩为一个简洁的逻辑链：可展示的Benchmark分数被媒体和资本共同放大为一个过于简化的信号，所有人都围绕这个信号做决策，而信号背后——真实业务闭环——从未被建成。当信号崩塌时，被压碎的不是信号本身，而是所有踩着信号做出的创业、投资、采购和叙事决策。

本系列后续各篇中将反复出现的一个主题，在这里已经提前暴露了它的全部结构。大模型产业的每一个败局现场——AI硬件、陪伴机器人、对齐系统、AI客服、Agent创业、开源商业化、包装术、企业Copilot、金融越界——本质上都是同一个故事在不同场景中的重演：一个真实但被过度神话的技术能力，在缺乏制度约束的条件下被推入真实世界，然后被真实世界的复杂度还击。参数标王只是这个故事的第一章——而且是最干净的一章。因为在这里，崩塌只涉及金钱。在后面的章节中，崩塌将涉及生命。

广告能买来注意力，却买不来经营能力。榜单能证明高光时刻，却证明不了组织可以长期承受它。

xiejin77 · 发表于昨天 07:34

第二篇｜胸针上的帝国：AI硬件为什么总想杀死手机
2025年2月28日中午12点，太平洋时间。所有已售出的Humane AI Pin在这一刻被永久切断云服务。电话、消息、AI查询、云端访问——全部停止，所有客户数据被删除。已经卖出去的每一枚699美元的胸针，在同一秒变成了无法联网的铝合金。

十天前，惠普以1.16亿美元收购了Humane的知识产权、300多项专利、工程师团队和两位创始人。收购价不到公司峰值估值8.5亿美元的14%。估值从8.5亿跌到1.16亿。惠普明确表示不收购AI Pin硬件本身。两位创始人——前苹果高管Imran Chaudhri和Bethany Bongiorno——加入惠普组建HP IQ实验室，负责把AI整合到惠普的PC、打印机和会议室设备中。据TechCrunch报道，部分工程师在转入惠普后薪资上涨了30%到70%，而那些与AI Pin硬件最直接相关的员工则被裁掉。

从"杀死iPhone的后手机时代入口"到"给惠普打印机做AI"——只用了15个月。

15个月前，Chaudhri站在TED舞台上，穿着黑色高领毛衣，用缓慢的、戏剧化的语调展示了激光投影、语音交互和掌心触控。那枚小小的正方形胸针从他口袋里被掏出来放在掌心的那一刻，TED大厅里的空气发生了变化。台下坐着的是"见证历史"的技术精英，不是消费者。他们报以热烈的掌声。

在此前三年里，Humane从Sam Altman、Marc Benioff、微软、软银、老虎环球、高通、LG和SK Networks那里累计融资约2.4亿美元。2023年11月AI Pin发布前夕，估值达到8.5亿美元。

但产品与叙事之间的断裂从第一天就开始了。

从450万预定到8000台出货

AI Pin的首发售价是699美元加每月24美元订阅费。发布初期，Humane宣称预定量一度超过了450万台。但这个数字后来被证实为注册了"意向"的邮件列表人数——不是实际支付预定的订单。截至2024年6月，实际出货量仅约8000台。而在这8000台中，退货量到夏天已接近千台，退货速度开始超过新销售速度。The Verge的评测标题是"它不应该被购买"。Marques Brownlee长达25分钟的评测获得了超过800万播放，结论就写在标题里——"几乎不可评测"（Barely Reviewable），这在他的评测生涯中是极罕见的评价。

用户面对的现实是系统性的功能缺失。激光投影在户外阳光下几乎不可见。语音响应延迟5到10秒。佩戴几分钟后过热到无法忍受——一位评测者形容"像在胸口贴了一块正在充电的充电宝"。物体识别准确率不到80%。电池续航仅几个小时。充电盒因电池起火风险被美国消费品安全委员会召回。

2024年5月，发布仅一个月后，Humane聘请了投资银行寻求出售，要价为7.5亿到10亿美元——无人接盘。2024年10月，价格从699美元一路降到499再到200美元——相当于一台Kindle的价格试图清掉一台"iPhone替代品"的库存。到2025年2月，曾经估值8.5亿美元的公司以1.16亿美元卖掉——估值缩水88%。

Rabbit R1：App装进盒子的荒诞剧

与Humane几乎同一时间，另一家AI硬件创业公司Rabbit在CES 2024上引爆了全场。创始人吕骋发布了一款售价199美元的橙色小盒子——由知名设计公司Teenage Engineering设计外观。核心叙事是"大动作模型"（LAM）——不只是回答问题，而是替你操作App。Satya Nadella公开称赞它是"自iPhone以来最令人兴奋的产品之一"。预售据称超过10万台。

吕骋在社交媒体上说了一句后来被证明是2024年AI行业最讽刺的自我否定："这不是一个App。"

数月后，Android权威Mishaal Rahman提取了R1的Launcher APK，在一台Google Pixel手机上成功运行——所有功能完全可用。R1本质上就是一部运行着单个全屏App的廉价Android设备。它不是什么"新入口"，它是一个被橙色塑料壳包着的App。你花199美元买的是一个可以被提取出来、装在任何Android手机上免费运行的东西。

更惊人的是2024年6月的安全漏洞。反向工程团队Rabbitude发现Rabbit的代码中硬编码了多组API密钥——包括ElevenLabs文字转语音的管理员级别密钥。拿到这些密钥的人理论上可以读取所有R1用户的对话历史、更改所有设备的语音设置、甚至用Rabbit的官方域名发送邮件。Rabbitude确实发了一封——内容是"抱歉我们被黑了但我们是一群胆小鬼继续否认着"。而Rabbit在私下收到漏洞报告后超过一个月没有采取任何行动——直到媒体曝光。

据第三方估计，约10万台已售设备中日活跃用户可能仅5000到3.3万人。至少70%的购买者已经把那个橙色小盒子放进了抽屉。

入口幻觉的五种零件

AI硬件的崩塌不是两个产品失败的故事。它暴露了一个被整个行业集体相信、集体投资、集体推动的错觉——我把这称为"入口幻觉"。它由五个零件组装而成。

第一，能力想象。ChatGPT让世界产生了一种直觉：AI能听懂人话、能回答问题、能执行指令，那么人机交互的最佳方式应该是解放双手、随身佩戴的设备。这个推理在PPT上无懈可击，但它跳过了一步：手机已经能听懂人话、能回答问题、能执行指令了。

第二，手机疲劳。智能手机发展了近二十年，屏幕越来越大、App越来越臃肿、注意力越来越碎片化——这些不满是真实的。但"对现有方案不满"不等于"需要一个新硬件"。大多数情况下等于"希望现有方案变得更好"。买一枚699美元的胸针来替代手机，并不能让你少看屏幕——它只是把查看的内容从6英寸屏幕转移到了手掌的激光投影上。而那个投影在阳光下看不见。

第三，入口焦虑。每一个科技巨头都害怕错过下一代平台。微软错过了搜索，Google错过了社交——没人想错过AI。这种焦虑从大公司蔓延到投资人再到创业者：如果不投AI硬件，万一它真的是下一个iPhone级别的平台呢？FOMO是硅谷最有效的募资话术。

第四，媒体放大。TED舞台、黑色高领毛衣、乔布斯式的发布仪式——这不是产品演示，是叙事构建。当Chaudhri站在TED舞台上把胸针从口袋掏出来的那一刻，他说服的不是消费者——消费者不在现场——他说服的是媒体和投资人，那些负责"让世界相信这个东西重要"的人。而当媒体开始用"后iPhone时代""下一个计算平台"来报道时，叙事变成了市场共识。

第五，资本驱动。Humane融资2.4亿美元，Rabbit预售额超过2000万美元——不是因为商业模式被验证了，而是因为叙事足够性感。钱来得太容易，创业者更可能被自己的叙事反向捕获——"既然这么聪明的投资人都投了，那我的方向一定是对的"。

这里的资本逻辑值得更仔细地拆解——因为它暴露了大模型时代投资策略中的一个系统性盲区。Humane的投资方包括Sam Altman、Marc Benioff、微软、软银、老虎环球——这不是一群容易被PPT骗到的天真投资人。他们投的不是"Humane AI Pin这个产品会成功"，他们投的是"万一AI需要一个新硬件入口，我们已经在桌子上了"的期权。这是一种对冲逻辑——不是为了行权，是为了万一方向对了不被甩下。但这种"期权式投资"对创业公司来说是一把双刃剑——它让公司在产品验证之前就获得了独角兽级别的估值和资源，从而解除了"产品必须好"的生存压力——因为投资逻辑不依赖于产品成功。但当产品上市后被真实用户投票否决时，"期权价值归零"的速度远快于任何传统估值模型的调整速度。从8.5亿到1.16亿——这不是"因为产品不好所以打折"，这是"期权到期，一文不值"。

新硬件成立的真实条件

新能力需要新硬件——这个命题在技术史上被验证过很多次，但成立的条件比看上去严格得多。2007年的iPhone满足了这些条件：它整合了电话、电脑、音乐播放器、GPS，在一个设备里提供了旧手机完全无法提供的核心价值。所以它建立了新入口。

但Google Glass没有——它回答了"技术能做什么"而没有回答"我为什么要把电脑戴在脸上"。VR没有——沉浸式体验是特定场景需求，不是日常需求。智能音箱在厨房和卧室找到了真实生态位，但也只是手机力不能及的场景中的补充，不是入口。

Humane和Rabbit连智能音箱那样的生态位都没找到。智能音箱至少便宜——几十美元——而且有一个明确的使用场景：做饭时满手油想换首歌。AI Pin卖699美元+月费，提供的所有功能都在你口袋里的手机里免费躺着——且屏幕更好、响应更快、续航更长。

这就是入口幻觉最深层的病灶。不是"AI没有未来"，而是AI能做的事，已经被旧硬件上的App覆盖了。AI作为一种能力，它最好的载体很可能就是已经在全球50亿人手中运行的那块6英寸屏幕——因为它已经在那里了，不需要你额外花699美元，不需要重新充电，不需要忍受5秒延迟。

但这里有一个更微妙的反讽值得追问：如果说AI Pin和Rabbit R1败在"过度入口化"——把AI能力包装成一个需要新硬件才能获取的专属体验——那么它们的反面，手机上的AI App，是否败在"过度去入口化"？当AI只是一个App图标，被淹没在主屏幕上与天气、日历、计算器并列时，它是否失去了某种"存在感"——那种让用户持续意识到"我现在可以和AI交互"的环境提示？AI Pin和Rabbit R1的错误可能不是"想成为入口"——而是"想成为专属入口"。它们的问题不在于"做硬件"，而在于"做只有AI功能的硬件"。它们没有提供手机上完全做不到的任何事。如果AI硬件想活下来，它需要回答的不是"能不能替代手机"，而是"能不能做到手机完全做不到的事"。目前没有AI硬件回答过这个问题。

二十多年前，史玉柱在珠海盖巨人大厦，图纸从38层改到54层再改到64层最后定在70层。每次走上工地看到钢筋水泥在往上长，他就觉得"还能再加一层"。Humane的创始人每多融一轮资就觉得离"后手机时代入口"更近了一步——在TED舞台上，在Pitch Deck里，在每一轮融资估值的Excel中。TED舞台上的掌声替代了工地上的钢筋水泥——它们都能让人产生一种"这次一定行"的眩晕。巨人大厦最终没有成为中国最高的建筑，成为了最著名的烂尾楼。AI Pin从TED封神到永久变砖，15个月。

但真正值得追问的不是"为什么Humane失败了"——而是"为什么这么多极其聪明、经验丰富的投资人同时相信了同一个叙事"。Sam Altman、Marc Benioff、微软、软银、老虎环球、高通、LG——这个名单几乎覆盖了全球科技投资领域最顶级的判断力。他们不可能同时被"PPT太好看"骗了。

更合理的解释是：他们投的不是Humane的产品——他们投的是"AI需要一个新硬件"这个命题本身。他们投的是FOMO——万一下一个iPhone真的出现了而我没有在桌子上怎么办。他们投的是对冲——如果大模型最终需要一个硬件载体，那么提前布局至少不会全盘错失。他们投的不是"Humane AI Pin会成功"，而是"后手机时代AI硬件的期权"。而期权的价值不在于它能行权——在于万一行业方向朝这个方向走，你有一个便宜的先手。

问题在于：当投资逻辑从"这个产品能成功"滑向"这个方向万一成功了我不能缺席"时，被投公司的估值就不再基于商业基本面——而是基于一种金融期权定价。"万一成功了值1000亿，所以现在值10亿"——这类逻辑只有在退出渠道明确（IPO、并购）且有足够多的后续买家相信同一套逻辑时才能维持。而一旦产品上市、评测崩溃、"万一成功"的可能性从10%跌到接近0%——期权价值归零的速度远快于任何传统估值模型能反映的速度。从8.5亿到1.16亿的88%蒸发——不是"商业失败"的折扣，是"期权到期一文不值"的定价。

AI硬件浪潮留下的最持久的教训可能不是关于硬件的——而是关于"入口叙事"在技术史上的重复模式。每一次重大技术范式的转换都会产生"入口叙事"——蒸汽需要铁轨，电力需要电网，互联网需要调制解调器，移动互联网需要智能手机。但不是每一次都有一个新的物理入口。很多时候，新技术只是悄悄渗透进旧入口的内部——就像移动支付没有产生"支付硬件"，而是渗透进了已有的手机；流媒体没有产生"音乐硬件"，而是渗透进了已有的手机和电脑；短视频没有产生"视频硬件"，而是渗透进了已有的手机。

大模型很可能也是这个模式——它不需要一个专门的新硬件，它需要渗透进已有的50亿台手机里。但"渗透进旧入口"是一个在商业叙事上远不如"创造新入口"性感的故事。它不会让你登上TED舞台。它不会让你成为"后手机时代第一人"。它不会在Pitch Deck上把TAM画成一个全新的市场。所以创业者有强烈的叙事动力去讲"新硬件"而不是"旧手机上的新App"——即使后者在技术上更可行、在商业上更可靠、在用户端更不需要额外的699美元。AI硬件的败局在某种意义上不是技术的失败，而是叙事的失败——叙事太强大，以至于它说服了创业者、投资人和媒体去相信一个在用户真实生活中从未被验证的需求。

这道败局可以化简为一条公式：新入口的叙事诱惑，撞上老生态(手机)不可撼动的成熟惯性，再乘以高昂价格，除以几乎为零的"必须用胸针而不能用手机"的刚需——结果趋近于零。二十多年前史玉柱在珠海把巨人大厦从38层加到70层，每加一层都觉得离天空更近一步——但天空不会因为楼高而托住地基。AI Pin从699美元的TED高光时刻到2月28日中午12点永久变砖，中间只隔了15个月。

AI硬件最大的幻觉，不是以为技术不够好——是以为只要把模型戴在身上，人类就会立刻换一种生活方式。生活方式不是胸针，不能别在衣服上。它长在肌肉里。

		自动登录	找回密码
密码			注册

[科技前沿] 大模型的大败局系列

评分

点评

评分

评分