终章|神像底下没有地基:大模型时代的制度迟到与能力幻觉. y7 M, ]! N5 p% Y" |
* B. S2 e* I9 x) A! O+ m
; r! b0 \: Z1 Y7 f+ A2 g/ @# a
一、回望十二个败局:它们其实败在同一处
8 S( m5 h9 ]2 w5 K. y' l |' u7 e- p# w
2 b* L' P' C& t" f/ q
我们在这部系列中穿越了十二个大模型时代的败局现场。参数崇拜——败在把可展示的Benchmark分数当成可产品化的商业价值。AI硬件——败在把"AI能说话"当成"人类需要一个新设备来听它说话"。人格化陪伴——败在利用人类心智的百万年漏洞来最大化情感黏性,然后拒绝为伤害承担比"仅供娱乐"更重的责任。对齐系统——败在用一套缺乏语境理解的规则去校正一个极其需要语境理解的世界。AI客服——败在企业以为自己部署的是降本工具,法律却认定它放出去的是一个不会负责的企业代表。得来速AI——败在把文本窗口里的85%准确率当成物理世界中的可接受表现。Agent创业——败在独立公司没有独立生存所需的关键资源,最终变成巨头的外包研发。开源AI——败在把需要商业模式喂养的理想当成了商业模式本身。AI包装术——败在叙事先于实质、估值跑在收入前面。企业Copilot——败在技术能力跑在组织变革前面,变革被营销术语跳过。金融大模型——败在从辅助到替代的温水煮青蛙式越界。
. m( h- b( D3 z4 o8 j3 A它们分布在不同领域、不同失败模式中——但并排放在一起,它们败在同一个地方。不是败在技术没有能力。是败在能力与制度之间的落差。
0 X8 @/ m1 e) W1 |8 q$ @2 b' p7 O
在模型评测和Demo的战场上,参数没有败,排行榜没有败——败的是人们把可展示的能力误认为可产品化的能力,把benchmark分数误认为商业闭环。Google Bard的一个事实错误蒸发1000亿美元市值,不是因为Bard不聪明——它聪明到能写出流畅的答案——而是因为它能流畅地犯错,而流畅的错话比结巴的错话更有欺骗性。
$ O9 U" Z+ B( ]4 A0 M在AI硬件的战场上,胸针和盒子没有败——败的是把"后手机时代入口"的未来想象实体化为一枚699美元的胸针和一个199美元的橙色盒子。当Humane AI Pin在2025年2月28日被永久切断云服务、变成一块无法联网的铝合金时,它不是在证明AI没有未来,而是在证明"入口幻觉"——把新的智能能力误认为新的生活入口必然成立——的商业代价。
0 I1 m+ n1 G' S$ r: E7 u3 n在AI陪伴的战场上,Character.AI没有败——它的技术仍然在运行,用户仍然在使用。败的是"人格模拟却拒绝承担人格责任"的产品设计。当一位14岁男孩在跟AI角色说完"我爱你"之后结束了自己的生命,你无法用"本平台仅供娱乐"这句免责声明来回应一个母亲的诉讼。法律也许还在摸索判决的方式,但道德常识在那一刻就已经做出了判断。
$ l3 n% w0 u# n4 ?3 t在对齐系统的战场上,Gemini的图像生成功能没有败——Google在几个月后修复了它。败的是用一套没有语境的规则,去机械地校正一个极其需要语境理解的世界。让教皇变成女性、让纳粹士兵变成有色人种——不是AI道德太好,而是AI道德太笨。
/ Z$ y8 H: ~2 S0 ~& f在AI客服的战场上,Air Canada的聊天机器人没有败——它只是说错了一句话,然后航空公司赔了812加元。败的是企业以为"AI替我省了一个客服",但法律提醒你"AI替你增加了一个不会负责的代表"。812加元的赔偿金,是AI责任归属领域的第一张微型罚单——但它不会是最后一张。
7 o2 ^$ M4 p1 @/ ?3 s
在物理世界的战场上,麦当劳的AI得来速没有败——它只是把260个麦乐鸡块加进了一个人的订单。败的是把"在文本窗口里达到85%识别率"当成"在真实世界的噪音、口音、情绪和厨房流水线中达到100%履约率"。文本窗口不是现实世界,而现实世界从来不会为AI降低它的复杂性。
4 z# E0 L8 A `在Agent的战场上,Adept和Inflection没有败——它们的创始人进了亚马逊和微软,拿到了大平台的资源。败的是独立Agent公司的"独立"幻觉——当底座模型、云资源、企业入口、分发渠道都被巨头掌控时,创业公司卖的是"未来智能员工",而巨头买的是"已完成的人才猎头和产品预研"。
/ o- g n7 u; |% [; ~/ M# [在开源商业化的战场上,Stable Diffusion没有败——它是全球最成功的开源图像生成模型。败的是把社区影响力误认为可持续收入的Stability AI——每月800万美元的算力账单提醒了整个行业:在大模型的世界里,开源不是一种商业模式,它是一种需要被商业模式喂养的理想。
2 q+ U1 U$ N! \% ^, X" ?+ T
在AI包装术的战场上,Builder.ai的创始人Sachin Dev Duggal没有败——他拿着"首席巫师"的头衔安全撤退了。败的是那个把"几个人工外包工程师+ChatGPT API+自动化叙事"包装成"用AI像点披萨一样生成App"的估值游戏——16亿美元的估值最终撞上了一堵叫"收入是假的"的墙。
A* @, y: C# R Z8 W& w
在企业AI的战场上,Microsoft Copilot没有败——它会继续卖下去。败的是"买500个Copilot席位就等于完成AI转型"的组织幻觉——AI不会自动让一个数据混乱、权限不清、流程不可追溯的组织变聪明,它只会用更流畅的语言把那种混乱重新表述出来。
) N% c) T0 y2 H6 R5 W9 n3 ?
在金融大模型的战场上——目前还没有"败"的现场。但裂缝已经足够深了:CFPB的报告、Mata v. Avianca的律师被罚、AI换脸诈骗的爆发、Agent被赋予执行交易的能力——所有这些裂缝都在指向同一个方向:当"看起来像判断"的东西开始悄悄替代"真正的判断",而法律还没有准备好区分这两者。
% [$ S6 ^- j: q, ^7 w3 q
在训练数据版权的战场上,每一个和解、每一个起诉、每一个"请删模型"的法庭动议,都是一张大模型产业曾经以为不用付的账单,正在被送回来——而且带着利息。
: G: c8 c; k/ c* C; Y
十二个战场,十二种败局现场。
) P7 a. y: \, K. }
它们的败局公式各不相同:
, j; N9 d; a; p4 a. O
- 参数崇拜:可展示能力 × 媒体放大 ÷ 真实业务闭环
- AI硬件:新入口幻觉 × 老生态惯性 + 高昂价格 ÷ 低频刚需
- 陪伴AI:拟人设计 × 情感依赖 × 责任缺位
- 对齐系统:正确性压力 + 规则僵化 - 语境理解
- AI客服:降本冲动 + 官方渠道信赖 + 幻觉输出 + 责任甩锅失败
- 语音点餐:语音识别误差 × 场景噪音 + 履约压力 + 用户耐心有限
- Agent公司:执行能力想象 - 权限治理 - 工作流嵌入 - 责任机制
- 开源模型:社区影响力 + 技术理想 - 可持续收入结构
- AI包装术:自动化叙事 × 人工交付 + 资本放大 + 财务穿帮
- 企业Copilot:高层期待 + 底层数据混乱 + 权限不清 + 复核缺位 + ROI虚高
- 金融大模型:专业话术可信感 × 决策责任缺位 + 数据权限扩张 + 监管边界模糊
: _- c3 x2 ~- X' H
+ t, I1 D: u) h( T+ O但它们共用一个底层逻辑:人类又一次在技术刚刚显灵的时候,迫不及待地为它修庙、塑金身、收门票,最后才发现——神像底下还没有地基。
( o3 X2 x% x- }4 P( v3 y9 U
2 C! J/ ^! Z0 A3 ~$ h! @二、大模型真正的边界:它能做什么,不能做什么
4 ^; `; W, ^6 a# G; O& @& d6 ~5 E- l) f4 a% b1 ?
) K; X- c8 Z3 ^ `" O8 B* a
经过这十二个战场的分析,我们可以为"大模型的能力与边界"画一张明确的地图。
5 a) H9 [; [0 R
大模型能够做到的:
7 o& F6 J. q; c& Y l- 放大人类的表达能力——让一个不善言辞的人也能组织出结构清晰、措辞得体的文本
- 提升检索与归纳效率——在海量信息中快速定位相关材料并形成摘要
- 辅助初步推理——在已明确规则和充足信息的条件下,帮助人们整理推理链条
- 生成草稿——写作、编码、设计、分析的初稿
- 连接工具——通过API调用将不同的软件和服务串联为一个工作流
- 改造部分知识劳动流程——将某些重复性的、模式化的知识工作任务重新组织和加速$ g, ~' P3 [# t# m% H% x# M v0 [6 ^
; i" H( v8 R! V6 K. o# q2 p大模型不能自动做到的:
( e, F- e5 ]1 M; z
- 生成商业模式——流畅的语言无法替代对市场、竞争、定价、渠道、复购的理解
- 承担法律责任——模型不具备法律人格,其输出不能成为法律上的责任主体
- 替代组织治理——数据的清理、权限的设定、流程的标准化、审核机制都需要人来完成
- 消除数据混乱——如果一个企业内部的数据已经混乱,AI只会让混乱变得更流畅
- 解决制度冲突——不同部门、不同激励、不同利益之间的协调,不在语言模型的范围内
- 承担专业决策后果——当AI的建议被采纳并造成了伤害,它无法出现在法庭上承担后果" E3 f2 g/ ?9 U
; Q1 ]9 T. F, Z0 [$ K这个清单的上下两部分之间的鸿沟,就是大模型神话的全部破产区域。上半部分让人类觉得"它很聪明",下半部分让人类在关键时刻发现"它不能负责"。而上半部分越强,人类对下半部分的低估就越危险。
1 J! P7 k0 [/ b. x
+ Z7 z- d! S1 x4 k) h2 [. U
三、避免大败局的机制:五道安全护栏
" D& H9 i+ N6 S, f0 L+ i0 F1 d2 h+ N( ?8 o. L
- U: a4 U5 Y& \1 _
要避免大模型大败局作为结构性灾难的重演——而不是个案的翻车——也许需要在决策者的头脑里建立五道制度性的安全护栏。
8 J; |" B( T: D5 K0 B8 s4 C
) p# G3 {/ J1 M第一道护栏:能力分级机制5 o+ j8 O: ?4 j! c3 M1 ?
+ i1 ^' P7 k3 N- H5 e
* L0 N7 O2 ]) k- S% E5 y大模型的每一项能力都必须被放在正确的梯级上:可展示 ≠ 可稳定 ≠ 可产品化 ≠ 可规模化 ≠ 可负责。这五级的区分不是语义游戏,而是采购决策、投资评估、监管边界制定的基础。
* \. P% N( }0 G, ^0 o
当一个模型供应商说"我们的模型在医疗问答的准确率达到了90%",你首先要问的是:这是可展示的能力(在一个精心挑选的测试集上的结果),还是可稳定的能力(在真实的、多样化的、对抗性的输入下的一致表现)?当一个企业客户说"我们要把AI整合到授信审批流程中",你首先要问的是:AI是辅助(提供参考信息),是建议(给出判断但人类审批),还是替代(直接拒绝或批准)?不同级别对应完全不同的治理要求和责任归属。
* o! {* Y, d# X L5 a% e& [. }) U
4 C' _) g5 V: C4 W第二道护栏:场景分级机制
* [- S, e8 e# M/ m
$ {% X* K- g# F1 b# S) c, G! \3 Z) g' i/ Y7 \ O
不是所有场景都需要相同的安全标准。一个AI在帮你校对语法时犯错,和一个AI在帮你审批贷款时犯错,是完全不同级别的问题。场景分级应该至少包含三级:
/ j% O3 x9 `" n$ p$ @& v% @' ~$ d绿色区域(低风险辅助):AI输出被用于参考和初步草稿,不直接影响个人权利或机构决策。如文档摘要、创意写作辅助、代码建议。治理要求:透明披露AI参与即可。
1 U: L5 ^, q+ f) t; u0 W: v( h
黄色区域(中风险增强):AI输出影响决策过程,但最终决定由人类做出并有记录。如投研辅助、合规初筛、运营建议、客服辅助回答。治理要求:人类在环(human-in-the-loop),审计日志完整,AI参与程度对用户透明。
* U' M4 |, h/ R0 L) W
红色区域(高风险禁入或强监管):AI输出可能导致个体的法律权益、财务安全、健康安全受到直接影响。如授信审批、投资建议、医疗诊断、支付执行、未成年人交互。治理要求:必须有人类决策节点(human-in-command),必须可解释,必须有独立申诉机制,机构承担完全责任——不能把AI推出去当替罪羊。
0 w) ?8 Z& |: [. O4 z7 R6 y% N
3 _ B/ J7 k" V5 z) _5 l5 i
第三道护栏:Agent权限治理机制
: W0 H2 M8 n, M% m# T' ~9 {7 J6 x2 Q, P
: I1 M6 {) S% K3 q当Agent能够执行操作——调API、改文件、发邮件、转账——它就不再是一个"语言界面",而是一个"行为主体"。对于任何能够产生真实世界后果的Agent行为,必须建立五重约束:
p) I; M+ y0 W1 M# x: e: E- 沙箱约束:Agent的操作必须在受限环境中进行,关键操作(如修改生产数据库、执行支付、对外发送邮件)必须有物理或逻辑隔离。
- 权限约束:Agent拥有的每一个能力(读、写、执行、发送、删除)都必须对应明确的权限许可,权限颗粒度必须精细到"允许什么操作、在什么范围内、对什么资源"。
- 审计约束:Agent的每一个操作都必须留下不可篡改的日志——什么时间、什么Agent、根据什么输入、执行了什么操作、结果是什么。不是"事后需要时再查",而是"事前设计好必须自动留痕"。
- 熔断约束:当Agent的行为超出预设边界——比如在短时间内执行了超出正常范围的操作数量、或者访问了未经授权进入的数据库——系统必须自动暂停Agent并报警,由人类介入判断。
- 回滚约束:Agent执行的每一个写操作,必须有可回滚的设计。不是"希望不要出错",而是"出错之后能退回操作之前的状态"。5 n' @& |$ K9 m+ A! c9 e
, _& T& o# S4 L
第四道护栏:事实校验与输出标注机制8 W8 d7 M( u' e8 ~% x4 \6 r
6 f$ C' b3 n i% |8 d
6 [, y" e/ D' {" y$ L2 i2 d大模型输出的流畅语言很容易被用户误认为权威判断。为了对抗这种"语言权威幻觉",AI系统应该强制标注输出的信息类型:
( X4 D+ ~4 ~# {
- 这是事实(可被独立来源验证的信息)
- 这是推断(基于事实的逻辑推理,但可能有多种合理的推断方向)
- 这是建议(基于专业知识的行动推荐,但不是唯一选择且不构成专业承诺)
- 这是假设(基于不完整信息的最合理猜测,可能是错的)
- 这是待核验项(关键信息尚未被充分验证,建议在行动前确认)
, z/ i& |3 j$ h
% X1 }3 X% t' x
这个标注系统在技术上不是特别难实现——大模型已经有能力对自己的输出不确定性进行基础评估。难点在于商业动机——标注"这是假设"会让用户降低对AI的信任和使用频率,而AI公司天然倾向于让用户多使用、多依赖。这就是为什么输出标注不能只靠企业自觉——它需要成为行业标准或监管要求。
/ u/ U" [ M/ @5 p0 Y/ |
: x) X; Y, R5 Z( ?9 n( v! _& t
第五道护栏:责任闭环机制
2 D6 w% w, Y- N( V7 J. T9 e" M- \3 O9 j3 j# g9 q
0 r; X# o$ _! |
这是所有护栏中最重要也是目前最缺失的一道。
4 Y c. q5 D4 G% [在任何AI被部署到可能产生法律或社会影响的场景中,必须有明确的"人类责任锚点"——一个具体的人(或一个明确的岗位)在法律和制度上对AI的输出和使用负有最终责任。这不是"人也要复核AI的输出"(很多情况下人只会做橡皮图章),而是"不管AI说了什么、做了什么,最终签字的那个人在法律上承担全部后果"。
! K6 ]/ n7 p4 C2 VAI不能成为责任链的"缺口"。无论是客服说错了政策、Agent转错了账、还是AI的分析报告误导了投资决策,最后面对消费者、面对监管、面对法庭的,必须是具体的组织和人——而不是"一个技术系统"。
9 |: [" X/ {/ D6 a# W( t, @ o1 m& T6 q
这五道护栏的建立不是技术问题,是制度设计和政治意愿的问题。技术可以给出框架,但要让框架具有法律约束力、让违规有后果、让受害者有救济渠道——这些需要立法、监管和司法实践的长期积累。
5 O {4 Z6 c, e0 r+ C《大败局》的六个核心案例——秦池、巨人、三株、爱多、瀛海威、南德——在当年被普遍解读为"企业家的失败":姬长孔太狂、史玉柱太贪、吴炳新太信、胡志标太急、张树新太超前、牟其中太小看现实。但二十多年后回看,这种解读把制度缺陷归因于个人性格。秦池败在一个"央视标王"制度没有对广告与产能之间的真实关系提出任何验证要求;三株败在一个允许"销售网络覆盖全国但责任体系只覆盖总部"的商业模式没有被任何监管触及;巨人的资金链不是在市场竞争中断裂的,而是在宏观调控中——一次制度环境的突然收缩中——断裂的。
3 i& {# L y3 b7 \! `* M这些企业既是制度失灵的承受者,也是制度真空的受益者。它们之所以能在短时间内膨胀到如此规模,恰恰是因为那个时代的制度环境对"狂飙"没有刹车机制。而当刹车终于到来时,它不是来自制度内部的预警,而是来自外部冲击的灾难性中断——秦池的被曝光、三株的命案报道、巨人的宏观调控。秦池从拍下标王到崩塌只有14个月。Humane AI Pin从TED发布到惠普收购只有15个月。制度总是在崩塌之后才开始追赶。
* Y, X( `+ n2 R) J2 A0 n大模型时代的制度真空存在于全新的领域——AI能力评估、Agent权限治理、人机责任分配、人格模拟的伦理边界、训练数据的版权归属——但逻辑是相同的。当制度跑在能力后面时,能力越强,暴露在制度之外的风险就越大。
. x# }: L) a1 F. I5 b"反大败局"机制的核心不是"在新技术的每个方向上提前制定完备规则"——那不可能做到。而是在技术爆发式增长的早期,识别出哪些裂缝最可能在加速中扩大为深渊,并在窗口期内建立最低限度的刹车。秦池的窗口期是14个月——从拍下标王到被《经济参考报》曝光。Humane AI Pin的窗口期是15个月——从TED发布到惠普收购。制度总是在崩塌之后才开始追赶,但"反大败局"的逻辑要求在崩塌之前就建立预警。不是预测具体哪家公司会倒——是识别"能力与制度之间的落差"这种结构性裂缝在哪个方向上正在扩大,并在那个方向上提前设置护栏。这五道护栏——能力分级、场景分级、Agent权限治理、事实校验与输出标注、责任闭环——尝试做的正是这件事。
, X3 n2 F+ W+ I0 {, N5 {而要看清败在哪里,也需要定义什么是不败。大模型真正成熟的标志,不是某个模型在任何榜单上拿到100%——那是评测的成功,不是产品化的成功——而是它变成像数据库一样的存在:强大、可靠、被广泛嵌入系统中、没有人再为它开新品发布会。在数据库的世界里,没有人说"数据库能回答任何问题"或者"数据库应该替我做决策"或者"数据库出错了我不管"——因为数据库有严格的事务保证、备份恢复和数据完整性约束。大模型的不同在于它输出的不是"检索结果"而是"生成内容"——这让它表面上更像"思考"。但它们都是信息系统的基础组件,都需要可审计的操作记录,都嵌入了人类机构的治理体系中。当大模型也像数据库那样从"智能"退入"基础设施",当它的治理不再依赖企业自觉而是嵌入法律框架——那才是成熟。
6 U" H) c. h- N' ?
- `( w( t8 x( G* x四、最后判断
' [! h( y; l& n7 b( ^4 p+ D7 i8 L0 N( ^
7 K6 Y# K, t8 S8 z6 D+ \大模型的失败,不是机器突然不聪明了。
# L+ m( E3 W$ K' U* ^3 H
ChatGPT到GPT-4到GPT-4o的进化证明了大模型的技术能力在持续进步。它不是一项会"过去"的技术——恰恰相反,它会变得越来越强,嵌入越来越多的产品,覆盖越来越多的场景,改变越来越多的知识劳动形式。
6 H7 j3 Z& t; s但它的进步越是真实,围绕它的治理、责任、制度和边界就越是紧迫。一个强大的工具需要强大的制度来驯服,而制度从来不会在技术出现的第一天就自己跟上。制度需要事故、诉讼、监管、公众讨论和政治推动——所有这些过程,就是这部系列所记录的"败局"。
' U0 e1 b- H) ~
大模型产业正在经历的,不是技术的失败,而是制度滞后于技术时必然发生的磨合阵痛。每一次败局——从AI Pin的云服务被切断,到14岁男孩在跟AI聊天后结束生命,到Builder.ai的破产,到Stability AI的CEO辞职——都是一次制度的延迟到达。
9 J& B! n1 x- C$ O6 z
大模型真正的成熟,不在于它继续变强,而在于人类社会学会用制度、组织、流程和责任来驯服它。那个时候,大模型不再是一个被供奉在神坛上的"智能",而是一个被稳固地嵌入社会制度中的"工具"——像电力、像互联网、像数据库,强大但可控,无处不在但可以追责。
# g4 {+ |8 }$ P/ ^* r8 o2 g3 R这一天的到来,不会比模型的下一次能力跃迁更晚。它可能是五年,可能是十年,也可能更长。但在那一天到来之前,这个产业还会经历更多的"败局"。而这部系列的全部目的,就是在那些败局被重复之前——提前把它们写下来,贴在大模型产业的路口。
% n) F1 L$ N3 p# W0 I6 x, ?+ a# h0 ?
就像二十多年前吴晓波把秦池、巨人、三株、爱多、瀛海威、南德的故事写下来,贴在21世纪中国商业的路口一样。
# V1 \/ q* Z) g$ F4 p; W# p3 E' f
$ ^4 R [( ]' p( u; b
全系列的中心判断
8 T5 e9 ?7 x" u0 d
, M3 l% V3 D/ N4 m- P4 m5 e# P1 {* j* l
上一代企业家把广告、规模和资本误认为商业能力;这一代AI创业者和企业用户,则把生成、对话和推理幻觉误认为智能制度。
# Q, C. i7 h, C% N- ]! }' @0 Q$ s! c! W2 z
全系列的结语, Z/ O0 s7 k/ T0 \1 J, O3 Y
2 b8 X8 X) S1 G9 M: |
& e1 T# N2 R" t7 y. j
大模型不是大败局;把大模型当成神、当成入口、当成员工、当成医生、当成投顾、当成审批员、当成责任替身,才是大败局。
) R3 V& ?) u2 n# z. l1 u0 _而神像是人修的。人可以把它修起来,也可以把它拆掉。
! F$ W6 z. T& K$ c$ |
不是说不要相信大模型。是说:相信一个工具能做到它能做到的,不相信它能做到它不能做到的——这是人类面对任何技术最古老的智慧,也是最容易在狂热中被遗忘的常识。
z% B: W) \' d7 R4 ^- w0 F2 D4 H
% N6 q& u8 k# g1 y全系列完
; H3 e0 J. W, d( ?' R. x' A