|
|
本帖最后由 晨枫 于 2025-7-5 13:28 编辑
7 h8 n- }; {3 P) k% k7 O: q/ P4 Q( }
据说中国东北和贵州在发展数据工业,很有意思。这会成为中国的新兴经济增长点吗?" [- w! P2 O: a f+ k
9 N9 f: D4 b! r1 U3 W& ~
AI是未来科技增长点之一,发展前景不可限量。但在可预见的将来,AI还是数据驱动型的。也就是说,从人类活动的已有数据训练的“归纳型”AI大模型为主,而不是只基于有限数据、以AI模型自身逻辑推理为主的“推理型”AI大模型为主。理由有两个:- A$ w7 e6 `1 V
$ r- K+ o3 e8 D7 d7 Z n& y1、人类活动积累了海量数据,能做到“模仿人类、有限推理”已经是非常大的突破,就可预见的将来,天花板之高目视不可见,根本不用担心触顶- e: g3 R$ K6 Q0 \! _/ d9 x6 S
2、人们对人类推理机制并未有足够深刻的理解,模仿深入不下去,让机器推理独立于人类推理独立发展有太大的失控危险,步子不敢迈得太快1 T; t$ K$ y$ H3 m1 N5 E* }
0 ]# E! V# t0 K* R: GChatGPT、DeepSeek等现在的主要数据来源是书籍、网络等公开来源。书本知识只能是“一般智能”,网络数据鱼龙混杂,还有因果混淆的问题。比如说,到底是观点带动舆论,还是舆论凝聚成观点,这个因果性不搞清楚而不分青红皂白喂进模型训练的话,训练出来的模型就跑偏了。真正形成生产力的AI更是需要依赖大量专业数据。各行各业都有海量数据,他们自己根本没法AI化,但专业公司也有局限。7 \* q7 o6 t# Y% L
" j9 v% ^! b+ B( L4 T' W, j专业公司对AI模型的技术细节熟悉,熟谙训练中的各种技巧,但对数据预处理不在行。大数据的前提是“数据中自有颜如玉、黄金屋”。但要是数据中垃圾遍地,甚至邪压过正,那模型训练就是“垃圾进、垃圾出”。弄来一只嘴巧的鹦鹉,但总是教鹦鹉脏话,鹦鹉就肯定脏话连篇,因为鹦鹉是不知道好话、脏话的,学什么就说什么。AI专业公司就是那只鹦鹉。
0 N+ U# A0 a% t- d) S2 F- m# M
& K6 R: q( t" H# A- ~其实没有“好数据”、“坏数据”,关键是什么数据都要标注明白这是在什么情况下得到的,然后训练的时候就可以把情景数据一起放进去。这样的模型比单用“好数据”训练出来的更加有用,因为不仅知道正常时候该是什么行为,在已知的异常时候也知道该是什么行为。异常情况分已知异常和意外情况。在工业上,已知异常包括产品转产、设备开停车、检修(还要分清检修类型)等等,真正需要“抓出来”提出警示的是不属于已知的意外情况,以为正常或者处在已知异常状态,实际上跑偏到不知道什么地方去了,这才是要特别注意的。意外跑偏大多是坏事,但也可能是好事。商务数据分析里,发现意外跑偏就是抓住新苗头的开始。+ N1 A3 J2 `5 p! Y; g8 @# N
* y& y$ V7 U, Z: W% `" O- Q: ~ I但专业公司的人对于具体行业数据里正常、已知异常不懂,行业里的人来做数据预处理最好,但实际上他们根本没有这个时间。这又不是他们的主业,人家还要正常生产、科研、该干嘛还干嘛。这就是中国优势可以发挥的时候了。
6 F; r) ]8 ~3 j$ Q0 r1 H6 n$ Y
' G; X6 a! Q, n( x中国现在每年毕业约1000万大学生,其中理工科不知道具体比例,假设一半吧,这也是500万。现在找工作不容易,每年这500万中有100万人找不到工作的话,就是很大的社会问题。
* S8 V. E( Q: M) @$ s9 U( J+ ?, R) J
但是换一个角度,他们受过基本的理工科训练,从事数据工业的话,具体项目知识由用户公司集训2-4个星期,在很多情况下就可以胜任基本的数据分类、标注工作,然后就可以放手让他们去干了。可能会时不时需要再咨询用户公司的有关专家,这人家应该乐意配合。这样,大量的行业数据需要大量的理工科人手从事数据预处理,
+ A$ {# n8 f$ e
# @! R( |6 D. ^这些理工科人手不需要太专深的专业知识,只需要对相关工业有足够的一般了解,并得到具体问题的集训提高。还要坐得住,耐得住寂寞,因为他们的工作结果是别人的开始,他们自己是看不到结果的。但这是“劳动力密集”产业,需要的初级理工科人手不是三五百、三五千、三五万,随着AI工业的发展,这可能是几十万、几百万人的大规模,而且需要处理的数据在可预见的将来根本看不到头。中国和外国的公域数据已经海量,中国还有海量的私域数据。由于数据安全和不得出境,这活还只有中国人干得了。当然,同样的理由,外国的私域数据中国人也接触不到。
$ T" \" _- U1 U
1 G; Q9 C9 r8 }/ z; v6 W# S. _' A几乎所有公司在这几十年和更长时间里轻易积累了多少TB甚至PB的数据,还有海量的非数值数据。现在有一些以统计甚至AI为基础的辅助工具,还有自然语言输入工具,但驾驭这些工具依然需要理工科人手。同样,不需要太专深的理论基础和经验,但不能是“理工盲”。+ A' H3 t+ u/ l# u6 `' l1 O
, ^9 e' @; _0 ]. L数据工业的数据集可以来自具体项目和具体公司,也可以是广泛收集的行业共享数据。有的时候,行业成员有动力共享技术和商业数据,供跨越具体业界公司的行业测评(benchmarking)公司使用。一种做法是只公布最后统计分析的结果,这样谁都可以自己和行业标杆相比较,比如能耗、劳动生产率、单位排放、资金周转速度等等。只要数据里不包含具体公司,就没有泄漏商业机密的危险。另一种做法是连部分原始数据都提供给参加测评的成员公司,同样抹去具体公司信息,供成员公司进行自己的分析。
4 l7 I& m; _3 I, E$ z/ n7 a- q+ N% q& R4 k& {
类似的做法可供AI-数据工业借鉴。6 x" E5 \% x/ V; \& O' X
& O/ }0 ~+ r8 R3 V: w
这只是在“进”的一头。AI模型训练完毕,还需要模型测评,确保如何实际。这里,再次需要大量初级理工科人手,他们甚至可以来自数据预处理的同一批人。3 P/ _5 \& @, ~0 _6 E# \
, h3 h' W5 H: P0 B! m( k6 g
对于中国来说,发展AI-数据工业还有一个好处:无所谓地理条件和自然资源,不需要多少基础设施,有电,有网,有吃,有住,就够了。传统工业陷入瓶颈的老工业城市,水电交通发展起来但还是缺乏增长点的三四线小城镇,都是适合数据工业发展的好地方。老少边穷没问题,东北老工业区、黄土高原上、吐鲁番果园里、沿海发展中心之间“被遗忘的角落”都行。贵州等地已经在大力发展数据中心,但这只是数据仓库,存储大量“数据矿石”。数据工业好比冶炼厂、化工厂,把矿产和资源转化为中间体,供最终制成品工厂使用。- L+ B0 U7 A/ M% `
- C: S# j9 u" U2 w" V5 x数据工厂那里能吸引足够的年轻人吗?哪里都有足够的年轻人,愁的是没有足够的高质量就业机会。数据工业未必是发大财的行业,但比排队考公不会差。
& j% K( Z# F% M6 w- K) |! S! d! r& Y; x, q0 P: g# t
入门门槛不太高,不是非985、211不可,入门后还适合自己拉出来单干,客户大小公司咸宜,适合远程和网络化办公,发展天花板很高,发展潜力和速度很大,还等什么?$ s; v$ a2 n. }' {! X0 U
& c$ t v% z* X( k
当然,滥竽充数是不行的,糊弄事害人害己,但认真做,这是值得重视的新赛道。 |
评分
-
查看全部评分
|