爱吱声

标题: 计算机是如何学习人类语言的——读吴军“数学之美”(1) [打印本页]

作者: 就爱抬杠    时间: 2012-6-24 20:39
标题: 计算机是如何学习人类语言的——读吴军“数学之美”(1)
本帖最后由 就爱抬杠 于 2012-6-26 21:26 编辑
* T. M( c3 Y9 D% V1 J9 c) G  k7 s+ z7 Y+ o3 X" g/ Z- R; v
如果我们要传递一些信息,应当具备什么样的条件和过程?首先应当有一个发送者,其次他有话要说,这就是信息;再次,应当适当编码,是说英语、汉语还是莫尔斯电码?编码完成后,就得找到适当的媒介或者专业点说叫做信道,写在纸上、用电报发出去还是用嘴说甚至用旗语?信道其实是一个很重要的问题,汉语演变到今天,书面语的变化远比口语的变化大得多,这主要是因为书面语的信道从甲骨、竹简、纸张一直演变到今天的电子方式,而口语的信道基本没什么大的变化。有了发送者,当然得有接受者,接受者要做的工作就是解码。然后,信息并不是孤立的,还有一个上下文的问题。
, O: }) S" G5 F4 |# U$ o
! D) F, J4 c5 W; R3 j* K& l& f 发送者、信道、接受者、信息、上下文和编码被称为通信的六大要素,其实人类的语言和通信并无本质的不同。既然如此,也就意味着可以用处理通信用的手段和规则来处理人类的语言。到了今天,这似乎已经成为自然而然的事情,不过科学家认识到这一点,却花了几十年的时间。
# Z/ t0 u6 W; e/ V
, d+ u" G2 w' \4 l$ K2 X. W在漫长的历史里,人们早就自觉不自觉地用到了一些通信方面的知识和原则来处理语言:各种语言一般来说都是常用字词简单,生僻字词复杂;犹太人居然早就发明了用一个字母对应一个数字,纵横各自相加得出校验码的方法来校验抄写过程中的错误。
5 M, e5 G; r, c+ Z% A5 K9 q% `
, Z1 W) [  v7 u9 r从字母到词可以叫做词的编码规则,从词到语言可以叫做语言的编码规则,或者说语法。词的编码规则相对固定,而语法则不然,总是语言学家对大众谆谆教导,这样说是不对的,是不合语法的,试图用语法来规范语言的使用。最终,他们都像那个买履的郑人一样,被世人所嘲笑。语法的作用在于归纳大家都怎么说,而不是教导大家该怎么说。最热衷于语法的无过于学习语言的外国人,他们恰恰是语言能力最差的那个群体。
* D# A( i& Q! {% p2 B/ x5 y" R
) b% }: E9 P# f2 ^6 K2 m4 h在计算机能力还不够发达的时候,要让计算机理解人类的自然语言,人们首先想到的是把语法规则输入进去,也就是所谓基于规则的自然语言处理。一个普通人看到计算机能够理解所谓的“高级”程序语言,会觉得计算机理解人类语言已经指日可待了。但所谓计算机程序语言语法规则明确且没有例外,所有的词汇和上下文都没有关系,这些条件都是人类语言所不具备的。人类语言的语法规则会随着语言分析量的增加而以指数程度激增,很多词的理解需要上下文才能确定,甚至需要一定的常识才能确定。这对学母语的人来说不是问题,对计算机甚至对于外国人来说却是困难之极,这条路终归是失败了。
; |1 v: L2 t- y
作者: code_abc    时间: 2012-6-25 12:33
用信息论处理自然语言目前大多停留在存储、传输上。而理解自然语言恐怕还需要另一套理论。因为信息不等于知识更不等于智慧。
作者: mark    时间: 2012-6-25 14:55
code_abc 发表于 2012-6-25 12:33 3 N( U0 Z: g% u' h& M9 L5 e
用信息论处理自然语言目前大多停留在存储、传输上。而理解自然语言恐怕还需要另一套理论。因为信息不等于知 ...

, O5 I, ^6 ^3 ]8 N9 _0 B  V0 O这个吴军在《数学之美》里面说得很清楚,现在在应用上,追求自然语言理解基本上是条死路。在应用上采用的是大数据量的统计和机器学习来模拟人对自然语言的处理。
作者: 明月回春    时间: 2012-6-25 15:32
code_abc 发表于 2012-6-25 12:33
& n0 G' }# g$ ]: e# s- ^& [用信息论处理自然语言目前大多停留在存储、传输上。而理解自然语言恐怕还需要另一套理论。因为信息不等于知 ...

: k9 @. {, B0 T  H$ @/ R你说的这个是Chinese Room
作者: code_abc    时间: 2012-6-25 17:49
mark 发表于 2012-6-25 14:55 : `! B7 C5 X" U( o( l0 d) V
这个吴军在《数学之美》里面说得很清楚,现在在应用上,追求自然语言理解基本上是条死路。在应用上采用的 ...

# G/ j7 U$ T2 U9 l# F4 u- A2 U有空找来看看,我还没看过这本书呢。
作者: 就爱抬杠    时间: 2012-6-26 21:26
code_abc 发表于 2012-6-25 17:49 0 G1 ^9 a0 J, @6 D4 n5 j
有空找来看看,我还没看过这本书呢。

0 v  x) L3 _, K# z$ m$ I0 g我是一边看,一边写,现在发现只看不写效果不好。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2