爱吱声

标题: 语音识别漫话 [打印本页]

作者: 燕庐敕    时间: 2011-6-23 13:14
标题: 语音识别漫话
第一章
  }& S' D, ?3 e0 g
随便聊聊语言和语音
9 S6 U7 W- l- N2 Q' t- |! O+ k* {9 M- J
语言是什么,语音又是什么?各个百科书上的定义不尽相同,又大致没什么明显差异。
* s& c2 w* N& y0 H
举语言为例,百度百科如是讲:“语言是思维工具和交际工具。它同思维有密切的联系,是思维的载体和物质外壳和表现形式。语言是符号系统,是以语音为物质外壳,以语义为意义内容的,音义结合的词汇建筑材料和语法组织规律的体系。语言是一种社会现象,是类最重要的交际工具,是进行思维和传递信息的工具,是人类保存认识成果的载体。”

4 G# W! G; R& ~0 a
维基上则这样讲:“语言是一套共同采用的沟通符号、表达方式与处理规则。符号会以视觉、声音或者触觉方式来传递。”
# s) q/ d8 l6 H5 z; Q; u
而互动百科上说:由于研究方法和角度的不同,人们对语言的定义多种多样。有代表性的说法就有几十种。
9 ^0 @- d: p8 N" F! P
无论如何,语言是人类创造的,用以承载和传递信息的工具。这个对于语言作为工具性描述的定义,包括人类创造的非自然语言(如世界语)和机器语言,也都符合要求。虽然,这个定义没能涵盖语言的其他功能。

! }+ G; f& n& P, Y5 e. C$ @+ o* y
语言是怎样起源的?现在没人说的清楚。中国的古代文献里只提到仓颉造字,也不知有没有文献里记载语音的产生或者探讨语音的产生。我不是这方面的专家,还请老丁,太傅,张王,虎老师,江城等诸位国学深厚的大拿说说。至于西方,也并无类似记载。有记载的唯有中东的古埃及时代。

. `3 l5 q4 N+ G
在古希腊史学家希罗多德的《希波战争史》的上卷曾记载有这样一个故事:公元前6世纪古埃及努比亚王朝那个驱逐了亚述占领而复国的名叫萨姆提克一世(或者几世)的法老,他很想知道哪种语言是世界上最古老的语言,于是就把两个初生的婴儿送到与世隔绝的地方喂养,严禁任何人在他们面前交谈。两年后的一个早晨,这两个孩子突然手舞足蹈地喊出了“biex”这个词。法老派人查访后,发现腓尼基语中有发音和这个接近的词,意思是面包。于是法老就宣称腓尼基语是世界上最古老的语言。如果这个故事是真的,那它告诉我们,古埃及人对语言 的起源问题很早就有兴趣,并用他们想当然的方法进行了有趣的探索(岑麒祥,1985)。希罗多德的下卷记录希波战争很是确切,但是上卷类似随笔,记载各地风土人情,传闻轶事,所以这个我以为算是孤证,因为这件事距离他本人也有近百年了。

) P& @$ n/ F) @* _  B! z( g( L0 e
从两千多年前的法老到十九世纪,各种关于语言起源的理论非常多。比如有人认为语言起源于原始人劳动时发出的声音(唷,希呵理论);或模仿大自然的声音慢慢建立语言(叮当理论);还有认为是模仿动物的叫声开始的(Bow wow理论)。这些理论多数没有什么科学价值,也就是把科学的东西和宗教,哲学的混在了一起,而且在方法上也是用哲学方法推测,不是科学方法实践。这些说法都是不可能有反证的,因此也没有被证明的可能性(王士元,彭刚,2006)。几百年来许多哲学家和语言学家耗费大量精力来研究这个问题,事实上倒是阻碍了语言学的进展。结果1866年法国语言协会订立了一条规则,不接受有关语言起源的报告和文章,此后多个语言协会也订了类似的规则。结果,此后100多年,没展开过什么语言问题起源的讨论。

  V/ W. L; g  k" q  ?9 B6 Q
下面说说语音。

作者: 雪个    时间: 2011-6-23 13:25
回复 燕庐敕 的帖子
" q7 F9 F3 x* p$ i3 Q: s4 c! ]# K! A( b
这个怎么发这里了?似乎发“原创精品”那里更合适些
作者: 燕庐敕    时间: 2011-6-23 13:27
回复 雪个 的帖子
( J3 l  s+ ^* y; k
$ {' c2 N" z( ]: z+ |5 I8 P: n发错了,应该是科技探索那里。太傅能不能给转版?
作者: 燕庐敕    时间: 2011-6-23 14:31
回复 燕庐敕 的帖子2 y- K3 p# x9 u; z0 d5 K

  O1 m2 ~0 E' Z1 e8 i" e能转到哪里算哪里吧。
+ N3 z' a6 B3 l" ~" _! i1 d; f# ]) ^. w# J
这个才开始写,当年答应你和仙人的。俺没有说话不算,就是太拖拉了---那年是2007年。* J. F2 ~( B7 i2 y
% C: t1 I6 r" Q& A7 t
杂七杂八写了一些类似八卦的棋手的故事,放在哪个版面好?
作者: 穿越    时间: 2011-6-23 18:31
回复 燕庐敕 的帖子
% q4 i4 \6 z: S6 \$ A& m8 m
* I) H3 _9 h/ P0 W5 {8 m: ^: o欢迎老燕 !这篇移到原创精品好,那里挣钱多。
8 Z. w& A# ~2 w" O8 A2 ]2 P% Y! N/ e. L5 R! P8 D
好像有个理论说语言的出现极大地加快了人类的进化。
6 T7 r8 D) N# \+ {$ f
7 x2 V6 n4 \; h4 M. f/ s3 H+ F+ \1 x$ t
作者: 张声语    时间: 2011-6-23 19:20
啊,特别想听这个!
作者: Radiohead    时间: 2011-6-23 19:29
坐等后续帖子。5 O$ @" v9 y) q' u2 i/ B1 r. P
3 b  ]% t! T$ f0 Z8 p/ `! k/ w; S9 ]
李开复做语音很强
作者: PenPen    时间: 2011-6-23 21:20
回复 燕庐敕 的帖子7 ]7 a9 U' L% y: [: B( ^3 y

0 k, J  i* E" [1 L$ D会涉及到基于统计的方法么?想听听老燕的看法
作者: 履虎尾    时间: 2011-6-23 22:17

7 V1 [( G. y- V, t3 j等下文
作者: 燕庐敕    时间: 2011-6-24 08:55
回复 Radiohead 的帖子6 H3 E3 Y* O5 S) O9 W3 g
  c' N, `1 K  c, S: n! m
李开复在真实意义上,就是用统计学实现语音识别的第一个成功实践者。
作者: 燕庐敕    时间: 2011-6-24 08:56
回复 PenPen 的帖子! r0 F. l4 x( D4 l4 B

6 u/ e. `7 E4 r+ p: R5 w! p当然,绕不过去的。
作者: 燕庐敕    时间: 2011-6-24 09:00
回复 穿越 的帖子8 s; {' U1 W" T* Q" F8 z! `

% o4 q$ K' j/ w师弟好
作者: 荷子    时间: 2011-6-24 09:55
回复 燕庐敕 的帖子
% f: m. D6 Z/ ~: |" q8 \0 L
9 k: c" Q3 o9 O支持老燕
作者: 赫然    时间: 2011-6-24 22:12
回复 穿越 的帖子
* C* U' u% z2 e- w  ?9 Z
% k8 V" d& o  m9 U" c% e我想也是的,应该可以极大地提高人和人之间信息交流的速度。- B1 M) p& [& i" O
4 c5 N  q- M7 Z3 `0 D) Z
而文字的出现,提供了信息保留和复制能力。
7 d, W( A7 v7 B" D" C8 A7 s/ v' z8 j7 X
互联网和数码化,提高了信息交流,保留,复制,还有检索的能力。
作者: darkingwing    时间: 2011-6-26 02:12
回复 燕庐敕 的帖子* l+ A0 ^: S! s4 [' q2 x% e0 |0 o

- B' b6 j. g' X5 U, b) ]人类的语言功能由两个重要的基因开关决定,而会用叫声表达特定对象的动物在自然界也不少, 所以哲学家和语言学家不了解生物进化史是不行地
作者: 煮酒正熟    时间: 2011-6-26 04:53
赫然 发表于 2011-6-24 22:12 8 X4 a+ l# z: a5 i& s3 W
回复 穿越 的帖子
: Y) g, Y/ e; {8 |
0 l1 k9 l2 V1 A6 d我想也是的,应该可以极大地提高人和人之间信息交流的速度。
1 u* X8 `$ A+ h  F  [
小赫,俺觉得,之所以语言的出现极大推动了人类进化进程,恐怕跟语言对人类大脑的积极反作用有关。或者说是:人类大脑进化到一定程度后发展出了语言,而一旦出现了语言之后,它的不断发展又反过来给予大脑的发展以极大的助力。这大概有点儿象经济与金融的关系(当然,金融对经济有负面作用,而语言对大脑似无负面作用)。
8 o8 I5 Y+ k$ H) y
2 Y  w, Y. i! L6 N# t% l俺胡抡一下,借以欢迎老燕!
2 Z/ w1 _  W& m3 T' G7 E
作者: 赫然    时间: 2011-6-26 05:13
回复 煮酒正熟 的帖子# B5 N: }/ f0 O8 W

# {! j7 R' J3 ~5 g这个角度有理的。
1 ?# J. }# [, {4 K1 Z5 n3 S9 G: J$ e( Z  T  \) I
在对老年痴呆的治疗中,语言训练是很重要的一部分。
作者: 燕庐敕    时间: 2011-6-26 23:06
回复 darkingwing 的帖子
5 x3 ?- @( L) y) o
0 _; k5 K/ R3 L: N6 |5 {这个展开就太广了。基因决定了可以发出复杂的声音到人类学会用复杂而抽象的声音表达复杂的意思,这个课题恐怕远远大于语音识别。我没能力在这里探讨这些。
作者: darkingwing    时间: 2011-6-26 23:49
回复 燕庐敕 的帖子
8 U6 q% Y5 w+ D1 [4 h  k; ~% ~  E: O# s8 C! N4 J- X6 A) Q/ U' |6 H6 m
中文的语言识别几年前据说效率差强人意,不知道现在进展如何,英语似乎已经解决了
作者: 燕庐敕    时间: 2011-6-27 12:43
回复 darkingwing 的帖子) B, c' M2 a% y! n+ R* A! a

. O7 R# d/ f  R: q慢慢往下看,我会提到的。
% r& Y5 x2 @: h( Q$ s$ d2 D( C% ~
; o$ l1 C. H" b% Y) o8 x- L1 J7 M这个不是我的专业,是家里领导的。不过20年了,真就是没吃过猪肉还没见过猪跑吗?
作者: 暗夜雪武    时间: 2011-6-27 12:59
等着看语音啊
作者: 燕庐敕    时间: 2011-6-27 16:32
回复 暗夜雪武 的帖子  ]3 V8 b( h& \) y# {+ x! c) W
2 n* g- @- p( B6 R5 Z
没写好呢,慢慢来。
作者: 定风波    时间: 2011-6-29 08:26
回复 燕庐敕 的帖子
/ h+ e/ e! R  [' s" W7 j4 n* H$ \: y8 d4 e9 d
深入的不知道,微软的语音识别现在已经很好了,据我所知有相当部分的项目已经进入工程阶段,从研究院转了出来。上次看了他们的私下展示,似乎搞研究的那帮人正在攻克中文的方言,反正在云上跑的服务对新闻类节目识别率已经接近完美了,现在的问题似乎是性能不行达不到接近实时的级别,要用几倍的时间。
作者: 燕庐敕    时间: 2011-6-29 09:18
本帖最后由 燕庐敕 于 2011-12-2 21:31 编辑 " D% M$ x8 X6 X& |4 e$ u
$ J% n  u9 ]% j. v
回复 定风波 的帖子
) L$ m* f3 U" Q9 Y, x* n2 e
# `  q0 [: E5 ^0 P: C微软收购Dragon之后在语音方面确实进展很大。
( `( r7 S4 Y) Y# z% F
0 y2 [- p5 ~- \! ]6 h3 x当今最好的是合并了野火之后的Nuance,他们的英语语音识别已经商用化多年。
9 `+ i) l3 U$ k3 L
4 ?" [+ k' {  D. R国内他们也进入十年了,主要是和华为这些方案商合作,卖端口。( G; v. [+ Z  u. I9 |8 B; T
+ H. w( Z4 J* U6 {2 m
现在也力图与银行机场等合作。遇到的最大对手是科大讯飞。( x" a2 H! F! n$ h1 X
0 Q" c7 Q0 g9 G  O' x
方言与普通话或者英语或者其他什么人的语言在实现上没什么区别。最主要就是大字表和字库的训练,还有句子/词的切分。训练的越多自然效果越好
作者: yu20022002    时间: 2011-11-25 18:58
支持下。。。。。。。。。。。。
作者: fish197    时间: 2011-11-26 00:12
老兄,这个太好了,谢谢。
作者: tangculiji2003    时间: 2011-11-28 09:24
长见识 唯一的一名游学生回帖 有点害羞啊
作者: 小卡    时间: 2011-12-2 18:32
当这两个月看足了SIRI的神奇,再回来读老燕的文章,格外有趣。
作者: 梦晓半生    时间: 2011-12-5 01:57
下面呢?
作者: 黑JK    时间: 2011-12-6 20:20
电子技术的突飞猛进,将庞大的数据基于云的快速检索~实验室还是相当可行的
4 s* K& d7 D) q% T! ~. d6 e现在更重要的无线传输的问题,利润的问题
作者: 明月回春    时间: 2011-12-6 21:30
总觉得语音识别和输入法的内核几乎是一样的。只不过语音还要先把自然音转变成数字信号。内部都是隐含马尔科夫链。真正的先驱应该是IBM 的 Fred Jelinek (贾里尼克)和卡内基·梅隆大学的 Jim and Janet Baker (贝克夫妇,李开复的师兄师姐) 。他们分别独立地提出用隐含马尔可夫模型来识别语音,语音识别的错误率相比人工智能和模式匹配等方法降低了三倍 (从 30% 到 10%)。。八十年代李开复博士坚持采用隐含马尔可夫模型的框架, 成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。
作者: 抱朴仙人    时间: 2011-12-16 05:40
哇!终于动工啦?这可是个计划已久,光光预告就出了三四次的大作呢。期待期待,搬个小马扎坐下听讲
作者: 燕庐敕    时间: 2011-12-16 11:40
抱朴仙人 发表于 2011-12-16 05:40 - r1 [3 M* p+ A; @5 d! }
哇!终于动工啦?这可是个计划已久,光光预告就出了三四次的大作呢。期待期待,搬个小马扎坐下听讲 ...
3 t& Y  e2 b4 O, X$ J$ k
就是您老和雪太傅的那个“文科生也要能看懂”的光辉指示,害苦了俺也~~~~
作者: 包子    时间: 2011-12-16 21:11
上次玩微软的语音识别,读了本古文观止,顺利的识别了 “郑伯克段于鄢”,吓的我够呛!
作者: 燕庐敕    时间: 2011-12-16 22:42
包子 发表于 2011-12-16 21:11
  m2 L/ F+ p5 _. H上次玩微软的语音识别,读了本古文观止,顺利的识别了 “郑伯克段于鄢”,吓的我够呛! ...

2 G9 G* \& Q* v8 @% W5 D, F7 e微软在1990年代之前并无专门研究语音的部门。后来收购Dragon之后,在微软研究院也开展的这方面的工作。
- P9 t0 y1 \, s# h3 s3 _# U% X' L" }! i7 U
当今技术大概算第二吧。
作者: jufeng    时间: 2011-12-22 13:56
燕庐敕 发表于 2011-12-16 22:42 5 P3 c4 P1 ?+ z6 \( X1 S2 W
微软在1990年代之前并无专门研究语音的部门。后来收购Dragon之后,在微软研究院也开展的这方面的工作。
; e. W/ x4 x* ^. U; P) L
. d& j$ e3 O" |, ?: y ...
) l+ y/ L% R+ [3 K
等待戈多,  哈哈,不是了,  等着下面...狐狸的那个精油帖明显没有你的技术难度高...
作者: PenPen    时间: 2011-12-22 15:42
燕庐敕 发表于 2011-12-16 22:42
' j; @  }: f! G2 h( v2 {( X; F+ K微软在1990年代之前并无专门研究语音的部门。后来收购Dragon之后,在微软研究院也开展的这方面的工作。
) F* e# v! S8 S' Y8 A8 I! T9 v
, ?2 g! {9 M% o6 r' u ...
/ w; N+ X& _9 H* U1 E3 p/ w3 k1 z
研究院那帮人是不是都专注于发paper去了?tellme做得这么烂,被siri甩的好远了
作者: 燕庐敕    时间: 2011-12-22 15:54
PenPen 发表于 2011-12-22 15:42
4 }4 o2 B1 x) V* a! O" n' W8 A研究院那帮人是不是都专注于发paper去了?tellme做得这么烂,被siri甩的好远了 ...
, ]3 g7 M2 F' ~- s1 J& N
这个么,应该问张亚勤,不是问我。
作者: 洗心    时间: 2011-12-23 04:44
这个是师兄的老本行啊。
- f3 |$ L$ L& D/ I' ^
6 @  `. b7 {9 Y& U1 V& d5 E' j/ p一直想找一个比较好的汉字语音识别的软件,把语音自动转化为文字的。请问师兄有什么好推荐的?
作者: 燕庐敕    时间: 2011-12-23 08:43
洗心 发表于 2011-12-23 04:44 4 C+ L% O3 R: g: z, V
这个是师兄的老本行啊。
! N3 u* f+ x0 M. t5 u) n
# m$ P4 L% P% o' A0 Q一直想找一个比较好的汉字语音识别的软件,把语音自动转化为文字的。请问师兄有什 ...
. y- O6 r, a/ P& d, e1 A
师妹,这个真不是我的老本行,是家里领导的。我算是没吃过猪肉,看了20多年猪跑吧。" Y* p2 p6 a" z# o$ c3 `5 K/ D

3 d: [2 A8 w6 _/ L/ T9 k2 p! C0 y9 p具体的,面向个人的汉语语音识别软件,我还是回家问一下你师姐吧。
作者: 武宜子    时间: 2011-12-23 09:54
很有兴趣读,等着下一章。
作者: sunlion    时间: 2011-12-26 17:23
搬小班凳期待,进入这行也有些年头了,很想看看别人眼中的语音业界
作者: 潜了又潜    时间: 2012-1-10 17:32
等了好久老不见下文,等老兄手头事都处理好,闲的无聊时写写?
作者: 茉莉    时间: 2012-1-19 23:11
甚麼時候有下文?期待
作者: 燕庐敕    时间: 2012-1-19 23:18
茉莉 发表于 2012-1-19 23:11
% |5 I# Q: i8 v甚麼時候有下文?期待
6 p8 V! L8 U, x( A
我也不知道。
作者: dfandfan    时间: 2012-2-9 00:02
ibm曾经出过一个via voice,有用过的大侠么?给评价评价?
作者: 西楼客    时间: 2012-3-5 23:38
其实以前用的语音输入很好,虽然开始错误多,慢慢软件习惯了口音之后就快多了,可不知道为什么,后来就没人用了
作者: 就爱抬杠    时间: 2012-3-7 17:15
啥时有下文?等得花儿也谢了
作者: 燕庐敕    时间: 2012-3-7 17:17
就爱抬杠 发表于 2012-3-7 17:15
( k* E/ z0 q' d( h+ w啥时有下文?等得花儿也谢了

* N5 w7 J, `5 U# B我现在还没稳定下来,还在找工作,诸位可不可以有点同情心,同理心?!
作者: 西伊    时间: 2012-3-9 17:27
燕庐敕 发表于 2012-3-7 17:17
9 \8 i/ w3 M! |. N我现在还没稳定下来,还在找工作,诸位可不可以有点同情心,同理心?! ...

6 \" B. B" G2 Q  `5 \1 h请您慢慢填坑,别忘了就成。
作者: komicjack    时间: 2012-3-27 12:15
燕庐敕 发表于 2012-3-7 17:17
8 c5 t: m$ u9 s" G: f$ z8 U: \5 L我现在还没稳定下来,还在找工作,诸位可不可以有点同情心,同理心?! ...

4 `; y& l* }" I* @+ r转眼又是20天啊,不知兄长工作找的如何了?可有满意工作?。。。呼唤填坑,一月份做的语音识别的行业投资分析都快结项了。。。
作者: daxiang    时间: 2012-4-15 21:28
明月回春 发表于 2011-12-6 21:30 1 n4 x" _: u! x" {0 A# e
总觉得语音识别和输入法的内核几乎是一样的。只不过语音还要先把自然音转变成数字信号。内部都是隐含马尔科 ...

" p8 s% |0 H' M3 @! pCMU 的 Sphinx原来是李开复开发的呀,这个库到现在好像还在更新,没想到居然有这么久的历史。
( p% B! c2 J. \6 C" {hidden Markov model(HMM)在gesture recognition(动作识别?)领域也得到广泛应用,而且很多算法用的框架就是语音识别移植过来的。最近在看这个,数学不好,看得很晕。  s! f' e! V' T" L" P. ]
静候下文。
作者: 小剪子    时间: 2012-5-1 20:30
燕庐敕 发表于 2011-6-24 08:55 - {1 o1 Z0 R2 z& \" `; Q
回复 Radiohead 的帖子
# h% E. ~6 }0 t) E) S7 C
0 o( Y/ u. B" j2 i& p( Z李开复在真实意义上,就是用统计学实现语音识别的第一个成功实践者。 ...

2 Q9 R1 y" V+ V: n8 [# D/ y# O8 V- v有幸参加过当年微软Vista的语音测试项目 早期名叫做Hoolie 就是大家现在能在Vista 和 Win7上面能看到的自带的Windows语音识别 这个项目的最高负责人当然就是李开复了




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2