设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 5706|回复: 1
打印 上一主题 下一主题

[信息技术] faster-whisper 更快的语音到文字的识别 ASR

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2023-6-4 02:10:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
( B/ r7 ~  d2 z! R/ `% E2 e: ^$ h, f" k4 ?( ]
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。& l4 j2 T. ?' \2 S
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
& S7 A1 e: r+ u! W8 R& G----------------------------------------
# U9 z. y) f$ U! T% P5 Z; U显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。9 R. J0 T7 B0 G5 K% ]. @
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
  q7 U) T' v& z* Q2 e1 T; Q5 q----------------------------------------, R  @, ~- I- M2 |" J+ D8 I
https://github.com/guillaumekln/faster-whisper
5 O: B, k  j, }8 T# C% j) q安装如下:
/ N7 V4 }& [$ @3 p! @1, Windows 10
! Z1 t7 e) |9 X9 x& B( S2, Python 3.10.11
, s* G. l3 E  A. G3, CUDA 12.1
& N. N% e9 W4 r4, 在python 3 中安装; H- D$ `! t  @
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
* J) x4 D/ @. R+ R9 N这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。7 o/ e* Y/ W% V9 ~/ `$ [) w. E6 d# ?
5,pip install -U openai-whisper0 ?' M. r$ r, f7 f# O1 X) n! }
这是向whisper 致敬,可以不装+ W6 P) n( O5 r1 T( x
6,pip install faster-whisper& B4 z+ K; L* O
----------------------------------------/ ]& q8 V0 J. Z& V6 J9 p7 x
whisper 我用的命令行,faster-whisper 我用的是python。
, D% o0 R: ^7 l9 z/ Y下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
% c7 R; E  \, z3 M4 S6 |3 L9 N6 ]
8 ~1 X' V: _8 o+ m----------------------------------------( O! |9 Q9 Y5 d) p5 l+ w2 n

3 H$ {5 b- E# s$ xfrom faster_whisper import WhisperModel/ X" G3 b4 q0 j0 J1 |

5 d% J/ i4 n4 Q' P- t; j# Tmodel_size = "small"; G5 k4 d5 B8 V4 P$ W& H! }0 J

; _8 a& \$ {5 W3 G& d' Vmodel = WhisperModel(model_size, device="cuda", compute_type="int8")$ m, w8 R- [. o4 Y& \/ B$ l
3 V; u. k: Y- p
segments, info = model.transcribe(
! B3 `9 A! V6 |9 d2 L! t! q    sourceFileName, : `  n& J# ^; j2 F3 l0 H& F
    beam_size=5, . _9 x* q' C& g3 I7 \# K
    language="en",
& u/ {) d& O- P2 s5 `/ l, ?7 \" W6 ]    task="transcribe", 3 h/ z# }0 R1 l" v; h
    word_timestamps=True,
' E( ]; ]0 O5 d- t/ B5 W& b    initial_prompt = "Hello, welcome to my lecture.")8 C4 f+ j0 d! n  t. d, D4 j* e" n

. T! X7 z1 H2 Z. @$ ifor segment in segments:
4 E/ h) D  Y: k5 W8 a2 Y2 r1 y    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))( W& J9 W3 C* O) R& B/ P  J

8 I! Y3 h) M5 _! m0 N, v        for word in segment.words:( ~; ^9 i) M8 x2 V* a
               
, s$ M- P! M- X! B# y0 ]----------------------------------------
4 G7 A9 S" u0 Y' s( |; R/ c
/ \3 c6 |3 H6 q: Z4 A. T( |代码说明:- J- C% [$ N$ K
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
8 J$ }3 |+ R7 W0 a但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。( M( `1 t0 n- ^! h
2,segment 本身是很粗糙的,做字幕勉强能用。
& x  a) T0 V0 x+ ~2 ~$ d/ A3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
0 R4 g2 O: D/ L" W0 p5 e4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
7 R+ t7 }; N( Y3 U6 u, M比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。3 `, P) b4 \% X2 l) F6 L+ P
5,model.transcribe 中参数说明:
3 M* K9 J" m4 z" ?" F你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
' {+ y5 q8 ?  z其中
1 l% r- i/ y/ v1 X' P. N! W, o    word_timestamps=True, $ F' V  ^% Z# W
保证了你能拿到 word,否则是拿不到的
8 S. H9 N6 G! G* k6 e    initial_prompt = "Hello, welcome to my lecture.")
4 L1 ^7 D( ~4 q3 M: z3 J保证能尽可能准确的断句 punctuation,但是不是决定性的。1 I2 o) s; w" w9 b- D8 _" H: U
其他参数可参考源文件:
( v6 w; r3 z* j5 L& T( n1 Yhttps://github.com/guillaumekln/ ... isper/transcribe.py
* S+ W6 F; i" Q( j152 def transcribe(
- R$ T' a( u0 ]2 e+ S# b3 @1 n2 N从源文件你可以看到是支持中文的句号断句的。
, }- J# c8 I+ [1 a$ d3 m( k
0 u# }, n! G' m/ x( ]* R. D6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。! e( q8 T) o; u" B+ x
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。. n4 D6 k6 P. I5 x) L( g
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。" l; P8 z  X* d! N9 a# G" s" [
9 a+ K. x# W* Z  Y

3 T( R* W/ D7 Y. ?
* k0 [9 X$ [5 q! t

评分

参与人数 4爱元 +32 收起 理由
蓦然回首 + 8
唐家山 + 4
老票 + 12
老财迷 + 8

查看全部评分

该用户从未签到

沙发
 楼主| 发表于 2023-6-4 11:53:23 | 只看该作者
多谢各位榜爷打赏。
回复 支持 反对

使用道具 举报

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2026-6-18 16:12 , Processed in 0.056314 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表