设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 5595|回复: 1
打印 上一主题 下一主题

[信息技术] faster-whisper 更快的语音到文字的识别 ASR

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2023-6-4 02:10:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 % L$ h- @( k  Q

+ X, T- [! s3 y* x; _! F  s6 H* @借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。. y. x2 Q( ~. Q
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
  T! T+ x+ E6 R----------------------------------------: U7 ~0 s1 B7 L" H* Q2 n9 G
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。% Z  H- O/ U+ ~) S1 U
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
) B( {. o& E6 f3 c  ?+ W: l3 W3 j----------------------------------------
/ D3 ^8 _! ^4 J/ ]9 D9 Phttps://github.com/guillaumekln/faster-whisper
. V4 ]7 h% X$ T) Q1 _; f安装如下:6 A: w3 w. i1 c- J: h) L! J0 }
1, Windows 10
1 ]: ?1 j% {! U4 s! b, v2, Python 3.10.11  c" V! t/ }' q1 K; F) |1 p! f
3, CUDA 12.1
; ?9 V- P! ^3 h5 K8 N, }0 @- c4, 在python 3 中安装! V' ?- X1 o, D2 S6 A" a5 }
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117: z( W9 g' S7 o' u
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
) I* \/ R- r/ a) E8 ]0 f5,pip install -U openai-whisper2 J! t) l% m2 c" `- g
这是向whisper 致敬,可以不装
( l' M( e7 p+ R6,pip install faster-whisper4 s& F2 N8 N% U% a
----------------------------------------( {- ^, q. D9 Y
whisper 我用的命令行,faster-whisper 我用的是python。
6 {/ g! F' }; J  V' A下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:, n8 g7 a! T0 ]) v# ~

2 `% V; k4 `' J----------------------------------------( u$ |% L; W" C/ j" f# X
9 b% l, m# f  h/ N% X2 M
from faster_whisper import WhisperModel
) [8 ?- }! d5 }1 }0 q! T* T5 v! N  |
& `$ K  h% Y* h9 {2 Ymodel_size = "small"( _9 `+ _8 u7 c  H0 j$ m# ?0 o/ |
! }1 H+ \; Z1 R' m/ u
model = WhisperModel(model_size, device="cuda", compute_type="int8")
) R: j% x0 g2 u, y7 E) }. G4 M& X$ H' G" ]
segments, info = model.transcribe(
' M3 w8 e* z0 m" B, i2 g. W    sourceFileName,
/ L) i) @# G4 k! ]    beam_size=5, ! a8 T3 R+ [1 K) C; E
    language="en", 8 _4 z, [* \% O: a& [8 R4 @! U6 g
    task="transcribe", ( K4 }% O% W0 u" F6 I+ M3 Y
    word_timestamps=True, 0 S$ O( ^1 M8 q+ \/ ]+ D
    initial_prompt = "Hello, welcome to my lecture.")
2 ~! n1 G* f& M% [% h
7 E8 z- W" z$ Pfor segment in segments:
: x. M; f" D, A$ j    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))! W! [( s) ~; j1 k# G( J. Q4 L

+ N, H" N( B6 |5 v9 s9 ]: I! \1 L        for word in segment.words:
8 Q5 I3 ~: E8 Z8 O/ B                ; U5 ^* j8 W& z% k3 ]' Z4 A$ G
----------------------------------------: A; X; Q- h  v, X3 c
$ h8 v1 K. G. k/ x
代码说明:
2 D  k1 k! q$ _+ m! k* [1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。6 W' f) e9 M& ]% C  Q8 G. D' v1 E3 R
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
0 L5 W& ~2 P1 n7 [: J. v, u2,segment 本身是很粗糙的,做字幕勉强能用。/ E4 L% K( C0 P  p" K4 A2 Z* C+ t' [
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。2 D$ Y* t) x' K* u  W+ d0 z0 N
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中# h8 }! {8 _5 i2 E+ k( p6 z3 ?
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。4 T4 P! _3 t& K' @3 N# R# A
5,model.transcribe 中参数说明:3 b0 X: L& I- }3 l7 v. B
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
3 M  F/ d7 X5 M' J3 R4 Q其中. B* q& B% J4 E
    word_timestamps=True,
$ ?/ n1 ?7 `7 C: {" l保证了你能拿到 word,否则是拿不到的; T* x( z) \+ }0 b! ^( j7 L
    initial_prompt = "Hello, welcome to my lecture.")
$ j5 c. T& H' r: O+ L  `) i8 ^, N保证能尽可能准确的断句 punctuation,但是不是决定性的。
+ e1 o) l+ d7 C' O  o7 X2 a. E, \其他参数可参考源文件:5 b, Y0 W' I) Y
https://github.com/guillaumekln/ ... isper/transcribe.py7 `9 K. ^$ A5 f" ~3 W6 x1 }! ~" M
152 def transcribe(
1 _/ p# |$ g4 C/ k从源文件你可以看到是支持中文的句号断句的。
  R5 K9 Z# F4 ?. N- @9 s+ v9 v' L$ h& V( d. h2 @2 ]+ B* o* `
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。3 m/ X! o2 l+ Y9 x
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。5 h# w5 u& q0 F+ p, y" O
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
6 q% E" o4 _5 k! z, C+ T% }* [3 I
  q8 J, F! d& W( H8 X" @* r
/ `9 r% C  N0 f8 L' ^0 Z% Q, @  j5 x

评分

参与人数 4爱元 +32 收起 理由
蓦然回首 + 8
唐家山 + 4
老票 + 12
老财迷 + 8

查看全部评分

该用户从未签到

沙发
 楼主| 发表于 2023-6-4 11:53:23 | 只看该作者
多谢各位榜爷打赏。
回复 支持 反对

使用道具 举报

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2026-5-19 16:28 , Processed in 0.057014 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表