|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
, Z7 p2 r# t6 `# K" O' @
0 X0 |/ U- U; N% N: ~已经搞定.$ X8 S0 v3 Z- z/ K/ ^
# H# j3 E" H( R: F: g% Q首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
7 X# g5 H# p9 s: M1 z% ]2 B+ u7 R# K: M* Z9 H
1, python + pypdf 按章节拆分小的PDF
% g' Y( P0 G: f, `, h# j
: ^% W0 _, A$ l: x2 T5 N# i2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
* r* W6 g! P* D& K# |& M( p% i3 y$ Q5 z( `: ^ V
得到text file
' s/ z( k- m/ o0 n Q: v, ?1 f$ h' B6 S) Q9 G% y9 e( C
3, python 读取整个outputfile,丢给deepseek 矫正。
6 E4 N, K/ O0 I; d$ y* n3 [- {+ z+ h- B ~8 L1 z: N# X
模型是 deepseek-chat( \: f8 o% ` b; |! J t. X% N1 g
7 A' a5 J/ _" A6 i* ?# K: U
max_tokens 最大是 8192,别的不用改。
* m# W3 ^( m" ?9 a
0 ~8 C3 b2 ^/ u4 E y9 J参考:' O7 W% {. ~$ }: N" w
https://api-docs.deepseek.com/api/create-chat-completion+ [4 _2 _& `2 H. E
, t( f5 E- K2 d% w; g9 k" U4,费用:
/ Z8 L& g& F' t8 } G6 l9 l- x- S, X0 _8 Q
实测:5 G8 R2 Y3 L8 R/ ~2 n; ^( h
. ^; _3 G5 L. f0 v- k. u& y0 |
296K 字母,用了 9 美分。
( C9 s3 L e& b R5 |) F' ~ b0 A. \+ j7 t9 I2 c6 J
英文字母 到 token 用量大约 1/3# S& \* j; M6 R2 ]+ s5 e
* m% G4 A# z5 |: o( B! W
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
3 h- ^8 |. m9 }0 t1 q0 }0 U; [. N; ]
32899 个字母花费 11782 tokens,包含输入输出的 tokens: ^/ r+ F9 Q5 m @. n$ ^# |! T$ n
/ n5 }! Q3 a! _' V5 O! |. l
价钱,非常非常便宜了。
/ v O" k, W' g6 M1 e {' D7 T4 R
% ~8 ~: \" z# t8 v参考如下可以计算,懒得算了。6 \7 C# @0 V" J8 M" O7 A, D
9 n u- O3 Q9 @1 q: V
https://api-docs.deepseek.com/quick_start/pricing
" E e# T7 G$ S! @% F' k: x0 L7 j+ S5 k! k% c. E Z' X
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14; x: _8 c& h+ ~( [4 O& h: L l
1M TOKENS INPUT (CACHE MISS) $0.27 $0.558 M/ I. Z- }8 V/ [0 |5 Z
1M TOKENS OUTPUT(5) $1.10 $2.19% ^, V* m: L [2 O2 J9 x
+ E1 B5 P E7 t: E5, Balance/ L/ R4 H2 o- L; D
) h: d# l9 ]# j' A+ b2 s$ C可以在程序里调用,知道每次运行结束后,balance还剩多少。' q3 w' _! b6 R( d; I
参考:
1 T% S* K( z6 S6 B7 A* |https://api-docs.deepseek.com/api/get-user-balance
4 P3 U3 _$ v' f' Q% Y
5 C( @: ?7 O/ i* m2 _6, Models
$ u! S) V, ^4 |2 q @' N
. N4 R/ ~' b k$ W目前就两个" B. l: G! M7 Z" }! F h) L: I3 M
# deepseek-chat
0 A2 A7 ]1 A$ c/ ?# {. L2 r# deepseek-reasoner
: v: ]% i1 ?, Y0 L# B' v: a( V5 {& H- U0 r, \1 f$ c5 f
参考:1 L; E7 J5 u. z) S) O
https://api-docs.deepseek.com/api/list-models) Z, [& }* Q! z3 f: m
4 x! F8 X8 n2 r# Q8 E0 x) P. b" D7 ~; f# d, v
7, 问题
5 w, ^ P: m/ s: S9 Y2 a' Z/ I- F3 Q& O# A5 d
deepseek 会将前后两段合成一段。) v e& {0 d) P" R; m
特别是那种大量的对话的段落,deepseek会给你合成一大段。
: [4 K/ a6 a6 }( u' Q: \
8 b) a/ M( {$ f3 G8, 钱说了算。( _( L) ~! U! G! J( j3 f
8 O0 f5 B( p3 Odeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
, `6 B7 Q. z9 s+ m4 P5 [但是API就不会出现这种情况,毕竟我们给钱了。) K2 `1 A& p. `+ G/ Z
chatgpt也是这样的。7 L6 _& g5 x* a0 R
% M. b* T, b" }1 N; [6 q% j3 g& r9 D0 B, Q8 z7 `, G$ L
|
评分
-
查看全部评分
|