|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
" b3 e& ^- }5 A, T' j8 F) H4 l( q, j" W7 v% B
已经搞定.4 v9 N& a% ` @, Q7 T* a& D
& ]3 y* k& E3 C
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
+ P9 `, j h& R- | l% m; c% @0 S! F' N- ]# w7 w9 [6 {1 U
1, python + pypdf 按章节拆分小的PDF0 ?% u/ G: d3 V% m
6 V' I; a$ Z7 u2 {+ |* R7 B2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile6 \& M3 z+ T V3 z0 ?4 s
, |. i/ {; J7 X. X( N
得到text file; x4 a$ Q0 }0 N% P
' S% X/ U* K6 M. k
3, python 读取整个outputfile,丢给deepseek 矫正。2 E. b/ S; R/ j
3 | f, f% t1 R7 Z6 V F7 }8 a
模型是 deepseek-chat/ l3 B; e U4 J' I
6 I2 `) A+ k4 E5 n8 |
max_tokens 最大是 8192,别的不用改。5 T# T! C4 s5 h# w. W/ x; u
& q" g( h8 N! J/ Q2 S
参考:
) w6 I% s/ U" d$ Y' whttps://api-docs.deepseek.com/api/create-chat-completion" @/ _. a% }* i
7 l& d9 U3 f1 e) U. O
4,费用:
7 Y- r# F* n# Y& {9 B
' \& E3 N8 f7 c实测:; ?" X. a2 d9 U4 j1 _
4 B t* g! Q9 h3 X! P8 ]296K 字母,用了 9 美分。
# ], k# b. O8 U3 i$ x; i, @+ w) m7 n
英文字母 到 token 用量大约 1/3* t$ _# w4 d! V' p T8 y
9 |- P" A) Y4 w+ X
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
4 ~0 h( `0 m6 I" B& f
+ M$ p7 p$ M1 R. P2 Q32899 个字母花费 11782 tokens,包含输入输出的 tokens
, l2 F& D3 U7 s3 ~, i) l5 p0 U: M
: C1 X% Q, a- k1 H; X* V价钱,非常非常便宜了。
/ J. A; C+ ]6 Z9 \$ m2 R3 y, @9 D4 E4 i$ m8 b0 i; `1 E5 r4 b
参考如下可以计算,懒得算了。
2 v I7 _; x' C
' U- U- r5 p) n$ _https://api-docs.deepseek.com/quick_start/pricing) d; D! q. ~* r
* K5 K4 I+ O( {* n/ D; ^/ o1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
0 R& b% q' k1 C+ t* B1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
6 G9 t; r) T m. [7 Q3 W1M TOKENS OUTPUT(5) $1.10 $2.19( E/ B! E+ J: z+ h9 i+ k
, [$ {( @& `5 @ e5, Balance$ g! F/ V2 \- K
1 W7 r, Z! N- M/ I5 [0 {可以在程序里调用,知道每次运行结束后,balance还剩多少。3 _$ q( [: y" |$ Z/ Y2 n
参考: T5 Y* j f/ z1 e
https://api-docs.deepseek.com/api/get-user-balance
1 B, X3 t2 W; B1 F! \# S. x' F: Q5 u% i! H1 @$ q. M1 o
6, Models0 V/ x+ k, q* b* k+ G& ~
0 x( P6 h5 c, e目前就两个1 a% @2 A7 x' _+ e. y6 a+ g
# deepseek-chat
) _, l+ b t8 O# deepseek-reasoner
( c v7 c5 ?% T; {! L2 Y8 i
& ^- g. y8 ]8 M' R6 h参考:8 l3 T' X, |9 L5 p& S% Z
https://api-docs.deepseek.com/api/list-models
) \' u) \& q5 t# n7 }! M/ U, M" w/ g8 K- P( E+ }$ I' z0 f
5 I* Z u4 |. v7, 问题
* H- [% F0 s# {& L+ r0 X7 B) O3 a" Z8 M7 Y1 O2 U9 _9 W
deepseek 会将前后两段合成一段。
" z: z+ u G/ R7 I) y/ B! m, S特别是那种大量的对话的段落,deepseek会给你合成一大段。. c$ T$ K7 t, q9 S! h
) p7 J+ b6 j6 G6 \
8, 钱说了算。2 k. o& l- w" Z2 o+ P/ t' [
& T; \: U, f; `5 p, Gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
4 D; T" d5 d: u/ u& l但是API就不会出现这种情况,毕竟我们给钱了。6 A! [+ _: Q3 n
chatgpt也是这样的。
6 }3 J, x0 J5 r* F. c
2 i5 x E' q% C. _6 j/ t
% _, V: U0 X$ R, H |
评分
-
查看全部评分
|