|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
2 U& \0 S7 `- J" G* w! o9 W; Z2 G
& G }- C1 D! |0 S$ [0 G已经搞定.
; A1 `9 W, L7 e- w- ^% |" ^
3 `% N1 [% n2 t `$ x首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 L9 v: _7 b# D3 ?" n0 n
# D" Y0 l2 l1 a) R( g9 t5 {
1, python + pypdf 按章节拆分小的PDF! f$ t3 K! b% a: G& I- V# n
$ ]" F3 k1 g n9 l( p$ `2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
9 ~# l# ^2 _8 D( R+ a1 Z4 z+ }
得到text file
1 c. `( A( v: J: _& b
; ?7 q4 ~! G/ O* ], c/ |$ [9 O+ `3, python 读取整个outputfile,丢给deepseek 矫正。
, }1 Q3 [2 l' d2 s: H0 i
! L2 J/ Y5 c# U& W模型是 deepseek-chat$ Y9 i& [0 N& p; z$ a* k% k& `' l
# T, ? V6 y9 G5 u4 w1 ~
max_tokens 最大是 8192,别的不用改。
`3 V2 h9 H0 k* I
4 z7 V" F9 f( ]) E1 E参考:# x( n. Q# Q8 u8 D
https://api-docs.deepseek.com/api/create-chat-completion7 p) i" R4 Y- t1 @+ i
$ `9 Q- V( f7 Y8 f1 @
4,费用:
/ J! ~5 ^8 }3 D4 {1 n4 {. n
2 L5 f7 w* i+ z# o6 x实测:
( M6 Q2 W2 b7 E; H/ I% O$ _7 g+ K3 A$ z8 t* |* u" o; }1 {) {# k# _
296K 字母,用了 9 美分。
3 E5 Z) c @7 \: L# k a/ U
9 m8 R4 t# ?4 {% A4 ~英文字母 到 token 用量大约 1/3" e* |7 Y* W, [5 {9 D1 J( w
8 I0 e: u4 R" r& J+ `tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899. Y9 t" y3 T5 f: @/ ^
& h/ l6 Q' M9 X H# Z1 x( `32899 个字母花费 11782 tokens,包含输入输出的 tokens
; [+ j n+ P) Q. a5 ?* J" a# f& |
1 m% ?; \( U, ?( l7 t. w( _价钱,非常非常便宜了。
: ]- g) j: ^* w2 Q
8 O& J, r X: w# _参考如下可以计算,懒得算了。9 O+ K6 Y" M; Q- _0 o1 z# k; {
" O" U( K% k1 }. g4 Phttps://api-docs.deepseek.com/quick_start/pricing1 i4 u+ ]8 P7 p
) n3 r0 ? m3 h
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14' H& N4 V. c3 H, j# q" i0 G* _
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55/ j& Z% t1 Z1 u* X6 t1 i" z
1M TOKENS OUTPUT(5) $1.10 $2.19
' B8 O& j8 A) b! j' H+ L: z n2 F2 @# Z4 a0 J
5, Balance
9 i* K R1 P; O0 \4 w* k
$ o3 n9 X) J; ~: i: R可以在程序里调用,知道每次运行结束后,balance还剩多少。, O# L1 Z; u9 u0 N
参考:$ s7 S' o# [3 N& Q0 V$ n
https://api-docs.deepseek.com/api/get-user-balance* a- i( ` l2 t7 l& ?" C
1 a& Y( a6 Z& y- b6, Models
4 `8 M" s; C; e( c8 t& U0 Z$ t* Z b. d$ {
目前就两个
; L) C" F5 g' U# deepseek-chat3 u' Y* R3 P' z8 l
# deepseek-reasoner
0 M3 q- i+ R5 H& }9 S. y, P0 N* c& B6 l5 X
参考:
" `7 p& h2 {8 q! o/ l# I+ bhttps://api-docs.deepseek.com/api/list-models/ `$ x ^7 D( }* {: x6 `
; s( b' G9 Z8 e, J( S; k
; \1 |1 E) {. ^. o2 H3 K+ F7, 问题
/ a9 ~" ~" X: W& t% C8 j5 _( h; }" S; d' S
deepseek 会将前后两段合成一段。
. ]" j! m0 \# A- K特别是那种大量的对话的段落,deepseek会给你合成一大段。( A/ m" w7 }$ h# r- r& a& i
. @/ L' @6 \ u- \9 r8 ~7 ~) g8, 钱说了算。) |2 c- s/ V" b; R+ C) g' S
# f" y( ] o) ^4 x* m) G Udeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
& U e6 K( l; ^7 g但是API就不会出现这种情况,毕竟我们给钱了。7 C5 e0 v, r8 g) v
chatgpt也是这样的。+ o* s. b0 I( G
, n& u( l0 `3 Z3 U3 E" F
( g* q; r0 }( Y( W, `/ A |
评分
-
查看全部评分
|