|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 ^- T+ s% a; c! m. ~
3 A& f) o4 `1 J! p8 T Z! @) l$ i2 C
已经搞定.
1 }' ~" v1 v+ W0 n
: Q( O' e& |- f1 H, w# D5 H首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
7 E9 a: S2 ~2 i3 C, _+ q
2 b, @# N/ Y4 X2 o7 s1, python + pypdf 按章节拆分小的PDF; M* }* Q- ]4 ~/ ~
. Y$ L; O# W0 ?9 M/ w+ {; L2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
( U' ~+ r: Q6 y* F4 O* b! L: i a9 F
% k2 k+ M; `4 s2 W4 v4 A得到text file9 @$ H& y2 @. ~
& {* `7 w8 E7 t; e( b4 V7 `5 k
3, python 读取整个outputfile,丢给deepseek 矫正。2 C. t8 g1 @6 K+ _
6 l5 H' J# Q/ ^+ i5 F5 X
模型是 deepseek-chat
- S9 y0 ?' l& f' u9 d9 u6 Z7 C2 u \% n( B" \: M
max_tokens 最大是 8192,别的不用改。4 H0 e" f7 e2 g3 X6 q
! N% g$ A/ |0 t/ }4 ?% j' G
参考:+ F' o$ g) l$ Q" }8 ^# [
https://api-docs.deepseek.com/api/create-chat-completion
: N# [3 k- P2 j% d0 C
8 a' P0 x2 j1 U& R( Z1 @- p8 p @* t4,费用:1 b, j% q) M) i/ u
7 \2 | a. Q1 f" h9 Z% C
实测:
' b4 _, v( E- z2 M7 U% c% h* F: B+ u2 ^
296K 字母,用了 9 美分。, U5 U) }. q; w9 X
( _5 y( @; m) z; k' [- E, F& Z
英文字母 到 token 用量大约 1/38 Q' c* D( i- r$ Y# l
1 u. u* Q; y3 e" _. O4 j6 l
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899' H+ x( o* _1 G5 y I, e6 l( q0 _5 T
2 }( z; [* a) @9 _2 w9 v: q32899 个字母花费 11782 tokens,包含输入输出的 tokens- n" P+ j1 M# J1 Q
) _# d) g. q0 ~: i) @- U N1 T
价钱,非常非常便宜了。
4 ?; X9 H; B: }+ S
1 Z1 W# n) S1 t3 p9 v参考如下可以计算,懒得算了。
. p5 |; ?+ r- o6 ?- y% q$ m0 n- p0 [2 g
https://api-docs.deepseek.com/quick_start/pricing/ P+ _, E, D. k4 v$ Y
; X+ J9 y" f4 }! n+ d- v
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14 v; O; ^5 S2 K' X
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
1 B, [8 m/ \9 j: e: e- y8 z1M TOKENS OUTPUT(5) $1.10 $2.19
, ~2 G. [6 E& E% I1 k [# A. O9 m ~# ~2 \& J0 H. R! l) f5 q
5, Balance, X$ G6 [9 u0 W" g: c6 E
! Z( v* F( U6 W! O可以在程序里调用,知道每次运行结束后,balance还剩多少。! H9 `/ ~( v6 C2 C. @7 S
参考:6 h2 U5 u% L9 k
https://api-docs.deepseek.com/api/get-user-balance
0 Q3 K, v* ?* x& [1 x5 H3 }. |
2 I$ d% T. a3 A I6, Models
4 i: c/ b2 O2 ]5 F2 V6 q7 J, G3 j4 z" c4 ~/ [
目前就两个3 G- G) ~! T" O8 P+ [
# deepseek-chat
7 H4 d9 m& S4 I, G) g$ M# deepseek-reasoner
! }5 Y8 [- ~4 i: }9 W5 a2 V+ L; j
! s# \! i! }9 B参考:
1 ]5 x4 U7 K) t3 l8 y8 T3 } Ehttps://api-docs.deepseek.com/api/list-models) g) ]3 z5 O" i) i% @
2 I9 z. K+ A) Q+ y9 H. @
. d, k' R6 E* e7 u+ B t; Q+ c
7, 问题2 y! C/ D5 P7 Z9 J) G: Q
. r7 |- ]6 k8 {7 z+ j# V
deepseek 会将前后两段合成一段。1 P3 J5 S6 y K+ M0 ^* H& k. E* q# q
特别是那种大量的对话的段落,deepseek会给你合成一大段。
0 r, A4 T7 q3 f0 m- o: E( U0 f) Q+ v7 w6 I5 m) {7 u
8, 钱说了算。
, N) D$ ?. y+ E: n a. f( Q7 u5 R! ^
7 v6 ]$ C; U( N4 y9 j5 _deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
! E n2 `4 F0 j/ x. f但是API就不会出现这种情况,毕竟我们给钱了。; a; \: v0 c2 O* {6 R
chatgpt也是这样的。
# D, U6 w. _7 J1 c% Y
! O8 F3 B7 B2 c* t2 g9 \" |( x( ?- i0 _ O# L3 y% c2 X5 o
|
评分
-
查看全部评分
|