|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
( F$ Q$ L" p$ M: t1 l: U$ j4 `2 y. Q7 j' I+ a& O
已经搞定.
6 L1 @" p: E" ]7 M# ] M5 W
& m5 E/ W+ j* G4 K8 q) }1 k3 Q4 ~3 p首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
1 `5 w4 ~3 A4 s" X6 k1 F& c, ^6 e
' V# m8 E" `+ I9 M; a) ~" |1, python + pypdf 按章节拆分小的PDF" x; C/ Y `* Q5 w4 B
6 R( b* k9 z* g- c' a5 e8 g1 t
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
$ W8 X- t) h+ X& Z+ z/ ~$ g8 a! U# n$ Q& D# B* `
得到text file
6 Y1 j `; Y5 X( j% k- y$ ]1 X( W1 l1 I0 \5 d6 m
3, python 读取整个outputfile,丢给deepseek 矫正。* a' R$ K4 h' L
# d( B/ O$ u" B% \8 E0 b3 X
模型是 deepseek-chat: c8 [* t, U) T8 _
+ Q4 a' l3 R+ j* amax_tokens 最大是 8192,别的不用改。6 c; M5 O3 @; @" B
+ N1 r5 |, ]+ Q7 L6 ?7 Z
参考:8 d3 c r" G* W; s8 @2 T, n
https://api-docs.deepseek.com/api/create-chat-completion
9 v( y+ G: t Z8 h% y+ P" c% s1 A& i1 f+ x; `8 @4 K
4,费用: |- `; H X+ Y7 U
+ `$ p9 k$ @& o, s; e2 k. g实测:
; |) [0 a7 u8 ~8 S% b2 z7 M! U% J1 p/ [- ?' h8 b! E
296K 字母,用了 9 美分。& o. C" O, b7 U# {* ?
, g: m2 C/ T! W9 ?英文字母 到 token 用量大约 1/3
; @7 @' {, s: W7 p: l) `2 d2 G; h. y9 E. `& z! J
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899' K( @& t8 t h' p4 V4 {8 O5 `
0 s5 E2 U1 f7 q: m3 q0 p
32899 个字母花费 11782 tokens,包含输入输出的 tokens
8 ]% ~2 [$ O7 D6 F8 r3 {0 m/ |$ L" N# x) S6 l8 W Q
价钱,非常非常便宜了。
p& J$ K7 [8 h9 V A: e2 F$ J% l; t3 I: v D
参考如下可以计算,懒得算了。/ q4 Y. |6 x, F( L
0 [5 e n5 {6 c" }1 ?0 c9 Rhttps://api-docs.deepseek.com/quick_start/pricing3 f( a. w/ Y. ~
6 k& m9 V( t* [' [4 D+ s D7 A1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14' F9 Q, {3 m" m: a4 y& K
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
( [: a9 V+ G3 f& ?4 A$ |1M TOKENS OUTPUT(5) $1.10 $2.19
9 B8 i5 b. k1 H j9 O5 `' W0 t! q+ L8 t4 k% t9 {& C
5, Balance
! Q5 }7 _! a$ h+ J( m1 @1 f6 H/ q9 }2 V7 F
可以在程序里调用,知道每次运行结束后,balance还剩多少。 a. h8 p( F- ~, m- ?
参考:; u b7 k( }6 Q' p6 x
https://api-docs.deepseek.com/api/get-user-balance. K) b) W( K% g: ?4 r1 U
+ B. {' D. Z! G1 }2 x5 l. S/ N
6, Models* U- P/ n# l! `( r' a
& R# N" R: X% R2 D7 ?目前就两个
3 N/ K2 e( t) Q6 A. K# deepseek-chat* o$ j, _" M% c! ?) Q
# deepseek-reasoner/ O' d" Q) t3 d1 p0 E/ K( M6 c
Z4 V p3 g. x0 x' a参考:
% }; `5 U0 ^2 M( c8 }: D7 E p+ D/ i3 Q$ }https://api-docs.deepseek.com/api/list-models
_- }" o0 j" T- ]/ p y: i6 j, O( \7 b" b
9 v3 o3 C7 {" Q& o! o. P
7, 问题3 ?: _# C1 f0 f4 G$ u0 J3 V
4 i0 J0 E9 `5 z4 k' t
deepseek 会将前后两段合成一段。
3 V. x5 K% X7 D# \; H0 f- C2 o& p; S' S: g特别是那种大量的对话的段落,deepseek会给你合成一大段。
! B( v& N1 p4 ~% A c- ] I" ]4 M4 X
& ]! L, }/ q0 F: j5 N* o8, 钱说了算。
5 i4 c) ~( `9 U+ T7 |' M2 G$ O1 ^+ w" q. T5 B9 ^. D2 G
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。0 O- E- k. f6 d5 F' G1 o8 u X) u9 ?
但是API就不会出现这种情况,毕竟我们给钱了。
, Q' V G/ G2 W Q5 O: H; N7 Xchatgpt也是这样的。
1 v. c7 }- W0 |* p
1 s- r0 A& Q+ c
; A. U. P2 V/ e; V. C8 H% `! a |
评分
-
查看全部评分
|