|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 5 F, v, `2 F6 y$ N$ A
* V2 B( U6 E* K; j
已经搞定.
* ~& m* r* q1 g* [, I* {) [9 b& y$ Y5 q7 I! m+ z! K
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。4 V) r" Z) H( m6 y; \" M
! G; d/ B5 u6 j! ~
1, python + pypdf 按章节拆分小的PDF3 d6 ?4 D1 g# C ]
. R) G: T$ A" @
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; }- X1 @; r h* Q6 l/ y
+ P" m9 h4 h" V( B
得到text file
* I* \8 I/ `$ E! t ]1 a; z& u) i1 z4 t6 O$ Q: m
3, python 读取整个outputfile,丢给deepseek 矫正。) b% O8 O4 O; ?$ K# s$ h, U
k' ^6 j" z+ N6 t6 p/ B
模型是 deepseek-chat
% J$ Q0 ?9 r3 W9 N, y* T4 r+ @1 q1 t+ U' }+ b
max_tokens 最大是 8192,别的不用改。: m3 U5 N; O- `- z* v( k0 ^! K
[& [. F* `. _
参考:
F& r. A" L2 j. s$ a3 S. ?https://api-docs.deepseek.com/api/create-chat-completion# D% @5 g& ?8 ~0 P2 q% }5 c" h) y( N
( _; N6 w& m) G3 _) A' h, n# {( L4,费用:
8 C/ N: r+ u7 P% ^) A6 T* ?# k/ q6 m7 \: A+ E' L2 d- l
实测:
, w$ t* P g% m+ Y& ~) W, n8 l( f" ], m1 D8 e* b
296K 字母,用了 9 美分。
* p7 L; O- M" x+ F. j/ N5 \' F3 M4 w5 W
r, t# G( K3 U) A1 B英文字母 到 token 用量大约 1/3
! N( U& n j& Q5 j0 _) s6 [# p) n/ j' k5 Z
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328992 S8 J D9 {! n: I: A, T% z
/ e; A! K4 y" D5 d- p
32899 个字母花费 11782 tokens,包含输入输出的 tokens
' z8 d5 p( N1 W
# r" ?7 ]# N/ D& y! `( ]价钱,非常非常便宜了。
8 a/ j$ {# B9 t' l, S$ j5 d2 S
1 N* ^0 j0 z4 Q( a& h' w6 v参考如下可以计算,懒得算了。6 w1 `! i* e3 I$ o
, @4 I& r5 [% z* N f
https://api-docs.deepseek.com/quick_start/pricing
# f1 B5 d+ a8 X8 x: X1 M# F3 P. V1 s& i( V( d
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
6 ^; I9 v( p5 b2 M( t% A7 o1M TOKENS INPUT (CACHE MISS) $0.27 $0.550 h' \1 |8 q% R& Z9 w. J. x
1M TOKENS OUTPUT(5) $1.10 $2.19
3 L. }7 h+ F$ p( {+ H& p5 q8 I' Z. s) B# a8 a' f
5, Balance
' z+ {3 U3 Y5 B- K7 G& h% Z) K3 l ?8 V5 W8 c, O
可以在程序里调用,知道每次运行结束后,balance还剩多少。
& N/ l* `# f k6 A参考:, `8 t* X' i1 T2 h. t
https://api-docs.deepseek.com/api/get-user-balance
$ r" m, p0 ^ l/ I1 @! D: K; r6 F
+ h( V. Y: _' b1 F" P8 V% c6, Models
2 n9 m8 V0 V) G' k+ ^% O" w6 h5 }$ F; z
目前就两个& m1 h. q$ G" J
# deepseek-chat
" E: g- R0 I& p: g' p: C! {# deepseek-reasoner
/ r5 ~0 w5 C) Q0 y. P- U1 m) ]4 P4 P, z% ?- b6 g _/ R, z
参考:
+ H( B5 G! z/ }8 D$ G! lhttps://api-docs.deepseek.com/api/list-models6 T: I, E3 ^+ [8 a6 F; q$ A" s
: l6 [5 J' b- ]) m
; r5 {: `! I u: h7, 问题7 G4 l. X0 H9 P3 A; ]4 C
]. P0 V5 z: [3 Q* s* }
deepseek 会将前后两段合成一段。
. I. A; }" a# r+ T g# \特别是那种大量的对话的段落,deepseek会给你合成一大段。
# ^5 a0 |# g# r5 G3 o) ]+ d& G; o, K2 \
8, 钱说了算。2 X4 [+ Q* i( ^2 u' }! C2 }
# C2 E) e4 N: W( x# Z, edeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
9 n2 p+ X' }" |* O但是API就不会出现这种情况,毕竟我们给钱了。
% b: [2 ~) u" Q! ~6 l y6 h$ |chatgpt也是这样的。0 U0 |" ?3 {/ A$ R4 M2 e0 U
. t5 P$ {" W3 B9 ?% f* }. c3 L9 O1 k; U( q& Q
|
评分
-
查看全部评分
|