|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
" J2 R; J- K3 I! p1 [
! g$ Q/ B F7 d8 P已经搞定.
: Z* p" o: Z3 ^1 _, K: p
: x: y& T, ?9 k. q4 R4 R5 f首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。$ ]) ~+ M+ S- i A3 c" O
U c, w* g8 W4 B7 A2 p
1, python + pypdf 按章节拆分小的PDF1 v1 k* C- h; Y4 m2 Y# D% D+ K
0 N$ u# u' e3 X y0 K
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
/ T1 j+ B( `0 s$ a# D- O: j
0 L, G. k" E. R! E得到text file
2 I' Y2 V5 o4 Z z5 l E w2 D' f1 z+ Z+ _6 C/ _: z
3, python 读取整个outputfile,丢给deepseek 矫正。" Z2 o9 F3 m, r1 u
. a1 \9 g( H. p( X- [, x模型是 deepseek-chat) u0 e8 h# i1 {2 p% F
) Y' r/ A" m, e4 S
max_tokens 最大是 8192,别的不用改。
& D9 A! p) `) Z5 m' P4 ~8 f8 }' z
参考:
) O9 \' f& D: rhttps://api-docs.deepseek.com/api/create-chat-completion
( L: h. Y" a: s$ N" J6 z2 c+ B- @5 H5 q
4,费用:. V8 r0 D% V9 U9 ^3 F
/ p A$ G8 j, l4 A# a' C
实测:
. H& E" s* A- }" {/ J4 Z1 u# J2 q' k2 Q. s, w% k
296K 字母,用了 9 美分。& ^' j2 K* C6 [: Q* E
) [. v/ g! ]6 e" R英文字母 到 token 用量大约 1/3
9 L) E$ I I: w" ]
/ [, V4 R/ n5 _; K5 i8 B2 ^9 Gtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
+ J) [0 r( ~% [2 i, N" ~: E
+ L- Y" b, c' Q( t32899 个字母花费 11782 tokens,包含输入输出的 tokens
/ |* s4 _% X6 f) s8 k4 w6 Z" k2 @. }+ _; j9 {- {9 N; J2 ^3 P
价钱,非常非常便宜了。2 L3 @. }" C. _& Q3 U/ w
+ [3 O1 V M6 L8 x5 o
参考如下可以计算,懒得算了。
! n: r, J- k/ \/ b- t% [+ d4 p' M! b9 X6 }) t
https://api-docs.deepseek.com/quick_start/pricing
+ ?( P& _9 @# s9 ]8 T5 v* Q. p% @4 T8 _; o
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14* f7 ^) y; a# m5 W# I
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
- }& G F. [/ c1M TOKENS OUTPUT(5) $1.10 $2.19
& k1 d7 {& o! N% w, r/ q
h( E. ~( ? |; I/ v- l5, Balance0 v& n7 d6 ~* ]4 L3 D
; d% o; I/ o. A7 B; J9 j$ W可以在程序里调用,知道每次运行结束后,balance还剩多少。
9 |5 \7 t* S' m' n- f$ M3 ~参考:* X( d6 L8 _# e: j# C& e+ h3 T1 {
https://api-docs.deepseek.com/api/get-user-balance
3 H% u) E: {; A4 w: V+ D$ B8 X, b& H: `$ n
6, Models
9 z2 t. x( Z) C# p5 C1 R# V" ]+ t! \4 N [4 L4 w. E, l
目前就两个. n# \: f) H" y5 }$ E3 C
# deepseek-chat
+ ]6 i) y) r6 b+ ?! Q9 H! H# deepseek-reasoner- G2 R! R$ f+ O8 U
2 H2 c( d0 A, h5 i. d4 E参考:0 B2 v4 ~( v+ D' Y8 H( [; r
https://api-docs.deepseek.com/api/list-models+ d+ T+ D; a& S: d7 c0 k ]1 h0 M9 k
1 v0 j& Q% i( l O" r
: X0 g! i* B2 z0 n5 M
7, 问题
X" j0 w/ Y2 D$ I& f7 O# n; H9 V( V- l8 U- ^- m
deepseek 会将前后两段合成一段。
( W4 D) g: o* a) }特别是那种大量的对话的段落,deepseek会给你合成一大段。) ^, `( @) N5 N. h/ N, ?3 s' {3 \ e: k/ i
; x( ^3 X* t. b) H/ N
8, 钱说了算。
2 N) h" m' H) `9 V; \& [& T9 `7 |' K, t' ~/ B
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
; t" q8 V# p; f8 u但是API就不会出现这种情况,毕竟我们给钱了。
' I+ V8 X7 F1 _ O4 l( @" Q: Tchatgpt也是这样的。0 ?4 I: X( a4 n
* n: J% r6 b) ?/ f* k) x5 y4 c: p- C$ |4 x' W4 a
|
评分
-
查看全部评分
|