|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
6 N! C4 w Y5 _$ m6 ^
& g# M* m% G q! s已经搞定.
8 h! P% J: ~' o# t& U. ?# h; p, n/ D% Z$ j& ~3 p' H' c/ |9 t' r; Z
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
C8 V3 S& ~ V |$ ], q/ t! q$ x, q, n+ g3 o" d
1, python + pypdf 按章节拆分小的PDF h9 Q1 V: l) L( l4 z/ T$ f
" z, Y& d4 m# e4 H9 a" |; L0 p5 N$ w2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 L* N- U1 f& l/ u1 i0 w7 E+ X
5 @8 S( w8 v. W t5 a: p7 f8 v/ T! A
得到text file+ j7 B9 o5 a5 _# }
3 u* O* {( b& V* z4 P3, python 读取整个outputfile,丢给deepseek 矫正。
0 ^' n" _- b8 b: L; Q
. Z/ E* p; S( u, a) Q3 h( ^模型是 deepseek-chat8 P" X D( y+ i
& H7 B X _4 F; j/ v6 y0 N# F u
max_tokens 最大是 8192,别的不用改。
R" ~3 c3 l, x6 p( d* ]# ^& v' D* W; Y' ^. h
参考:, M6 r H! K R A& h+ _
https://api-docs.deepseek.com/api/create-chat-completion* J4 M: N2 }& A0 @) {+ b1 D' d
1 ?) y2 z# k9 x/ _2 b7 d: b4,费用:
: F5 O' l& J3 L1 l3 \3 N- i. C, I# K
实测:
1 o% n2 |3 o( Q4 r5 T5 e5 Z7 g: D
: [- z9 V7 g4 n5 s/ d G296K 字母,用了 9 美分。
' Y7 n3 u& o+ N8 z. w8 q/ I6 m2 I1 P) G5 a0 k
英文字母 到 token 用量大约 1/3 t2 ~' y: {7 d5 h8 P7 d, L5 q: i
8 D# n' o7 W, S
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
; w6 m6 V, l# d$ \
5 E6 R! v$ D0 ^* S3 y32899 个字母花费 11782 tokens,包含输入输出的 tokens
, r9 i# n7 p/ l9 r& M: l* R7 t# Y s
价钱,非常非常便宜了。
2 S' Q: o1 A0 Y9 i+ W8 U* W& d' O5 Q4 K" W
参考如下可以计算,懒得算了。
( k }1 x Q2 ^. k- n q5 W& c+ m9 J4 @* q
https://api-docs.deepseek.com/quick_start/pricing4 i) d$ B6 v, p
6 V$ Q# O/ A& j: v! l
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14) Y" V4 t+ D y' X J5 L
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
* \$ M7 `) @# j6 |2 C. I7 e1M TOKENS OUTPUT(5) $1.10 $2.19+ h2 L q+ q& }; _& ~! i- [7 M
1 l, Q. h1 Z4 n
5, Balance. Q0 c9 h5 b ^! J# M2 Y
1 G* U( Y: E0 ?
可以在程序里调用,知道每次运行结束后,balance还剩多少。
# M; m/ ^% a6 D! Y! z S参考:6 G6 m% ^! ~( D
https://api-docs.deepseek.com/api/get-user-balance* S$ k) j. w+ ?+ l$ j9 ?
/ ~/ \; _( h, A ?2 P' i# O! D6 l
6, Models
3 `$ w) i, h& J6 R6 ^: y5 F
) e: W6 F# K8 ^. {! \. w: t目前就两个
; ], k- S: E/ X$ r: [: D0 u$ r# deepseek-chat( q' f8 o) h* h7 C( S* E! G
# deepseek-reasoner
9 P& Y/ f) a* L3 b H% Z9 F0 h; F X* O, e3 e A
参考:8 H" K4 a" l8 ^" s5 M$ v
https://api-docs.deepseek.com/api/list-models+ A" a+ h& F1 ], r* `
6 t, {1 C) r. \5 d2 C! R
4 A/ {* \0 j4 d1 m+ G! b7, 问题; G& j- `) T1 K! U
0 j/ [; \" p1 s! D
deepseek 会将前后两段合成一段。. k v* Y$ [& B& i# K0 H
特别是那种大量的对话的段落,deepseek会给你合成一大段。. c; r. J8 h; v+ R* M6 g- F/ A
9 @+ g. }& Q% t7 Z+ S% m/ x8, 钱说了算。2 N: x0 }# G+ s
2 [2 D3 k" C% R' ?2 Sdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。5 Q/ V" f$ d) ?& q0 y5 e
但是API就不会出现这种情况,毕竟我们给钱了。9 [. l1 R' \6 d6 [* I1 k0 p8 s
chatgpt也是这样的。
S0 f. D& {' n3 |* y7 _7 {7 f: w/ ~0 D
+ V$ l4 \; z8 j2 _( _9 ^
|
评分
-
查看全部评分
|