|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 h2 @- f' Z& d% s( l: c
|8 \+ i( K& k6 ^1 R# p' v3 f已经搞定.) R' x* X) w2 ^8 b
: z6 Z& L+ j! R4 P2 w* _4 _/ X
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
$ C8 L/ o# F; J% A& h, ]6 r/ n
' O7 d5 Z8 b. G" `% b1, python + pypdf 按章节拆分小的PDF3 J1 D$ r" D8 ]- ~8 }; {5 p
. m' h, Y7 x+ P' W# [7 X2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
7 Q8 S% R+ B' D7 E e% m, }
9 ^, ]; Y; U4 M0 z# } b得到text file8 z- U- k/ m: _$ N) U% t
! Q! m3 M: X5 S8 a5 l" x
3, python 读取整个outputfile,丢给deepseek 矫正。8 l$ _* m4 F" V% H4 j
; {; ?. f$ v, y* h
模型是 deepseek-chat0 M2 t/ l/ A6 F0 h) W
. M% h# i+ p$ ~7 [6 H) p. h; E! b }
max_tokens 最大是 8192,别的不用改。
4 e- m- j; z3 {& u0 _0 o, B, x9 E, O2 ^" M' O S( e
参考:6 k8 g; ]/ u+ I2 J" B, x/ H# @& v3 D
https://api-docs.deepseek.com/api/create-chat-completion* t& I- ~+ Y' r0 I
7 j1 r- n/ q7 \6 D; f) n
4,费用:0 f# Q6 S g4 z- `/ Y6 L
4 P' }' j2 l; @* o: e, g% g实测:
! y! z8 U0 }) e ]+ g; i; t
3 \3 e" o( o O. g1 T; u+ Z296K 字母,用了 9 美分。
+ }. X1 J N+ l2 K/ x. H
; m! l" w3 }* J& e+ G英文字母 到 token 用量大约 1/3+ T3 N' I3 f; N
8 W; @9 B0 E; R5 Wtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
- r+ x% z. \5 U# N& y3 Z. G1 ?/ C2 K& A) @# b) ^' n) X4 r
32899 个字母花费 11782 tokens,包含输入输出的 tokens
: x; K; ^& f' M" h
9 j$ M @( i, X" E0 f9 q价钱,非常非常便宜了。
' w) R4 o* }; Q6 m1 `+ D/ @
+ ]/ E) m. B3 x参考如下可以计算,懒得算了。+ P: x B. d9 R8 w( ^5 n& w
" B' |5 v$ Z, T
https://api-docs.deepseek.com/quick_start/pricing% R- L; m8 w% k9 ^# \" Q
) b4 K) p8 R- s& U% d
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.148 l7 A. ?2 b3 j. q
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55' R W$ y- T1 o: U' E
1M TOKENS OUTPUT(5) $1.10 $2.19
% F; Q) t" c7 X4 @ a8 x
1 l. f, d) l! A+ {$ h2 t5, Balance
% _/ N8 p' a; z6 r" a
- X5 @& B& e! S3 h! l, i可以在程序里调用,知道每次运行结束后,balance还剩多少。
& D* h, E2 Z! S% t4 O参考:/ S& I" A9 O3 r4 j& a/ `2 J
https://api-docs.deepseek.com/api/get-user-balance$ d N- G6 |. J* i7 H2 H; `
$ b" O5 m1 V8 n6, Models
% k* w# K9 U- [: C% A/ Q/ y) j4 |1 f
目前就两个) ~; H% M2 Y9 r8 A3 n4 f( @) r! I
# deepseek-chat% y, n- u0 ]5 k3 x1 |- E9 q
# deepseek-reasoner, ]6 a# T5 K8 V9 o, ^4 K
( f+ e; P1 ]+ I* q/ d* D
参考:
" D' @9 y8 l6 w# t- b6 v) V0 uhttps://api-docs.deepseek.com/api/list-models
3 P3 B+ _$ x: Y1 e) f2 m! B, x- e* }4 J, L
5 H* Z* ]) e. c/ `" I
7, 问题4 n- i! d7 i6 s9 W" r- p' A, [
7 n7 C9 Q" K- v W. L8 B& Gdeepseek 会将前后两段合成一段。: B7 l1 ?7 O6 j, o4 n1 o
特别是那种大量的对话的段落,deepseek会给你合成一大段。
: n8 k0 o# k* T7 Y: q& T+ A
' T K% O$ H4 ]( X8, 钱说了算。
, c5 q9 X) z, z6 Q) n$ K) l. ~2 x/ j( e. ~( Z; Q
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: k! K: F3 `) t( M! X0 B但是API就不会出现这种情况,毕竟我们给钱了。: p: Q' c5 j, d3 K) u7 |+ b
chatgpt也是这样的。) l' k6 y* I% F
/ E K+ O4 s# w& ~/ L
- g9 s1 o! \, _4 H |
评分
-
查看全部评分
|