|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 4 C: w% w* W/ Z5 ~( w8 I
6 V; E5 [. {, ~+ X, e b! q已经搞定.4 Q0 ~7 S" x& F2 j: ?2 U& R5 R
# |* R( X, V/ t% P7 e, P% n首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( k6 a3 @# y! y
& B* o% u1 A: W3 D. D1, python + pypdf 按章节拆分小的PDF5 a; }$ k) f1 F: H
! k/ A1 Q& G) W2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
. J9 X" N/ L1 G2 t
5 N' ]3 b- J, ~得到text file
: c1 X2 C6 ^- d4 O2 Z* u9 i9 i) i9 Z$ M
3, python 读取整个outputfile,丢给deepseek 矫正。( j8 u# W; x7 _1 P1 y# V( o
' V! `2 G0 S" P/ d% e3 `模型是 deepseek-chat
$ A8 m. O6 p, ]- o2 h9 h0 x- x8 |# }- s
max_tokens 最大是 8192,别的不用改。
2 A) p+ i9 B* O- V9 W2 Q' w/ N' K2 M* G D& J" ]8 [/ N! q
参考:# w+ S# K5 Q! O, n
https://api-docs.deepseek.com/api/create-chat-completion% j, ?) q$ k$ g1 R
% E7 U6 F& p4 W$ i' b
4,费用:
6 U4 p( w$ W. O: h5 M
$ l: j3 X3 J0 j+ }) A7 A! x( f实测:. I; {1 I6 F6 Z4 i
6 r i1 k/ l# B
296K 字母,用了 9 美分。
: u# u3 a U" t2 U7 f7 g- i% [: C
l; I6 d: M+ O9 V英文字母 到 token 用量大约 1/3
; `7 L- K! ?# `) z( H, Q5 P- a
3 K3 F. V) b7 l: ~# btokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
3 t7 P) ]! T3 g$ Y) O: Q9 N; D. S; \1 m" Z1 v9 Z m! z* S6 }" P6 A
32899 个字母花费 11782 tokens,包含输入输出的 tokens5 N" W. e- l6 |% C. u6 ^- M
* N- l" k: k/ o ^) @9 e
价钱,非常非常便宜了。, t! {8 ?" G8 f) q. T; n# I- K) p
0 G2 R$ ^3 ^& _2 P+ s参考如下可以计算,懒得算了。4 |+ A, {# X% G h: Z
5 d2 T' R }& W' E% E k6 \! K
https://api-docs.deepseek.com/quick_start/pricing
( g, G! ]- e; G' e% a
, ?4 j0 I8 W1 I8 w1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.145 G# ~2 o. i8 t& l
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
' N) S0 u: ~' G* j" |+ T- I1M TOKENS OUTPUT(5) $1.10 $2.19
1 `$ R$ w4 b+ t" J8 M3 Z0 {+ A; v% E$ z
5, Balance
3 W8 m |5 N9 X0 j' b$ ]- r D; N
2 n0 d: D9 `5 U* `; j4 V可以在程序里调用,知道每次运行结束后,balance还剩多少。$ T& A6 |1 h- }$ ?0 i
参考:
: I8 C- ^ L. U# Mhttps://api-docs.deepseek.com/api/get-user-balance7 w* J3 E. c: p2 S/ s
" B4 ^- u! y' F, y' J6, Models7 ^/ _) _& k7 M- D- c$ }, A
9 |+ [& ?/ X9 P* ]目前就两个1 B) ? a( Z& J7 M
# deepseek-chat
: u8 E$ q6 _+ W: _" k. a+ q# deepseek-reasoner
' e" z' [1 a6 u* Q r2 _+ c( j) z& b( A8 C3 I
参考:
5 d& v: V k3 W) H: B/ uhttps://api-docs.deepseek.com/api/list-models
2 h3 ~; p4 u* X+ u- N# n5 Z2 j8 [! M* `! M, ]5 b
( D0 V" Z: j4 Y7 k7, 问题1 h* N# ]. t; z+ R; g1 G
/ D: X' h6 ~3 s% L0 ^' c8 p
deepseek 会将前后两段合成一段。
0 W. g1 U5 H5 ]: Z特别是那种大量的对话的段落,deepseek会给你合成一大段。
+ O, y) Y: t9 A3 n4 x- z& e
) g R& {/ T% p- ]0 J8, 钱说了算。0 {4 p9 w' y4 r* v6 S! N1 Y% ^$ o+ P
, o1 }8 @8 s' Q: qdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。' h# G* H' A9 ?, o2 g" {2 t
但是API就不会出现这种情况,毕竟我们给钱了。
' ?3 |" Q: [# I" hchatgpt也是这样的。) M1 Y) o# E0 A
2 `; l) T q0 d/ F. B
: K3 G0 j& ^. D, C
|
评分
-
查看全部评分
|