|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 T3 Z* h- J) f9 ?
/ q1 u! U. ^' \' e- G" ?已经搞定.
2 o' h3 O) R; G* G- g r/ F0 F% z& m
' L; ~& W% ]) W/ B0 U首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
s$ u( i; j0 v+ G; P4 X3 ?) x, m
1, python + pypdf 按章节拆分小的PDF9 J- X ]# f6 \9 m0 H
2 _9 J& W1 o$ U
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile) Z. I4 P; O3 _& m4 w* ~
% s2 ^+ |. \3 V' f2 A _& I
得到text file6 i! S, `1 o. e* s$ f3 }
; E* z5 `8 x8 u/ d7 ` v0 t3, python 读取整个outputfile,丢给deepseek 矫正。' M/ Y1 C: H6 ]! Y
* O9 r4 @2 H" J1 z4 Q, v; [
模型是 deepseek-chat9 B+ \- G) f# r7 |; u; ^6 O) a. `
1 A9 b8 k# Y+ d& b3 X
max_tokens 最大是 8192,别的不用改。1 R+ H- r7 z9 Q! | P
; a8 b# o- v. j" b6 X参考:
$ T. I: c# |3 t# ?https://api-docs.deepseek.com/api/create-chat-completion
. b; F5 K1 y: N# ]+ c6 b8 y j+ P
8 W1 l* ?7 i$ j- r4,费用:/ s; X' f" ~7 G
' q1 J0 E8 C9 C实测:
+ x3 R5 \ B ~8 W6 U' u/ l$ a! E. p# d' e1 c" n& Z! b
296K 字母,用了 9 美分。' O4 _' B' K' k) {% ^
7 L( B. U( k D1 Y8 W6 Y# I. v
英文字母 到 token 用量大约 1/3
]2 j! S, l$ Q1 ^/ l* c
3 g+ [. e3 [3 G& M3 j8 | Etokens: total, 11782 completion, 3729 prompt, 8053 | s: 328990 q5 e" u. ` z, u9 b1 C7 w
' U, j, O$ `) D6 @32899 个字母花费 11782 tokens,包含输入输出的 tokens2 a/ g. O) k) t; @/ Y
0 `; x8 l' z7 I/ q9 @2 V, v4 D
价钱,非常非常便宜了。
3 p7 A3 X; g7 b; E/ \+ D% _+ L; K( T ^ i7 E( Q" c6 E- h
参考如下可以计算,懒得算了。
/ c/ N" X- F' n3 M+ x# m) n# Q2 E6 L5 N
https://api-docs.deepseek.com/quick_start/pricing. J+ s7 |) b1 q) Y9 p
' l7 q: x; @9 f0 {2 A1 \1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
( `, S* C- W1 h7 U/ z' V: ?/ t1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
8 G" B) n8 r5 A6 c5 |- {4 ~, ?; Y7 `8 E1M TOKENS OUTPUT(5) $1.10 $2.192 ~/ p' @7 \' y3 m
0 E" g% c# {: {7 ~! w5, Balance
, L% C/ g, B4 H: F, K2 z5 R
- t. x! ]+ v0 t+ S, _; i5 k- y/ d1 S) B. X可以在程序里调用,知道每次运行结束后,balance还剩多少。9 ?* \9 w8 f3 \
参考:# }" A' ^! _' j$ b" W3 Z2 {, Y( E$ s
https://api-docs.deepseek.com/api/get-user-balance, [: `' X$ z# ]+ R
) g( O/ v- a9 v
6, Models
x& Q9 q. I9 I. Q
) F5 ]3 H' {8 u' S4 Z6 Z目前就两个, ]6 b/ Q& F2 l' R+ c8 q$ |" l8 m
# deepseek-chat
7 F5 c; m/ A' `/ b# deepseek-reasoner
& y( o/ b5 T3 \5 x
7 E! { F, U; b! ~) Q参考:
: V$ H& ?* j- p! Whttps://api-docs.deepseek.com/api/list-models! X% v, }3 a) [: v8 x: I, G; K6 Q
. d. K M% n2 ?+ [8 J% }2 {4 z
1 q- \2 W$ J) \1 l7, 问题9 x( _$ E* c0 W+ X
; Z* h5 \2 s6 b7 a& J1 e; o/ Tdeepseek 会将前后两段合成一段。
! `6 ]. I" `. O+ u/ H特别是那种大量的对话的段落,deepseek会给你合成一大段。6 a0 G3 ^+ g: m4 B# {1 Q
, D6 S5 [2 Y/ d2 O4 Q
8, 钱说了算。
( |- D# m+ H. I, _$ K! Z) c' A+ R" F: t8 A4 {; c" u6 V
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。- Q2 ]) O9 f j- \+ V( R* X v! s
但是API就不会出现这种情况,毕竟我们给钱了。
" V" L' `# a- H% i$ g; P' `7 Dchatgpt也是这样的。3 a% O8 @$ }$ R' f' W
0 D, H8 }& V9 n0 I) R I8 ?3 B% U G) `
& A5 i" a" h* X& G1 d) O
|
评分
-
查看全部评分
|