|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 8 y" P1 I- C; y; |( Q
) Y# o* }! J9 \0 C2 }7 R; Z2 b5 m
已经搞定.1 c8 V8 I6 f: |& B& H8 Q' s
) R5 j+ r! m4 d8 a# r& l
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。9 R7 L/ m, t5 o" u7 \: k
- k/ s& h' u6 V L1 j
1, python + pypdf 按章节拆分小的PDF2 B- e( _9 U: G
2 j3 d% V) ?4 q$ ], G4 h; I
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile0 I8 g, D m: b$ M, b3 |( k
! X" T8 ~- u0 H1 O. n# w
得到text file
0 y% _+ r4 I9 C, [0 Y' g9 @/ s' A" [- Y
3, python 读取整个outputfile,丢给deepseek 矫正。
& N# \) y- [+ F- l8 s9 b% K; g: ]- E( t0 A
模型是 deepseek-chat) y$ k& a, J3 o8 i+ O7 ^4 I2 v
; u: w$ @( C, ]
max_tokens 最大是 8192,别的不用改。
; b/ C1 W" i5 v+ r' }7 _* {3 G q" Q' t b
参考:
; b7 y6 b4 p: y$ dhttps://api-docs.deepseek.com/api/create-chat-completion
6 \$ o# M9 U: X) ~+ O8 s
- w7 |* M: T, J, f7 n. o! N. [3 x0 H4,费用:6 o6 s- ?5 L. D$ M* Y7 `- A# ]& Z
5 u- d# J/ w7 E7 a+ d实测:
- c5 a9 Z7 S* x) e6 A4 |# \) x
, x) J8 e& a1 q1 o6 ^3 q& }296K 字母,用了 9 美分。' l( z: b1 c$ f9 V0 g1 w
$ @+ U4 B- m# {3 \
英文字母 到 token 用量大约 1/3% \5 @; u7 a' V" G3 t8 p
# a3 b* v t ]9 T0 a8 o8 V
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
. \, E5 g# u* S; l( p' g
) R/ t0 k* k4 _' w9 ~32899 个字母花费 11782 tokens,包含输入输出的 tokens: i- V( k# A! b k! }
- m s# z. F& Q- e8 D; `
价钱,非常非常便宜了。% }0 M# D( }0 ]' s. }
/ B3 G# @- \& `+ a1 e! e
参考如下可以计算,懒得算了。5 I d& ?5 C: |% h4 u/ L8 s7 U% G( R
/ b" ]1 l8 \; }- phttps://api-docs.deepseek.com/quick_start/pricing0 x" D, K6 `! [
0 D* K0 P& V. A0 G% R# ^1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.140 i0 ^6 O( o7 E) b
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55, ^1 D. f. \/ q2 j8 K, ?6 A
1M TOKENS OUTPUT(5) $1.10 $2.19
0 ~/ q0 L$ s3 a3 t; c8 f8 q
% o; I. c1 `9 g% d: @2 F5, Balance
( D- E6 s) p8 g0 D: f& i/ P, T( l0 @% e2 x# U
可以在程序里调用,知道每次运行结束后,balance还剩多少。
2 d; j4 f- Y% ^& \4 E参考:' z4 O6 k& N T8 h! m- Q2 W
https://api-docs.deepseek.com/api/get-user-balance
# L8 d5 ^4 Q. a' w7 M4 p- @3 r1 v* h; }' h! s: S1 c
6, Models
7 Q; `0 l# }8 Q$ F. S% w3 q+ B Y. c
目前就两个6 P* {# Q1 Z# x6 K% j* J
# deepseek-chat
( T6 x4 \: C( k( K5 s7 c# deepseek-reasoner
" L9 b2 Q' }! {& k+ k5 V$ D/ \ Z: G% i; {5 i
参考:7 ?3 _! l: D( ]6 i) i* ^& n2 j6 B
https://api-docs.deepseek.com/api/list-models# t0 U, X3 W8 e, X* m. G
: O3 ?, m& D1 d8 Q+ h) [1 Q: ?# p6 q
& A* B0 {# m1 ^' P5 `/ ?7, 问题( r8 Z) ?# Z! L+ c
; Y+ z! f% F3 x+ {- jdeepseek 会将前后两段合成一段。
$ g8 @: a% f$ c+ t特别是那种大量的对话的段落,deepseek会给你合成一大段。
/ q2 ~& [8 \2 S1 t5 F. E! F
$ k* F! b3 \# }/ b6 E8, 钱说了算。0 h! U6 ^7 I& r+ F
& N9 L: V! t9 i1 w7 s4 I5 Adeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
! b- S: X* @) k; @1 D8 r. x但是API就不会出现这种情况,毕竟我们给钱了。2 s' B: y) b$ l6 q
chatgpt也是这样的。
! B) }. k, V1 \1 O9 x% w, w- H2 h# f8 T/ Q: ~7 f, f1 g
$ a& t4 S9 N+ R$ R) i" V+ g |
评分
-
查看全部评分
|