|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 8 }! y% x/ T3 Q( T* M. u
# h& w: U: P' z' z. ]" [2 T已经搞定.
2 g1 V/ S! Q/ ]; `+ y
4 n+ o+ H2 W1 c5 J# i0 z首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
) H+ W1 Q" A4 F# r* ^1 J5 y3 [3 E7 U* R. a6 _
1, python + pypdf 按章节拆分小的PDF2 x8 \: f4 X' G, ?
: i; ]# o5 }# i& v3 t
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile$ g6 _: b" Z4 L( l3 g8 r. \
/ {- B2 i7 I' A得到text file5 W8 f7 o# A& P. L6 N0 R
9 y, n. N) Z7 }7 n& c( `/ h. o
3, python 读取整个outputfile,丢给deepseek 矫正。
. T5 ^2 L9 H% U |. O( p) e2 F! G1 G. m8 A) a Y: t& W i
模型是 deepseek-chat. f) F& d5 c. A4 D) l% T5 S
: f5 @6 O. O$ \max_tokens 最大是 8192,别的不用改。
9 x+ L) O+ _2 w: P& ]- W
& n4 j4 K; r2 n7 I7 Z/ b参考:
8 G9 m7 ^1 ~- U7 Fhttps://api-docs.deepseek.com/api/create-chat-completion
& B/ {* T* N4 g% J
2 V6 k- H7 G5 E& e% @, _: L4,费用:
B/ v. _% l3 C8 b( X1 F
0 h j! @3 n9 d0 ~ H" }2 t实测:
7 p# K7 W+ I1 w, O% O z
+ i" r/ X0 k1 b( }# l; E296K 字母,用了 9 美分。5 w* e& Y6 M* V4 C
' o- M* C" L" j4 v# e6 z) l) `! R) g英文字母 到 token 用量大约 1/3, S# [/ L; i2 S
. |1 f6 V. m! y2 ~0 k( Z
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
' `- K0 w/ O9 W4 U v- q0 B
, z6 G# ~& \0 H0 |. q32899 个字母花费 11782 tokens,包含输入输出的 tokens! Q' @( U: h4 `4 I5 Z0 Y
7 D2 K' ~+ A" M' C9 F% E0 T7 G5 t
价钱,非常非常便宜了。8 g. {# W, W: {% L
( ^9 h+ A4 u% f6 l$ A/ W参考如下可以计算,懒得算了。" ]% j: G, G9 P7 X# B$ a
! h5 R3 Q6 d/ {* M
https://api-docs.deepseek.com/quick_start/pricing
3 q8 L- `) h# R- s [: S! c+ _9 ?* [; U. o- W S* S1 ^& k0 p0 f! e" }
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
+ y' q7 S- j0 J2 D2 ^( ]' C1M TOKENS INPUT (CACHE MISS) $0.27 $0.55; X5 v$ n' M2 }- S" V
1M TOKENS OUTPUT(5) $1.10 $2.19
: U, s; C) n7 [$ I+ F
. E/ r5 H0 I0 N$ L5, Balance7 W0 h% S6 i/ h v
6 {$ P3 A" a% B# `- y1 B. A可以在程序里调用,知道每次运行结束后,balance还剩多少。9 g4 h) T& D3 s' C$ E
参考:) j: \. u: w1 E( w& g2 D9 s# U
https://api-docs.deepseek.com/api/get-user-balance* T) M1 q z" k6 L6 ^! `
% v& {8 @1 L) R/ h4 k6, Models
C( p0 r/ t% H! ]4 f2 r- ^
0 P$ W5 G3 d; k0 A0 y" f目前就两个
$ S( m* y" W8 s, B+ e# deepseek-chat- q2 I9 Y, R) N& u2 O, w5 z
# deepseek-reasoner
: f* d# {" {/ A% z( v- g |* {/ h. L4 {6 I. v( m' l! \7 m
参考:3 Q6 p) s( y7 b: M
https://api-docs.deepseek.com/api/list-models h& ~+ \4 i& W0 a. I5 F/ @6 \
" k$ Q5 \: E3 H Q* G3 n
/ c( O5 ?9 [" o; p1 S
7, 问题
! | n0 }1 p! W$ g( ?" z8 j) P- B- {
deepseek 会将前后两段合成一段。$ w1 y( L2 a6 \2 N/ c8 t( Y9 K
特别是那种大量的对话的段落,deepseek会给你合成一大段。
9 `/ J& c* [# f: Z
& s h$ L! `: Z) e3 T/ f8, 钱说了算。
, ~. Q$ q; [) ^( D
$ V! b; Q) X& O, Pdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
% ?# Q+ i. V& L4 z. \但是API就不会出现这种情况,毕竟我们给钱了。: f4 i" g! _/ r& e6 _
chatgpt也是这样的。 h. n# \! m5 e& L
3 @/ o% T, N$ \0 g7 }* {4 ?+ ~" `: R) ^: U( M& e/ d8 ]/ G
|
评分
-
查看全部评分
|