|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 \) V5 {' f8 c- ?& Z0 @1 r1 s
! j9 `) U/ T: Z8 B已经搞定.2 r! ?+ @! _$ E8 N
1 a. I$ t, A3 E) ?0 |: F0 ^
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
+ F( W! _5 N: D2 n6 h3 H+ I2 e* C" K) [6 W% P
1, python + pypdf 按章节拆分小的PDF
5 _; R& ]2 X" T5 V2 l
2 {4 v( n1 z) p5 p+ M2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
! |# p3 z; s9 S! v' a4 b, X" f* T0 S' X4 K3 Z1 T' @7 M/ h# }
得到text file
5 y1 w+ {5 P$ t5 @+ J" n1 j, ~" L+ v0 B/ D4 H6 P5 b
3, python 读取整个outputfile,丢给deepseek 矫正。
+ y& }! m5 L& k7 E4 J& w: g+ a, e
' L7 f% N3 t% B) }6 e; Y! F模型是 deepseek-chat
* H) f- B7 G3 v: E. ^: S! O) ?9 l! {7 k/ A5 [) a
max_tokens 最大是 8192,别的不用改。
7 I. C/ t+ r M4 B% z: W: z# @! g4 I( S# k9 S. |5 U( t8 J
参考:5 Q* y5 y1 Y# {. ^' C! m/ J, \* r6 y
https://api-docs.deepseek.com/api/create-chat-completion w) ^: V4 w2 C9 I: ? R1 K+ }
, K/ e% ~1 o& q! J ~* b. F: h( f4,费用:
* I5 }) ~: H- ~$ R" h ?. m& {3 ~3 D+ T+ }6 u! u5 x# I
实测:$ l" D' q& L4 }5 ]9 t
4 c7 ]3 D) n4 A
296K 字母,用了 9 美分。
. A% q$ v" u. O& |* v, ]( i4 Q3 x- ?8 K' A; ^) ]
英文字母 到 token 用量大约 1/3
6 y- O5 e9 Q1 Q- i2 n' W, f; K8 `+ y# u! R
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
( n5 W1 \+ i$ Y5 a% f$ U# R* X [" b& y! K9 U$ U
32899 个字母花费 11782 tokens,包含输入输出的 tokens5 V4 M) ^2 K5 t6 N' [
) e' |0 ]7 t# ?1 C7 Q/ D
价钱,非常非常便宜了。& _6 ?9 g D2 ]( O
$ L0 G6 Q! M0 O. V4 o+ ^
参考如下可以计算,懒得算了。
" E2 H Y1 n( h5 u/ \( i
/ O7 P$ c5 r U. S$ y3 phttps://api-docs.deepseek.com/quick_start/pricing3 o4 P/ R1 ^; d" s+ X! t
% M& P4 r7 o) y0 f* h+ p/ \
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
! H# m/ n: P! a7 A! J: D- E1M TOKENS INPUT (CACHE MISS) $0.27 $0.55) n* g% ~$ a, I6 }6 J- ~
1M TOKENS OUTPUT(5) $1.10 $2.19
6 F$ j" U1 i& e; t! B3 F2 w& C9 } J$ D) i* W4 d
5, Balance
$ S6 y- [7 W6 j& S+ j$ S; q3 ~* T3 E
: P0 ` [) H, { S! e3 S可以在程序里调用,知道每次运行结束后,balance还剩多少。9 h# x! ^7 D* y% X
参考:
1 n: e) O2 g: a9 A3 H" dhttps://api-docs.deepseek.com/api/get-user-balance8 Y; G' z$ f7 {& J1 S: |$ ?6 v
2 I. U4 s8 j0 V2 Z8 p
6, Models
: @: W7 r+ y" n2 i$ r
5 B) p. ]: B, g w1 L目前就两个- r1 ~5 [- {6 Z- d
# deepseek-chat% `9 J' D7 X) e7 v
# deepseek-reasoner
: K/ W5 M# N% f. N" s# I
& w5 u z! f1 f6 \% L7 v6 g" W参考:* b+ i4 Q& K$ U3 G3 ~
https://api-docs.deepseek.com/api/list-models, u6 N1 K9 D% v: ]: ?( I
1 l) U0 Q4 r- u
: L5 q/ _2 n/ ]8 S7, 问题3 F/ K# R7 e) Q$ F2 f; `
) q& L" g; s8 j6 R. ]% G
deepseek 会将前后两段合成一段。% s: {& N! P. c$ |7 ]* N, p
特别是那种大量的对话的段落,deepseek会给你合成一大段。+ N% b+ G0 B: B& C) H7 Y8 y
8 Q, a {7 e( u) h6 a. B
8, 钱说了算。" `7 x- P: X- z: g
" Z1 h6 ]- E9 I3 f) r' o8 ^* d
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) i& N' I3 V+ v2 V
但是API就不会出现这种情况,毕竟我们给钱了。. L! @0 O: R* r4 N/ P6 v
chatgpt也是这样的。$ s5 X; }5 w, ^9 |6 U) J! v
~. n" i k% K" C9 @
, ?8 u# P+ Z4 t
|
评分
-
查看全部评分
|