|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
+ c( X2 v# E, o
1 r: z0 Z- P( N' l9 F/ i. p, f0 w& F1 f已经搞定.
" h0 c/ ^. E1 Q0 L7 e8 N4 X: K( ]6 C7 ]# J7 w( O
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( _: E& {* p: [3 v
" A% o7 a4 R+ i. J4 c
1, python + pypdf 按章节拆分小的PDF1 I# y( ^7 m: }
# N& ~$ h" a: s5 M, t6 C5 ]- R; [7 o2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
6 j% D/ }3 I4 m- p- n2 d1 }1 j' q( {5 l* W+ O }' J! T! z
得到text file
' P, x, _. ^( D8 ~" ~( i2 ^2 k0 w8 B' X$ _' j' }. W
3, python 读取整个outputfile,丢给deepseek 矫正。1 B2 X( N6 F- X) L4 @" l
( [. u2 k3 N* S( j4 G模型是 deepseek-chat" S' G8 w; h3 |+ |3 E* G
$ W& ?% z2 f; b6 |! dmax_tokens 最大是 8192,别的不用改。
' H+ ?; v- [% n) b5 a
: M! q- j* Y8 F ]; I参考:/ `& G4 a( c% ?/ ~" _8 [/ h; P
https://api-docs.deepseek.com/api/create-chat-completion
/ x; y1 [" P0 p# |
( o% Q+ q! n( \3 `" r( `4,费用:
. |0 D4 C* G, y/ U4 P5 J$ }
( K4 s" b# h @: C! p实测:
) I# [: |" j' M4 B( L7 e, W7 _% b3 \6 A! J
296K 字母,用了 9 美分。' v K5 U3 z+ @7 I7 n
7 M7 K: B- o; z; Y4 L5 U英文字母 到 token 用量大约 1/3
- a/ X; s( K# Q( b" Q
\; m( L- P6 B6 u! b8 f2 b Xtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899* d5 Y' s' e- q7 v
- ?) Y" ^. l, v+ h32899 个字母花费 11782 tokens,包含输入输出的 tokens
. X4 V4 @8 w8 n; T. F2 I5 K7 C5 G" `7 C
价钱,非常非常便宜了。
9 |+ a$ H6 Q2 P* ~# I( w) o9 m4 ?4 S7 [7 w- m* @% {
参考如下可以计算,懒得算了。4 m& q0 f- |( B4 r& M3 O
' ~5 c* z. _( `0 O o, W K7 n0 j7 H
https://api-docs.deepseek.com/quick_start/pricing
' ^8 J. K! \1 f4 E
$ y0 g- m* S, U( u8 k1 C- }1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14' S7 n V7 t* P6 b
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55& a. K9 C, z7 l7 J8 l2 g( _
1M TOKENS OUTPUT(5) $1.10 $2.19
' B, `7 B9 F5 n9 J: A
9 s3 b- @% r: b0 s2 @5, Balance2 P* C/ u* j6 x: K) D) y1 p
, v& m o, O. z8 |1 s' b可以在程序里调用,知道每次运行结束后,balance还剩多少。5 Q9 q* q0 ?( ]" L+ I$ S5 m5 n1 Y
参考:
: c$ X x4 G+ L% i) B5 Hhttps://api-docs.deepseek.com/api/get-user-balance
9 j. l: ?+ \4 g- ^8 l
2 f2 C: Q7 U [6, Models4 B3 j; W9 [3 V5 J! O6 @% V, ]
6 m- r. Y8 i, ^" K5 z& h目前就两个7 a, [# M- K- W
# deepseek-chat( l( ~& n$ a8 Y- f8 t& Y; k
# deepseek-reasoner' F9 C: Q% m7 d, [
3 ]! l) Z: [& o4 e9 d0 M, v$ g参考:
' e: }* Y- E4 t' O& R" Ehttps://api-docs.deepseek.com/api/list-models+ p+ }6 k3 O% |& `: c# ?6 ]
5 F# Z2 X" E! Z3 ^* q7 V# @, o4 o: W! g) n
7, 问题
# X; d: h& U: F* o8 G/ O3 c" c
8 V6 |1 e( ~! _1 p. S, S+ rdeepseek 会将前后两段合成一段。( c" C% e( L3 c' l7 q: Z
特别是那种大量的对话的段落,deepseek会给你合成一大段。
# W( p3 u0 v' m7 N, e; }9 |' g% W- Y2 h0 Z
8, 钱说了算。
5 J" B' q- O$ K" Q4 K2 o/ m) f$ I$ Z
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
5 W1 \$ b5 x/ N但是API就不会出现这种情况,毕竟我们给钱了。. |) m2 S& R8 h% I z: J
chatgpt也是这样的。/ G6 r3 H" [7 ~& k. R0 h- \
1 S6 I G* ~" R1 a2 s
& G# `, p) T7 }7 D! e9 P |
评分
-
查看全部评分
|