|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
* {8 a4 s1 m6 F% Z" B1 c! k, P2 ]8 p" m/ C
已经搞定.
8 H) i2 A+ x' ]3 Q- X4 b. a0 y# e8 M! V: A* p! O* h1 ~
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。0 ~& ]: o9 P/ V; O! m$ U
; P* ]- D3 f# p& I9 K# g2 i" ~1, python + pypdf 按章节拆分小的PDF
& A: n6 i; J& y' d8 f
* q2 X! V# f! i! i- V2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile- H6 g. b5 W, f3 N
, M9 Z9 Q% V' X3 b& T, T, _
得到text file
% S" v4 @; Z" H4 I9 k
/ n; j4 |, C3 |' z4 f3, python 读取整个outputfile,丢给deepseek 矫正。& W) b- o4 O+ Z1 c' n. A
0 v7 E6 H8 N& w: E( _) l p
模型是 deepseek-chat
% i/ G) Y- F; _. ~% p; c* G/ v9 R' F" S3 Q( ~; \! s
max_tokens 最大是 8192,别的不用改。
! k+ n6 {( N/ B8 q/ V5 ~
; \& O& R1 k/ y; y$ T4 Y7 {1 o* ~7 X+ a2 n参考:
2 K, l) g B rhttps://api-docs.deepseek.com/api/create-chat-completion; t& T7 U- P& {) ~0 f# K% m2 Y
+ D1 k7 ^2 @+ Y9 ]% ^) Z, v' W
4,费用:" i- Y& T. Q' S: ^
0 [/ J6 z& z" \2 ], @' z# G6 H
实测:
& @7 u9 w8 h* |9 G. B) |6 o4 i W2 G; v' @$ L9 s: A4 t7 @- G/ q
296K 字母,用了 9 美分。! s; ?2 o0 L0 u. l$ R! p! V! G
/ Q+ E- ^( N. y1 m# G3 F( n英文字母 到 token 用量大约 1/30 p# O# ]& Q! j3 Q# B- t
2 N( L& z$ e$ c1 utokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899: z5 D r8 A4 E9 y5 K
' e2 g+ O, b, f+ r- n( D1 s
32899 个字母花费 11782 tokens,包含输入输出的 tokens
. u8 l i& ? `2 \' _3 y% `; `4 |
价钱,非常非常便宜了。1 ]) j& ?- C2 [6 ^* W6 n! \
" c7 _& Y( T/ s3 R+ y& |
参考如下可以计算,懒得算了。' s! K& x" X+ n6 B M
/ a5 H; c+ t: s" f3 X& b1 o" v
https://api-docs.deepseek.com/quick_start/pricing' u; w8 T1 j% z8 x( P! G* ^9 ^
5 X; ]7 ^0 a7 a
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
- `* ?/ R! G/ X7 l0 O1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
: O3 d3 t& |1 d7 W; w7 M9 u! F1M TOKENS OUTPUT(5) $1.10 $2.19$ y/ Q) X# B: ?, z5 ]3 N/ |" ]
6 b/ S8 q8 i& {) }
5, Balance6 G, m* k% E8 J: ~) r
' d4 k! f1 g8 _3 \& V5 I" `5 N可以在程序里调用,知道每次运行结束后,balance还剩多少。" X2 X1 A& G- }" d5 T6 w( S, z
参考:( ]- v7 x' |7 R4 u3 e6 y6 U
https://api-docs.deepseek.com/api/get-user-balance
0 S, F4 l8 N. U, d/ S8 K! F, {1 E* M% k& n
6, Models
) H2 G/ i% g; X8 a9 q
" E. z7 x; S. ?# q目前就两个! X7 j h0 ^/ X T |
# deepseek-chat( T% @$ S6 V: B9 c# Q7 R7 d
# deepseek-reasoner5 ^. L: h. q) W8 w2 j% Y. Q
) g# I% a. ], ^" c- ]2 K
参考:& C+ A' z# U" S# D! A8 k( K
https://api-docs.deepseek.com/api/list-models R7 n7 l2 i3 Y4 W& ^( W
* _$ N! I6 [ {7 M/ l
- ?9 R! ] ~; l" Y* @& g- P# H7 \7, 问题, V0 J, }4 f6 A; t( Q! @* q7 R
6 d6 a* i! o4 R7 N1 U: ?+ f% k9 U
deepseek 会将前后两段合成一段。
* M0 n; q) e9 K特别是那种大量的对话的段落,deepseek会给你合成一大段。
. S4 [4 t5 u; H& M- F2 Z, k0 G, j) |6 U. }2 n
8, 钱说了算。, W+ E" n0 q2 a: w9 a: s
" j/ K6 ]' I% J
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。, V" M) ?" H/ P. o% m' o4 ?+ K5 t
但是API就不会出现这种情况,毕竟我们给钱了。" U7 P/ ^ C1 ]- n9 u0 G& `
chatgpt也是这样的。
( Z- ~- w/ u: R
, K; |) m; ~% c6 {; L0 ^7 U
# _0 L% u# X: u |
评分
-
查看全部评分
|