|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 6 \* F$ H4 a: o/ G& Y4 a- @* _7 _
; b- w1 h5 K+ r0 k, Q+ H已经搞定.+ y" x: `2 @7 n# w! S9 _3 t9 Q$ J. Q
5 h! E4 V0 z ~5 O0 i首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
+ _' [; S) A: f7 _
: i! K0 O. _9 }, S7 G1, python + pypdf 按章节拆分小的PDF
0 F5 n. ], q) P/ ]- H" r7 r r/ T* D& O
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
N# N& o4 d8 S Q# `( O8 h% {: k' f. V$ d& n& w$ p" l
得到text file
( @# S' r, p5 ~2 k: T1 s1 V5 X
) Y! v9 v7 K" c* k, m1 E' I3, python 读取整个outputfile,丢给deepseek 矫正。# N' i0 ]$ ~1 [
4 q) m0 [. o; P模型是 deepseek-chat5 F5 J2 a& w, m! d
, A$ o8 p/ p8 Z" ^! W9 w% k4 w
max_tokens 最大是 8192,别的不用改。+ }, J, \9 _6 s/ I' Q9 H! _2 m. I
% Y; }( P- i. c7 P) s* y5 J: {参考:
6 P. W( ^" }- D1 n' F5 t4 Fhttps://api-docs.deepseek.com/api/create-chat-completion
+ z; k; ?: p! E
7 i! R$ u: [' z% Z/ P4,费用:
8 l b2 F( p U% n. Z; H% m" [% ?+ m, K0 @; f
实测:. b, K. e( R' N& u/ h5 }
. i- E- Q0 b' M" k
296K 字母,用了 9 美分。
4 a1 z. ]( }6 ]" C* Z; r# K/ h& l+ o% b4 }; N2 L
英文字母 到 token 用量大约 1/3
" A, Q3 h- u1 J" Q
: s1 o* m. {6 z2 R0 Z4 r7 _& Ltokens: total, 11782 completion, 3729 prompt, 8053 | s: 328996 U& c6 ~4 k9 J- i( R
7 ]" F/ r5 I/ H6 j/ r32899 个字母花费 11782 tokens,包含输入输出的 tokens) m: Z0 b0 Z0 n/ P- \; s# n$ N: m
8 I* Z- l+ E3 S( A- g
价钱,非常非常便宜了。. R( N2 c) Z* B0 R/ Y
6 ?/ t6 z3 p( a( S参考如下可以计算,懒得算了。
# Q3 h$ |/ y8 U! c% c% ?. g7 T/ Z) K, Q+ y# ?; J8 i& I8 k
https://api-docs.deepseek.com/quick_start/pricing7 M# w0 M, t& Y# a2 t! k
; n& D j; \/ d/ i6 F+ B2 I1 R
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14) b; ^: R' y0 G( n
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
0 O f6 C' s. r2 c, w1 w1M TOKENS OUTPUT(5) $1.10 $2.19( a H8 _% m& y) W1 q6 Q
+ s3 J3 i' z8 Z- b; C9 N% `
5, Balance
( U6 D8 T" }1 b. p) Q" b
8 ?' C- }( \! s3 Z3 ?# [! m/ I1 H. v可以在程序里调用,知道每次运行结束后,balance还剩多少。
9 h& D% o1 P- Q! ]4 F参考:
* p- G9 U- Q) S# }- J2 R5 Nhttps://api-docs.deepseek.com/api/get-user-balance
8 w5 ]5 _2 H9 D! Y' n" m, K1 `0 j" e4 ]2 k
6, Models- |5 B8 S, e z
+ V- ^. _* \" g
目前就两个: O6 r( f0 U* T* }4 q
# deepseek-chat
1 s. w4 Q# D/ J. V, x: h# deepseek-reasoner
" b; g) M# N8 s2 ~9 o! H( X# j, d! D) L# A9 ?: `2 \
参考:, C* U7 P0 p3 j2 l( p
https://api-docs.deepseek.com/api/list-models
+ `+ }1 D& I2 j& N: q; [ r" s ]# V$ t8 x' k
! Q- u. D9 [* Q
7, 问题, {9 b: B: ?" F, n' |" I
! G. q# O' B) ?0 m3 ^deepseek 会将前后两段合成一段。9 I" _3 K, u d$ ?/ _
特别是那种大量的对话的段落,deepseek会给你合成一大段。 w6 ]1 B% Y, L, J! T
1 c7 I6 U! A7 _5 G, [: W8, 钱说了算。
9 Z' l6 g7 q; d2 ^4 Y" ~ s b7 c4 F) w7 b
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。+ A% C4 r& R) B# `) \
但是API就不会出现这种情况,毕竟我们给钱了。
0 x, h% Y4 H8 H) Ychatgpt也是这样的。7 \3 V: `# R" C8 X( M b9 @6 N- V
6 @: _) V8 i: U) P
- @; s7 C0 {0 U+ k5 k
|
评分
-
查看全部评分
|