|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
) s8 B& I! H3 W) g3 i! y# F/ x: Q/ `$ X* a
已经搞定.
9 L4 Y4 ]2 v1 Z1 B, q
2 q8 T: T2 m, ^) A* ]首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。5 r# A( d; x; S/ p! g2 D7 _
4 n: J2 V8 K; u9 ~ |9 q
1, python + pypdf 按章节拆分小的PDF3 o5 u- I2 y* u" J, g% s$ U
$ P( {4 D! E% n! p7 H) ^- M2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile! n9 i v. d Q# ~
- h4 x R0 ~) V
得到text file+ M! L, T: ~" }" {
/ S/ [$ e6 L# G9 d' K2 O/ ]! I7 d* S' L3, python 读取整个outputfile,丢给deepseek 矫正。: V2 c3 q. z% Y. Y/ [9 q
2 s' W- Y5 L1 M: t2 H/ P5 K模型是 deepseek-chat' W9 _! j- H2 }/ x2 r- r
; x8 Z/ ]1 Q$ l& umax_tokens 最大是 8192,别的不用改。
& U- W, M) f' E+ F7 a2 u/ v3 g! r( w" L3 h4 x4 y3 g! W
参考:/ h' b7 p G4 I
https://api-docs.deepseek.com/api/create-chat-completion# h' j4 o! q6 m1 s8 B
) q) z: ?9 S/ ~# E
4,费用:
! \$ W. Y9 D; _- }
" a8 f) n( [9 P$ \实测:
2 e; w, |2 d5 J$ K8 L
3 N. z9 Z, K4 A/ B6 o& c/ @0 z+ V296K 字母,用了 9 美分。; Z# P+ u# w! D1 H
: z9 V* x! E; c) K; T
英文字母 到 token 用量大约 1/3. W* }2 g/ Q8 S
9 Z G, [0 \) z6 w: ?6 S3 Etokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899: i4 Q+ v- b1 J( \+ W# q2 d
# D, V$ t/ H1 [6 ~32899 个字母花费 11782 tokens,包含输入输出的 tokens
- y5 ^( B% H- D6 l6 b
% Q- e( D5 x/ i2 q0 J4 ` @价钱,非常非常便宜了。
Q) @+ ` j5 ^$ z3 _
3 v; X- T9 k7 i$ C5 Q参考如下可以计算,懒得算了。
& q# P! [9 h( m
( r+ ]9 J! S7 @https://api-docs.deepseek.com/quick_start/pricing" c: t8 n; h3 r' [7 H, Z' t9 K; i
( f* h7 {# K& N. s1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.149 A3 X9 N+ |5 s) C5 A4 w
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
2 l6 H4 |# M( ~ {1M TOKENS OUTPUT(5) $1.10 $2.197 k4 g# p, F7 l5 W% C$ c4 o
$ ~, H8 Z7 u G* v" S
5, Balance
4 b3 |3 u9 H4 c. ~0 [1 M3 Q7 c3 g% F1 V6 s; t
可以在程序里调用,知道每次运行结束后,balance还剩多少。
, A! a/ |, ]; H参考:
7 d- @3 g4 H8 `https://api-docs.deepseek.com/api/get-user-balance
* y; a- ^9 C6 |1 k+ I- C
( O. d$ @* s" |1 H7 j8 u# V+ o6, Models3 H/ f. Z0 N5 f
5 {8 d7 y& T; @9 ?目前就两个
0 e2 h" e7 n8 F+ z! P9 c# deepseek-chat
6 q; s. e, }0 y5 M1 D# deepseek-reasoner/ o7 w7 y' j8 e" J' T
5 R2 K3 n$ w; l3 s& M* B& w参考:
- |/ W+ j" D5 Y6 J Rhttps://api-docs.deepseek.com/api/list-models
: _( ?( R. s7 l5 A& X+ d; u. V( D u6 x% k, h
$ y- c- r- |: ?( f$ m6 v
7, 问题4 m [" z$ M1 S& T+ R z
2 h3 j: k4 D9 q0 V% {9 v6 Z# e
deepseek 会将前后两段合成一段。
& @; j0 ]' B. Y特别是那种大量的对话的段落,deepseek会给你合成一大段。; I) b( {# W/ U7 h; `
0 Q( _" F5 H/ ]3 Q8, 钱说了算。( \1 }9 i* p, a2 e2 S9 [
7 } C# f) n; m+ I9 H( C1 x( Gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
9 D( C% G, `+ t, V! r; m但是API就不会出现这种情况,毕竟我们给钱了。! |% `6 }) o; v0 o! G0 \
chatgpt也是这样的。
! ]4 V! D- y+ ~; R1 [0 m6 v8 b: T3 g$ X" x, R; j
7 h a9 t2 H- a" [: \, z
|
评分
-
查看全部评分
|