|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
. R- o9 V7 U! ]7 l4 o! ~3 B
3 j- x$ ~9 W+ _; `8 ^3 i已经搞定.
V$ t+ _+ C& ~, m1 r U7 h8 T' ^/ u9 f
, m* O! q6 @! W4 z首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。) t; i* z* r3 ?8 g7 C
/ I, q/ }5 R2 D1 y& \8 C; w
1, python + pypdf 按章节拆分小的PDF4 t' x; E D& O
$ X5 g' Q% ^! Y& h" y: ]0 P
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
3 { g" H6 E+ ?6 x
3 n& G( [7 ?: a, J得到text file
4 d2 I! j7 [6 [% n' o! ]8 W! z, B$ Y
3, python 读取整个outputfile,丢给deepseek 矫正。& E7 A2 t8 n5 _& N! D( f
5 X8 L# v! |) M
模型是 deepseek-chat4 K: L6 i" U) J9 e
. v/ E/ `8 s! Y- }3 H
max_tokens 最大是 8192,别的不用改。
5 _% ?0 d4 t p( Q3 _9 u P0 t5 b. e2 u% r. t0 T& k1 [$ d
参考:
, S2 g" j# _0 [. G% [) D! lhttps://api-docs.deepseek.com/api/create-chat-completion
; a* ^( ?2 D4 Y9 ?7 H* ^6 }, I2 a. v% L2 t7 W+ J7 j0 T" x8 p: ~
4,费用:4 J2 T3 X. `6 o) Q' I9 N* [- ~& N
2 G7 t- R$ V' k0 U, l9 L& _& f实测:
' B9 q7 m% A/ \* T5 l
: F' q. y0 m3 P( m6 p% X" u3 y296K 字母,用了 9 美分。
) T ^ {# @# q! h) {4 f
* F: I6 [% R1 A英文字母 到 token 用量大约 1/3
0 @! T- W; [/ k `. }: G' t' M, f/ J
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
; @" C j) l$ }* N
6 S$ |/ N* |/ E! `; I0 E7 X32899 个字母花费 11782 tokens,包含输入输出的 tokens2 m3 c4 @( i. f7 X% e8 p
9 K2 [& S" |3 d; r
价钱,非常非常便宜了。5 o; S* Y5 A' D$ o) J$ F" P# r3 o8 s2 m
. [# [. {* P7 x$ z# d! v9 h" m
参考如下可以计算,懒得算了。
; B9 F* s! H* T$ \
& y% ]' ^9 _0 V0 P1 Whttps://api-docs.deepseek.com/quick_start/pricing( q0 e. t2 x3 x% |) g I/ D2 N
* S( }" H6 o9 i5 Y" p1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14, N' g3 X( x8 f4 r# Q
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55: m& s2 ^, T" L% {
1M TOKENS OUTPUT(5) $1.10 $2.19
h) T# g; H- E3 S
* J/ @8 k/ v/ k- E5 f) }5, Balance
2 c" \# @$ u1 I$ w
. ]$ ]! X3 I8 U1 {, q可以在程序里调用,知道每次运行结束后,balance还剩多少。
; C. U6 R; p' [; j1 ]参考:
0 S5 S G0 f: Jhttps://api-docs.deepseek.com/api/get-user-balance
( a- i8 E. O' Z, Y, L9 Z
: k8 k' H5 M& X7 ~1 P8 H3 v+ I6, Models
) G: _ B7 \ \* [" a M& |! }0 q
% W a2 u- p1 F0 H0 m/ R2 ]目前就两个
* }0 q Y8 h9 A" Q8 a# deepseek-chat p# v6 p$ r6 \' ~% K4 V
# deepseek-reasoner: I( F" t6 [. \( ?
+ J& B& Q. c- r4 K' s+ S
参考:, H/ n. X: L6 s4 J: g5 `
https://api-docs.deepseek.com/api/list-models
8 W- ^$ B) x8 v$ t; O
2 R5 o; K. ] |" z8 U3 [' S
- d( ]: r& f$ D" T; U* l7, 问题6 g* U5 ?. O/ q1 w* p; w# s
% j' @) [( G# K6 |deepseek 会将前后两段合成一段。
, C$ o$ d9 e2 m$ ~- g特别是那种大量的对话的段落,deepseek会给你合成一大段。* p4 v* X7 O+ Q8 k' @
/ L" |% ?1 a" z/ t" u9 Y! T# [( n
8, 钱说了算。
: a. d9 X7 R3 {# D7 Y4 L! G* Z3 W0 p$ ?) m: G
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
7 n0 } j) I% w) R! a4 g% {6 m- e但是API就不会出现这种情况,毕竟我们给钱了。
1 f3 b' c6 j0 s. l2 S1 M" g# ichatgpt也是这样的。# ?! o/ h7 a3 Z+ J* ?" W$ A, j
% _* |/ n; Z0 H# B* f
% [4 ?5 D% q, Q, ]( ]" F( |
|
评分
-
查看全部评分
|