|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
8 B9 ]* o3 s5 X' O" ?+ v. V- u& ^ E1 o5 I, ]
已经搞定. b& O# g: F! _
1 T$ S9 l5 Z9 i/ c首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
0 Y1 d2 b r) \; i; R2 t, X' @# `8 H# F0 `* l' S
1, python + pypdf 按章节拆分小的PDF7 ^% I9 ~7 a2 j
5 E4 {, v1 Y# h8 l8 k4 E; g
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile6 {1 C% ^" v$ _ a4 c/ w
7 w6 N ^1 Y9 K3 ~# E/ {2 w
得到text file) v: z+ c- {' \. w) j2 S+ _
`- t& Y+ I! [' ~- g% C: M7 k
3, python 读取整个outputfile,丢给deepseek 矫正。( I! H n9 s1 T" M/ X
& `& s8 _/ R, T$ [( q6 A$ i模型是 deepseek-chat
: ^% Y) d+ y) [5 ? e0 _( S5 J. Q0 p1 Q% @$ A, r8 N
max_tokens 最大是 8192,别的不用改。6 W7 _/ o8 Q& U/ P# ^& ^( I w
' v/ f/ a- ~3 A- e$ r9 E/ ^, V
参考:4 o" E* s3 j# Z0 E
https://api-docs.deepseek.com/api/create-chat-completion; d7 u& d0 }* g% E) M( J
5 F, p3 s. v5 d% w4,费用:
2 a. v. }. o" W- Q# d3 D( ]# t* k% z1 v v% {8 Z. T3 _; Z
实测:$ i/ @ h9 R" `7 a ]
: c& H) N: h8 e8 `296K 字母,用了 9 美分。
. ~5 d. |1 Y4 D# ~
4 i- `' i1 n, Y4 Q {英文字母 到 token 用量大约 1/32 J8 w# I5 W. J6 [) G7 ~3 f. J
" s6 T+ U _: ~% ~7 Gtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899( l: n6 Q/ S ?( K2 r) g1 S
' d. F4 a$ u* p# x, n& y
32899 个字母花费 11782 tokens,包含输入输出的 tokens4 K% G: s3 Y- ^( y/ ?7 {
4 @8 c) i& `! V$ o x1 V6 n* C! x价钱,非常非常便宜了。
6 U, ^, Z! V8 S0 y
9 Z- O3 y+ H6 m5 l8 @0 [) S9 s参考如下可以计算,懒得算了。7 I9 J% D# a/ R+ ~& C ~) j, A9 f4 |
& h7 g4 E5 s1 S% V# U! yhttps://api-docs.deepseek.com/quick_start/pricing' ?& N5 q/ s/ _$ X- x1 ^4 B
3 f; E. M% E3 i: C0 J3 m" Q$ s5 A1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14) _ u/ N, \9 X
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
" ~/ p* Z" B |: i1M TOKENS OUTPUT(5) $1.10 $2.19: t3 Q: n+ f( w' p' E
+ s7 R( j' L! v5, Balance
/ U3 A4 F, E, c& Q3 ~
; F+ ?8 [6 D- P: M6 w6 i! E可以在程序里调用,知道每次运行结束后,balance还剩多少。
' ~9 \* E) k9 S7 W' P参考:
. N u: u2 @3 | Thttps://api-docs.deepseek.com/api/get-user-balance
( [* F8 j( N0 K/ I( V# K* ~8 O3 j
' L. ]$ Y2 P+ `+ L# p" u, t4 M6, Models
, f5 R7 c5 t2 v# D9 J5 b# S
. ^ @+ S# C6 b, G7 |" N目前就两个, h/ `3 u+ r( D. c" a
# deepseek-chat
: A/ [+ S4 `% A$ ^$ \" {# deepseek-reasoner
2 m* a( C3 d* m- C5 T& J% ^+ N) p
) t+ \+ N' H7 n8 U: g5 v参考:
, I( X2 T8 }6 i1 W. U; i/ ?https://api-docs.deepseek.com/api/list-models
# Z9 K/ `: D; M9 ~/ I8 t. I6 l* |/ P" M! b+ ?( |6 \
+ V; B8 b9 L/ z
7, 问题* _9 t# r% S, X% v
2 q) v8 U& d7 g, x( J- B. g
deepseek 会将前后两段合成一段。
9 B: T R& q! _. l. l" Q2 N; F特别是那种大量的对话的段落,deepseek会给你合成一大段。
1 P/ P! D6 c/ P7 c S4 H7 y2 S1 a2 _: u
8, 钱说了算。
) i! [( \. J. R! ?4 I( W" P9 j! X7 |' S9 i. r3 u& e! C! v
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
2 |/ b0 x* `2 u! H5 _/ t$ F1 v- L但是API就不会出现这种情况,毕竟我们给钱了。
8 D' q( T" _1 G& D3 Pchatgpt也是这样的。
2 p1 c% x% N4 g, x! D0 V/ I! Y0 h" b
" E7 H, t+ A" C& i |
评分
-
查看全部评分
|