|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 - s Z$ o9 E' k7 {) Q1 B
9 i4 |8 w1 C, S' q
已经搞定. K* {; l% ]5 l8 ?) ]7 F, w
- x; b8 L; u, Z# R- }
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
' E, G! @" C& X- p% L- V) I$ T1 w1 i/ L, h- c, Z
1, python + pypdf 按章节拆分小的PDF
+ V+ p; A& e' k& r5 G! X9 u" s6 `: v- C
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile9 K" J4 Z. ?7 {/ ?- }0 Y' d
4 [$ ]4 P$ M! D- j1 \% A& q4 m
得到text file9 \/ h7 }$ n& J
' j9 h/ J6 p4 a5 {: q& P: x
3, python 读取整个outputfile,丢给deepseek 矫正。
1 C4 O$ _0 W) S. [: N3 T. d5 q! S( Q+ Z( ^. E1 C* o* X9 g: s
模型是 deepseek-chat
2 L; i5 g% P- h C8 X' Q% V0 o# u ~& d, K
max_tokens 最大是 8192,别的不用改。
; E7 P1 k, r9 x2 \, y
V- q: J$ N6 O$ z6 R" I `参考:, r1 Q3 E5 s; s0 \+ ^
https://api-docs.deepseek.com/api/create-chat-completion5 g# ]% Z) I' @9 `* r
: ]- y% T: R4 m) L9 f T2 k) q
4,费用:
$ L' K: {" i! V/ |* b; D) G0 I- S( S6 ~% ?3 e
实测:
. J0 X( Y! t8 L( p8 P1 ?$ `- B+ h
296K 字母,用了 9 美分。+ d- n, P1 A4 I; N' P. {' _
1 S9 r/ N4 g. ^' o% {0 M英文字母 到 token 用量大约 1/3: I3 O5 q! g9 |) M! x$ O. i$ j
5 Z7 ` s* P3 I# htokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
* j O0 u& m! u' g3 V! q' a7 ?; O! W" R/ ?$ z$ i
32899 个字母花费 11782 tokens,包含输入输出的 tokens
9 ]$ A, j8 b' C3 W3 n3 H/ B* ~) u$ g5 d" V, ?4 W- `/ m
价钱,非常非常便宜了。
( B3 m3 S( ^- n, z( g4 D
1 E) c9 `$ B- |* u* [$ c参考如下可以计算,懒得算了。$ b6 F5 v- |% `, {6 B
! z8 v- }" b: N" U9 Uhttps://api-docs.deepseek.com/quick_start/pricing
, r0 k% f$ b' x5 ~+ B' K4 R! F
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14" G( c" p: X! t' h9 f5 t8 c
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55+ q. x. R8 E/ p
1M TOKENS OUTPUT(5) $1.10 $2.19, }; D+ l1 P9 E6 s6 u
8 k" q' m. l! k2 M5 a; A2 t5, Balance
) K" p( N! _ ]# T# f
5 V4 M8 ?" m( x6 Q可以在程序里调用,知道每次运行结束后,balance还剩多少。& S; \' Z8 g# d. T. I" `
参考:
+ y7 D7 e0 V$ n1 ohttps://api-docs.deepseek.com/api/get-user-balance# P9 H. l3 y Z x! r1 k4 M
" r& k5 ]0 M' F
6, Models# J- Y/ Q1 D5 B" E6 @
' G# J3 \% J6 p8 c# P+ \目前就两个9 l7 W# x$ t- l2 ]9 h
# deepseek-chat
' M# H; L+ L! ^% J7 L0 v# deepseek-reasoner8 i! b7 t l$ i8 ?; [& g3 ^ q
- q, J5 M5 U# R2 x
参考:' f+ {7 e+ U5 V+ O r+ T. @$ Q# {
https://api-docs.deepseek.com/api/list-models$ E3 V, v% G$ X) y
J, Y! z2 F( s
( a! R6 |9 R# F7, 问题
4 ?/ D* f9 s' j ?9 X; S6 u: Q( k
deepseek 会将前后两段合成一段。, E$ w4 J# w, _) ?! x7 O$ O
特别是那种大量的对话的段落,deepseek会给你合成一大段。
( y2 Q2 O0 m! o; N$ F4 B* H# V# g3 _* \, c1 T" t1 P
8, 钱说了算。1 h" T+ q, k, h- U9 \
! }7 w0 {, y1 G+ p, Z2 P, tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 J* G1 F3 j% W) \3 s- z# N. y" I
但是API就不会出现这种情况,毕竟我们给钱了。9 q) \3 x# O$ d7 ]
chatgpt也是这样的。
; |3 k7 c1 g; V/ G! ^( C, n+ u) A; W1 f" W" x' n) n
4 U& m7 c/ z4 S$ f, E! u; E; { f
|
评分
-
查看全部评分
|