|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 2 R2 V% d6 D+ k" X# X) }! _8 y
( q; E1 y! J( K# y/ D5 [
已经搞定.
p1 O7 k3 j. g* V; x1 y$ T0 Y2 h# c9 J; u
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。& L& @9 H2 ? ]7 G0 P
C! T& y2 T6 W: e( s4 p1, python + pypdf 按章节拆分小的PDF/ [/ }; }) T$ S e8 y
6 R0 G# G: L' {8 K) _1 R, X2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile X8 E0 n+ ]2 l% p6 y. p
( q, b# g( Z) a. S. G1 e
得到text file
5 B% [: x& }( {/ e$ }
% ?/ }, F9 e, r/ Y+ Z$ P# t: x3, python 读取整个outputfile,丢给deepseek 矫正。" `& Z4 P$ N7 o c& J- ?
1 P1 | v$ {6 J模型是 deepseek-chat
v5 ? o, [3 X) K- [+ _
# W5 \- H3 ?/ g7 e" ymax_tokens 最大是 8192,别的不用改。2 N* v. V# ^' \ F
, a& b- O2 v- j% |! E参考:
" A: n$ k6 G" N7 f7 |- C) I+ Lhttps://api-docs.deepseek.com/api/create-chat-completion
; j. B2 d: x( `7 R% \( s" _
, V. h. ^6 G# C. k1 R4,费用:* f: \. m5 _' D6 S. G0 L" n! i
, I- ?& l* D- M" d实测:' o% a2 y- G, d l/ N, L4 v
% K C. D, C4 L3 @296K 字母,用了 9 美分。
! y# o ]+ s7 d4 r2 P i& l0 g& r3 m8 Y6 t- \+ E$ q" n
英文字母 到 token 用量大约 1/3
( `6 Q/ r9 T j- V2 x$ q8 V2 L& h0 W: f" j/ o
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899- t: G3 m0 C/ V9 v
# l- t) F7 b8 l! x32899 个字母花费 11782 tokens,包含输入输出的 tokens
% u# {! W0 D+ f7 E- o- O/ J) D7 I) ^
价钱,非常非常便宜了。' U& v9 k+ ]% p9 ~6 A0 I( b; }
; i8 ?, r( X# F) i* ?4 ` d# j
参考如下可以计算,懒得算了。2 E: c4 ?9 ^* Q. v" x- a8 m
; q9 ?* r, j6 Y$ Y; |https://api-docs.deepseek.com/quick_start/pricing
2 x5 i. t$ ~2 l- v4 K' p
3 L% E* i6 O! ]2 a. ^1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
% C' s4 o1 f8 a+ ]6 ~' i" J1M TOKENS INPUT (CACHE MISS) $0.27 $0.55' [% D' \6 Z U9 e7 q
1M TOKENS OUTPUT(5) $1.10 $2.19
5 F/ F Q' T1 i; s# G
4 b5 ~2 K* Z9 N8 E5, Balance) D5 Q5 C7 l. Z, q, c& |& _
: m9 L9 }; @( D$ j可以在程序里调用,知道每次运行结束后,balance还剩多少。' v: X* t( k. `; L+ y
参考:. ?, W, p0 Z1 {& r4 r
https://api-docs.deepseek.com/api/get-user-balance
+ h4 M. x) T7 _+ p8 Q/ I: ? w$ J; l: [* w' C6 b2 w; j( w* y
6, Models
, l1 q/ v! I8 @- ?) O5 Q" \/ ~3 q2 \
目前就两个
, H' g- ]$ F! `- a8 n# deepseek-chat
' I1 T: g5 V8 G5 B# deepseek-reasoner
; C" w0 e- J8 S+ ]/ _ H; S/ ?% j* q/ t( ~4 ` y x5 @( l$ k
参考:
( K3 c* m: v0 Y+ X& E2 Ehttps://api-docs.deepseek.com/api/list-models
$ E7 `) B& g) Q
5 q4 b; S! ^- y _% G/ S0 A; i. N& X3 p& m
7, 问题. M& z( Q' B7 z" _
6 @: `9 V" ?$ p5 U. wdeepseek 会将前后两段合成一段。
/ u. A) D/ h# q! o3 O4 h( T* f特别是那种大量的对话的段落,deepseek会给你合成一大段。" x% D( {% ^5 B* ] N# _' ?1 ?+ }
: L! e9 [ P6 g4 t3 b8, 钱说了算。2 o; e1 C. q+ W- |9 g
# N1 `( T: ^* P
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。# y' K+ ^; ?% f+ I1 c' A
但是API就不会出现这种情况,毕竟我们给钱了。: b4 ~1 Z, \+ t4 z* K
chatgpt也是这样的。
0 ]+ U3 Z- r, x7 M/ w) C! C; D* B# a
6 D* [6 W) D T7 z% q
|
评分
-
查看全部评分
|