|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 , ]- a* B u. S' a
. W% ^, E( ]/ N) V! c0 ^2 g* `' G2 V已经搞定.
2 B9 ~& f9 u8 n& Z
: U: K3 r3 w `! d首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。! E% I! a3 Q+ m6 i a
, r; O) e$ K$ u+ m
1, python + pypdf 按章节拆分小的PDF
4 y2 u- ^- D2 I- n
, F/ S, a k7 b0 N% k& \( r' t2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 v/ L6 `6 n2 j. S. p
) m/ _0 r0 D4 @) g. m* k% q得到text file
& Z# U% M! j( N2 j! C0 J5 I3 z, l" p% t' y6 _3 S3 j% @
3, python 读取整个outputfile,丢给deepseek 矫正。
3 r& l; j) Z O2 d- f5 {/ \* a5 W8 r
模型是 deepseek-chat
+ e: c4 y; Q9 b. U$ w4 b. f0 v1 I
, }8 Y6 N# M0 C1 y: Lmax_tokens 最大是 8192,别的不用改。1 K6 k9 [3 p% h. e4 R" }, ]
& t. @. m0 y! |& [5 `参考:
$ `4 l3 V: C2 d, z/ H( Y1 Shttps://api-docs.deepseek.com/api/create-chat-completion" c' I4 k" Y( s) c" E H4 n/ t
0 h- E$ i5 b }4 B9 _3 d6 F8 A
4,费用:
% J& E; q+ m9 F$ T9 a8 f. Y, _: ~0 P D' d1 c3 i
实测:
1 y9 {5 j+ d1 T" n. {( X
- O4 t2 }8 o9 ~; e( A7 N6 u& ^4 y( Z296K 字母,用了 9 美分。8 @; E2 y; d5 p+ |4 e( O
7 a2 G; y5 [8 w0 _
英文字母 到 token 用量大约 1/3) w$ D* h U7 i9 p. Z+ D/ C
# \) {/ C: r, E! b- g+ t
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328996 H' q/ Y% A$ u2 u; s) X/ K: R
7 L- f0 x( Q3 O4 @9 Y. L32899 个字母花费 11782 tokens,包含输入输出的 tokens7 i" \5 v% z0 a j0 K8 C
( A6 _9 u$ c# x. V
价钱,非常非常便宜了。, R8 h3 D/ m+ x: l4 A2 p! m; x
& k* S# U+ _8 X8 H+ H, r3 U参考如下可以计算,懒得算了。
) @+ B2 M+ E- F& k9 ^+ D/ m8 [2 O3 f5 _! `
https://api-docs.deepseek.com/quick_start/pricing
/ B; H6 ]1 l6 [1 ]
) f1 X2 |! V6 m% E" w, N1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.149 r* A1 Z2 {0 s5 l5 E6 {$ G
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
, v* B! [0 c3 G" ~! B1M TOKENS OUTPUT(5) $1.10 $2.197 k! i- X& y$ s# B- T
. E8 i6 O/ D9 k7 E& O, ?7 s+ R
5, Balance
7 L8 o s7 n% b- F' F9 s
9 M' k( L# C0 u可以在程序里调用,知道每次运行结束后,balance还剩多少。
; y0 L2 p, Z. v4 C, d! o% W5 F参考:8 \. Q: d( l( @* w( _6 M% G k. G
https://api-docs.deepseek.com/api/get-user-balance9 z- i& K* M4 @3 b/ C( [; K" A
9 H2 h/ o1 B! |; ]) n. j
6, Models" c; t5 H, V. ?. z( z8 }) z
3 V: M" O* _! K% k( H( I5 t目前就两个
0 v% Y' E8 t# s4 T# deepseek-chat+ t& c. f3 U" H1 m/ K5 ~3 ^5 q
# deepseek-reasoner
3 s$ t9 q! k: P9 I2 g( p
- E& A( _) K# o0 T l. P/ j% p参考:
8 r# D4 R$ `! F( t. Z: l6 s7 Uhttps://api-docs.deepseek.com/api/list-models
; K% A3 W' {8 h! R- J+ W1 K, L
. h( N/ |" ^" W# V) F) z
4 b8 {5 Q6 U. K: O7, 问题
! V, K# Y9 L4 N3 A- d( V- U7 r( L
deepseek 会将前后两段合成一段。
) n9 k0 z6 ]) L: x9 W& f特别是那种大量的对话的段落,deepseek会给你合成一大段。6 s. [" z2 j# f$ z& Z) F* z
6 H* U! @; i! M* j6 J
8, 钱说了算。
# ^. v; H" i/ y# \9 ^* @% u
- h" G1 A/ Y: y( g, }deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
0 H/ g* U% M4 g' X) _; m1 E) Q7 o但是API就不会出现这种情况,毕竟我们给钱了。4 z) F# F) r/ n" s, _' G/ u9 R, n* C
chatgpt也是这样的。
8 a, H) Q# Y4 @' b
' a0 r0 ?/ P* F
, x- x) P: v: s" J- W( _ |
评分
-
查看全部评分
|