|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
0 P* d( n( d/ M, P( s1 O: ?
* F% x; K+ K$ G已经搞定./ B4 {7 x+ v. H; L( @
$ S, h5 f" f7 }$ A6 H! `首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
5 r9 o: w+ z. `8 I
, R$ W9 f( f2 B1, python + pypdf 按章节拆分小的PDF
3 {2 k2 N3 F& I, X! b9 f( k h4 T1 u
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile8 Q; ]0 ^% J9 {1 O
" w' A" s* b9 T* |5 q3 E& V; F
得到text file
. s" s( c! w8 E; R3 X+ y9 {8 R+ p2 R2 @! X9 |' T ?3 l8 [ D
3, python 读取整个outputfile,丢给deepseek 矫正。
( R/ [9 ~3 k7 |' Q; s9 p6 A
9 x* _1 n5 l7 T; k4 E! W) x模型是 deepseek-chat
. C9 o; k7 O" n! W7 t1 Z) R0 [/ h$ P0 X
, j" N9 c0 v3 {& T0 g7 Ymax_tokens 最大是 8192,别的不用改。# ?, `( u" h1 A2 k7 K9 v7 V7 ]
9 m- k; x& Q: l
参考:/ Z" u& e* ]* k' r0 Q* y$ H$ {+ T
https://api-docs.deepseek.com/api/create-chat-completion
, T- @$ e* d9 o% a. d: I( u+ G) `8 E
* `3 r6 G9 i% h8 j4,费用:, Z, {+ i8 c2 f4 g- Q- T
; U) U1 J+ B1 H
实测:
2 w3 s/ i' d! \1 n9 E$ c+ W. M. ^& h, O! k7 t6 Q7 j
296K 字母,用了 9 美分。2 D7 q9 @: [. V, @) s+ z; O" c5 S) X7 B
m" r$ N$ n! Z- ^, a+ a英文字母 到 token 用量大约 1/3
# E7 c9 X) X3 ^6 ]8 W) a
3 h- r) u- P" Q- Rtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899! A+ z# y! C. c$ U
. U1 d d0 q, n; R5 u
32899 个字母花费 11782 tokens,包含输入输出的 tokens" f2 o1 p7 D6 {7 [9 @
0 v/ C/ ~4 d# s+ r- L
价钱,非常非常便宜了。
: p, Y, r. b' G& Y
q- l3 G2 p+ ^. j9 X2 N, u参考如下可以计算,懒得算了。7 C2 I& N% W% b& v- G j
9 A% @6 `9 R1 S c# Nhttps://api-docs.deepseek.com/quick_start/pricing# O g4 r. A E# j: M2 P
# }8 C! a6 b1 ?# O5 o- ~1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
) G% l0 Y d9 P. A3 \( O1M TOKENS INPUT (CACHE MISS) $0.27 $0.55* S4 K @4 _" c& \+ T$ z& D
1M TOKENS OUTPUT(5) $1.10 $2.19
3 ^/ k+ Y( `# ^6 f0 N) s4 `* _0 g U
5, Balance
; Y% B" m! g Q) v6 T3 ?! \8 k- y1 Y3 d# A t3 {) w3 j! _0 f
可以在程序里调用,知道每次运行结束后,balance还剩多少。
1 H' x/ Q$ M7 l2 ^4 T! v" U参考:4 Y1 m5 L5 H3 F# h
https://api-docs.deepseek.com/api/get-user-balance, \' ]2 w% s+ u" B& W5 h
0 f D# _; ~3 G5 q& H, m6, Models
; Q/ _. ?% N' z4 o1 D
6 n. e9 m7 q0 T1 k目前就两个
9 q7 n! ]; y0 u+ ~- \- d# deepseek-chat
* C+ w- l9 S) ^4 G+ E5 I# deepseek-reasoner
1 h9 m" U5 h. M, F$ A2 L8 f. s) D9 J
参考:/ y# r6 @ k6 F4 f7 z
https://api-docs.deepseek.com/api/list-models
1 H0 ^5 c) u. B; e2 T8 g
/ Q F* H* \2 ]
0 t4 J. _: N" H* w! g+ _% J4 W7, 问题
% S3 } m! I, ~9 Y* ]/ ?9 g0 A) o, o: l6 j2 A& H: _: m. c
deepseek 会将前后两段合成一段。
5 D; r1 H2 a3 w s& I5 T特别是那种大量的对话的段落,deepseek会给你合成一大段。
7 n! V' S9 X7 e) D8 w% O. W, p4 N* Z2 r
8, 钱说了算。" ]" J3 n8 E1 Y( i+ l9 J. |" j
6 G, q, f5 y# ` l; @ C5 C3 \2 i
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
& |4 S ^/ `) L但是API就不会出现这种情况,毕竟我们给钱了。6 D5 Y8 J. t. t+ p
chatgpt也是这样的。
/ |& J4 L+ P8 e: k) n# h# U
6 u0 w u) a( j! S, T! L! ^9 s# C6 A; G2 s ^4 [- I9 R1 e
|
评分
-
查看全部评分
|