|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
; v T* a) P( Y/ t0 }+ `2 G
1 m% D% W, _! s& j( ]! \; L已经搞定./ h3 \' Q, O, e5 A) H
, e( ]2 f1 U4 F首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
, Z9 _7 y& N: x5 v' R0 Z7 B. ~. {
4 g4 e( Z0 f6 m( r R4 x7 q1, python + pypdf 按章节拆分小的PDF9 c6 ^4 z& ~+ ?; f3 W
) Z" W4 R t; ^2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
i5 s+ v' s3 e& T8 b% v
6 U& s# y) P6 D5 X得到text file
O, Y" Y8 }- F4 H+ {' J- O% k3 H. X. {! Z9 c$ j, Z
3, python 读取整个outputfile,丢给deepseek 矫正。0 D/ O4 V& U( f
/ S7 h4 n1 z' }* L: z7 Q" L模型是 deepseek-chat+ r! f2 n( n! d! I) S) s
: _: t6 s6 m; c, ?" N, k9 gmax_tokens 最大是 8192,别的不用改。4 N+ Y4 x" l+ V
5 R5 Y: i# _5 i, u/ F参考:
: \0 B0 x P2 ^1 b6 Fhttps://api-docs.deepseek.com/api/create-chat-completion
- R. y, o- U6 N3 u# n) G
* m6 Z, ] S, r4,费用:
3 R" Q5 n8 N/ j
0 u' F/ q0 `3 W实测:% S$ Z0 c/ I6 A) U- g$ Y+ U
! Q% {+ Z% ]9 ?' w7 {; j) B& W2 s
296K 字母,用了 9 美分。
% l. y( j2 F9 M: E7 W0 F* s. x
英文字母 到 token 用量大约 1/3
. K: ^- P: Y7 p2 ?) Z% N& Y0 v5 f% C7 G% l
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
. g" {# k0 L% J6 x6 B- \2 \6 \/ A( Q
32899 个字母花费 11782 tokens,包含输入输出的 tokens
: o, ^8 `8 {$ T" y O0 w1 X$ {, k1 t0 N& D) P2 a' p
价钱,非常非常便宜了。 x2 A4 H" q, B0 |4 m2 Q
! V1 r- m" J8 _- Z2 v7 s. x参考如下可以计算,懒得算了。' P9 e, ~* q* P! O) ]$ ^
9 g y3 h9 Q8 o; @
https://api-docs.deepseek.com/quick_start/pricing
# D4 J; ?" M1 F5 O/ y! W% X7 A- C$ @
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
7 Y1 ]$ P) c# k; G$ m4 F% N1M TOKENS INPUT (CACHE MISS) $0.27 $0.559 c' J F* N4 o2 @# q9 J: g+ e* q
1M TOKENS OUTPUT(5) $1.10 $2.19
% l C% ?, x) ?. `/ N& i+ X& b- d. l2 j9 u
5, Balance6 f7 I. M j8 U6 D# C
; K1 ?; C4 e; H% F
可以在程序里调用,知道每次运行结束后,balance还剩多少。# l' s5 U# `2 m9 ]6 S
参考:5 K* Q) {! y# a9 L
https://api-docs.deepseek.com/api/get-user-balance( W2 ?' A, j: w) a7 j9 M8 N
# x/ Z% X; t; H: M- B6, Models
$ F: V3 p# B: Q: d6 W V8 S0 K6 e, A+ b1 K
目前就两个0 I, O; Z5 \5 N# f: w+ n
# deepseek-chat% ~' a: |4 g) T0 f& w7 b# F
# deepseek-reasoner) ^. g# P: _: ]. ~, Q
( J2 W5 G) U4 O2 B参考:
8 F: O$ |! N6 s" ohttps://api-docs.deepseek.com/api/list-models
4 P4 c: Y4 U: r2 y% l: S' A k
7 R0 R+ O; T! x& O! A# L6 X( X
7, 问题. {" z3 [/ c) Y; ]* Y+ e+ |
' K2 q5 E$ l3 V: `% v5 f
deepseek 会将前后两段合成一段。
' b$ Y1 R- D1 E特别是那种大量的对话的段落,deepseek会给你合成一大段。9 P' f4 D# j7 E7 h' w
1 f0 a: I ?. v* b/ Y
8, 钱说了算。1 ^ P, ^3 b5 F9 @2 i; Z; k
) F0 F \8 c# i/ {; Y: {
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
8 X0 j$ q% V. `( c, b但是API就不会出现这种情况,毕竟我们给钱了。
+ V+ n% l0 p+ x1 S8 echatgpt也是这样的。6 `: x0 L# ~$ `/ |# \2 I9 Z
1 p* c% Y) k0 ]6 j; B7 l8 f, p
& d* i) _! ?3 Z& z3 S% {
|
评分
-
查看全部评分
|