|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
& p2 _' H6 p- O0 r3 p C1 q
+ l. o! N4 M! ^0 z. Y$ i- _# k已经搞定.( i7 Z* L. e, v7 ?3 V& ~0 B" r0 n
& U- c) R5 [7 _! p+ Y' L首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
; c- d/ u6 i( T7 s/ R5 n
- N" x- _/ `, B$ X1, python + pypdf 按章节拆分小的PDF
- L: Y" h9 K3 ^3 j3 {1 Q0 {: p! E: s |# T
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile- i6 J" V6 c w) v# H/ `
+ J7 d3 W: p7 z" c4 d- [
得到text file
4 r+ h. X8 K& v: K6 V$ L7 g4 R4 Q, t3 t9 b" P; h: p
3, python 读取整个outputfile,丢给deepseek 矫正。
. r# K/ v5 a x% b, h) ~6 y: c9 S+ n" F- u5 Y
模型是 deepseek-chat+ ~! ~9 o& y# Z0 |4 r% d; d. L
4 H2 j" s$ T' ?* ]" B2 x
max_tokens 最大是 8192,别的不用改。3 X2 R* z. {2 W: H9 p V% ]: p) z
5 s% G& m& j) `, t6 b' v, N4 h. R* Q参考:
: c7 l- u4 @% h& K+ R1 _6 {7 n vhttps://api-docs.deepseek.com/api/create-chat-completion ^: |' H8 m0 S. Q4 Z
! k% W$ V9 N) W3 m! f! E: ?9 f$ S4,费用:6 @9 ^2 e* w+ `* _
$ {, t$ P7 A6 \
实测:, w0 l l. b c0 ]
) ?. X8 W! \* [0 u6 V7 x296K 字母,用了 9 美分。: [7 Y( t9 W% x9 m8 r( I
5 A0 q8 c2 x- {+ O
英文字母 到 token 用量大约 1/3$ E& s x0 \2 D/ [* W
, w/ c1 L7 y" \0 \2 b4 _# W
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
# Z' g2 Q0 z8 p: {# H* s% n' p
0 ]' E" a7 E% _) j32899 个字母花费 11782 tokens,包含输入输出的 tokens
1 ~1 t. Z: s" u7 x7 m4 m6 h p$ i v s! H
价钱,非常非常便宜了。
) e( Z$ y$ ?. d( ]' v+ Z/ q- \; C, x1 e9 o1 c# ^; k; |# ]4 _# c& I% x
参考如下可以计算,懒得算了。9 A# v, r; _* e( B: v5 ?
# h. `+ P8 i- U" k2 `* Uhttps://api-docs.deepseek.com/quick_start/pricing
- X; L v' O V: n/ e( f3 u4 k/ O6 V% v3 I
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14; b# P, W7 D5 W1 e+ K) c% o
1M TOKENS INPUT (CACHE MISS) $0.27 $0.551 X- G6 g, N3 c
1M TOKENS OUTPUT(5) $1.10 $2.197 }; [6 I6 v' v1 j
+ C# b6 y3 _- n; V& | l5, Balance6 Y/ e9 g! d; v3 k/ |* x9 `1 a
1 P$ Y8 ]. G. z
可以在程序里调用,知道每次运行结束后,balance还剩多少。1 M. y+ ]) l# h) f
参考:9 X4 O) n7 r; R
https://api-docs.deepseek.com/api/get-user-balance" Z) m/ i/ K8 [! P/ R/ B
9 B9 }7 a9 Y$ T5 A1 E6, Models( d& \8 h; P+ O7 c5 j7 Y+ Q/ ^3 q
$ Q, G( |2 N7 I, ^目前就两个
# i3 w+ L$ E# C" s. }+ U3 F( T. t# deepseek-chat. t+ R' t, J6 n; m/ e7 N, o
# deepseek-reasoner- M7 ?% |0 c+ C- _5 `( R2 g
0 b- r0 h) K7 U% @3 w# p: M
参考:2 x' d% Q; c( J+ f; L" U R
https://api-docs.deepseek.com/api/list-models
$ J8 _9 i# O7 M* X+ [( b" \; f- E' q ?8 [8 g$ S0 z. Q: x7 B9 I
' {% S# A: |# U" D8 a% A. D, h7, 问题
u1 O U4 ]# o# j/ i
& L4 K& F8 a0 L. N K" p( G) q! Pdeepseek 会将前后两段合成一段。6 n' k7 G6 r: Z+ ^' @# C) K
特别是那种大量的对话的段落,deepseek会给你合成一大段。4 j" J% k9 f# }2 Q# g. W
' @: ~" x1 F' X3 C8, 钱说了算。, n1 ~. j, t5 G, M) Q
{& S6 W$ |. e7 d4 Z! K* o# m# q! Q, Sdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) D4 X, V7 z9 x% }# M8 R
但是API就不会出现这种情况,毕竟我们给钱了。
+ |/ l% C# t t( Ychatgpt也是这样的。" g1 O" S* _2 E/ f0 l7 t! ]& [
7 }1 S0 G, p+ N
7 [ s! j9 j: j* _/ G |
评分
-
查看全部评分
|