|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 6 I' x, T- }4 L3 }) Y6 r9 m
; V: w7 m2 Q9 {4 I7 B- Q4 S# j- s' A
已经搞定.$ U9 G# \6 j" D5 r1 i
+ y3 b ^) X# E首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
! k% V- G& A, z9 ~. }! ~( S) X# k2 a8 Q9 A
1, python + pypdf 按章节拆分小的PDF
" P+ W! p; k" F8 l" R( v9 h: r9 a9 F6 G& o
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
' d/ u: L8 `* W! V) ]1 _8 S# u) t8 g7 w) u. n
得到text file
* d9 y+ _) o8 |# z# M1 g( |9 L# x1 _0 M1 U! ^
3, python 读取整个outputfile,丢给deepseek 矫正。
0 q% n0 z8 q& A$ E1 T9 e! N O) ?; H& i# v6 ?; w
模型是 deepseek-chat
$ u8 n+ @3 d4 i2 ]) p1 O
; s' a B5 V, f( U- Lmax_tokens 最大是 8192,别的不用改。0 y% d3 H: _8 A1 l% O
0 ?- R+ q9 K$ d% z, s& [8 x参考:
3 [. w+ R0 t, l4 K! d3 Ihttps://api-docs.deepseek.com/api/create-chat-completion, `; `0 ]: a$ C% b
, B% S$ l, ?' @! \2 B5 O* X4,费用:
6 ~% @5 b* p- ^0 F- ]) o, ?; A: E: z8 j: |7 u& Z9 R
实测:
0 \: @$ R( }6 O* q
, K' i4 f5 o7 X7 P4 f" \* D296K 字母,用了 9 美分。% ]. T) d+ Y$ C; q' y. ?
" Z$ j$ c b# D7 s/ Z/ d4 C英文字母 到 token 用量大约 1/3" `* u8 V5 u- r/ I: t4 n& U
+ {. _: g8 Y5 q/ \tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328998 p9 i. w ^& Q9 r# V" f
1 K" d, p$ t' W" u% L! F" l
32899 个字母花费 11782 tokens,包含输入输出的 tokens, b0 c# h# G9 b' L2 w/ K U5 O
: H( S% h4 e! G! V# I% ^3 k
价钱,非常非常便宜了。# N8 n' O% U4 M/ J
" o1 x4 M( d3 I, r$ W+ b( {8 t参考如下可以计算,懒得算了。
5 H0 Q" C* d& @% R$ Y
- [: {; K v) n$ Thttps://api-docs.deepseek.com/quick_start/pricing r0 h0 Z% b( U5 _
6 y7 R; F2 I J
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
; ^, Y4 ]) E2 _" D5 [: }8 ?+ D4 ?' q1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
2 D+ [& j) z% T1M TOKENS OUTPUT(5) $1.10 $2.19" t; t* | t/ V& {1 @6 g. J
, R( c* ~* P5 n: D a5 Z0 b' Q
5, Balance
' ~0 K$ M" K7 R& h) _' I) G" e% I5 Z7 V' D3 y
可以在程序里调用,知道每次运行结束后,balance还剩多少。4 _' Q6 k# p2 u1 ^0 g
参考:; G- G& y) _' q! D C
https://api-docs.deepseek.com/api/get-user-balance3 B8 N. d; H* J1 G9 ?) T: h S
3 K$ }! B- Q2 f7 l5 [- i$ o' o
6, Models
8 m) e6 c; [# W' G& x6 Q5 I* [8 t
目前就两个' Q1 Q$ _: o8 o, e/ i
# deepseek-chat
# U# j9 l6 e0 b# deepseek-reasoner- y/ P0 L1 u4 I9 I- k
* Q0 Y. c+ `3 S/ r* F参考: E9 F) N# B |' [+ ?, h
https://api-docs.deepseek.com/api/list-models
& b* d4 Z( V1 {. B' k
7 U3 |& n' w4 V* m- b5 \
8 ] R* L2 e; Q: J7 F* m1 |$ K7, 问题# B9 U8 l. D- z |& ?) W* S7 j: z7 U
$ }' y" `# p# c$ Pdeepseek 会将前后两段合成一段。& D7 X. l1 t/ |+ t
特别是那种大量的对话的段落,deepseek会给你合成一大段。$ ?8 w# y6 Y0 R. t0 c
! n0 C4 Z& \, J9 s5 E! |- [
8, 钱说了算。# g$ f- N3 B# @; w. R6 [7 J
. I7 [) r7 W! _) Z q5 c3 Tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
8 k1 j' g! M: x; ?0 j: t但是API就不会出现这种情况,毕竟我们给钱了。
0 ]- w& R0 }2 `% J* C4 K: ~chatgpt也是这样的。/ ~; X6 ?) E- b, ~
* Z! r2 [4 \! e# a
/ b( L3 z2 c6 Y: F4 v8 R# ~ |
评分
-
查看全部评分
|