|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
; L* I2 K) [6 ~1 p% u4 R1 U; v% X3 A- Q- J
已经搞定.
; I; n" ~) H2 L' i! g! Z8 J$ w6 P G' l) z# O2 i
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
: a5 r6 V* G! T1 h! e; R; i! O7 I
1, python + pypdf 按章节拆分小的PDF$ g6 W5 p4 v0 v N$ ~* P6 n' K4 ^
) \4 J3 D* V) O1 }* n2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
7 D7 R$ z# r3 S' E- W4 i) p" U/ u2 s7 r- ~+ h0 ]5 I& c" |* f
得到text file
+ b2 z- R {! U8 }; U
1 z3 { o" R8 W2 m: _3 Z N7 G4 `% `3, python 读取整个outputfile,丢给deepseek 矫正。
7 i V4 U; ^! n1 R2 [
8 G! e q1 L1 B# C% A1 C. U模型是 deepseek-chat
5 d8 k0 N+ b6 M6 Q2 K
9 }3 y9 l6 P- S/ J1 u# \! G+ K9 H6 Vmax_tokens 最大是 8192,别的不用改。
% ]# |7 j, T9 h+ D# B# b# [3 S
2 i4 E8 B: l9 C' _! W! N7 z& N$ K参考:7 [( s" r0 o! T; z
https://api-docs.deepseek.com/api/create-chat-completion
) I" M% t/ y+ U, ?# _: V; x, T1 @% ?& u3 w
4,费用:
+ N S' S4 |$ @* f$ B
- Y. h5 D% b& i; t1 h. f实测:
. D" f. T1 ^% b; [' R; i% ?8 A3 s9 ]# M) p6 E1 R) T
296K 字母,用了 9 美分。8 J, B: S. i* ]/ F
2 K A9 d& f3 a6 z' m6 D, v6 N$ n英文字母 到 token 用量大约 1/3 D* G1 X H: F) Z
k+ `9 X0 r( b& P: N# Jtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899" q2 m8 V- K0 U9 `8 h
* R) S' ?9 q; I; ^
32899 个字母花费 11782 tokens,包含输入输出的 tokens/ J- D1 y* z+ L5 f0 l# Y$ S$ ]8 n
* e: n! d; }9 V& v价钱,非常非常便宜了。# U/ A1 r0 ^3 R, n& r. _7 U8 ^
, W3 Z$ f' g5 V4 E* C* O; T& G参考如下可以计算,懒得算了。* x1 @8 l3 ~! ?1 l) t+ j$ V. D+ T
" m2 ~; g/ [! X, F# K5 Q a8 [https://api-docs.deepseek.com/quick_start/pricing
! R, z$ V! u1 ^5 }6 ]
8 X: p3 w' \# m" I J" X4 @1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.143 Q2 {0 C" B+ q. b
1M TOKENS INPUT (CACHE MISS) $0.27 $0.550 z0 c+ C% ?6 ~. L5 x% t$ F
1M TOKENS OUTPUT(5) $1.10 $2.19
- u# E$ U6 t3 H) X3 W6 w1 Z, _ g, ? S J( K1 T
5, Balance
8 W! k! E- a N" E& S1 O3 ~
! W- A& `( d3 U+ h3 L可以在程序里调用,知道每次运行结束后,balance还剩多少。
8 G5 H% ?1 a+ m; R! @/ M参考: a, f% u4 ^2 {4 {9 C
https://api-docs.deepseek.com/api/get-user-balance
: [: z" t$ i2 u% P+ ]$ U' d; h- H; }
6, Models
: f; B3 e* G9 k4 T' Y( [/ |2 K3 m8 t: E" I" Z c
目前就两个
0 O4 d% _/ @. S# |* z# deepseek-chat* h: m' I) J' j2 Y# N
# deepseek-reasoner
2 M) g, F) w+ G' \3 Z6 q& z/ E5 ]* N6 n# L
参考:
" J( j' U2 K) ~$ F& B, thttps://api-docs.deepseek.com/api/list-models
+ k+ |. G4 ?5 P9 |/ a* N w
' K* [1 G" {$ d Z) R! T! \4 Z6 N0 f& k& w# a5 `3 w; P
7, 问题* ~# D9 E5 ?/ q& X* h
$ b6 h/ T3 _7 J9 x0 V2 y( adeepseek 会将前后两段合成一段。
0 D. D; H7 p" @1 t7 b/ `特别是那种大量的对话的段落,deepseek会给你合成一大段。
* G4 r# r0 p6 _3 m" H$ u, C! U7 [" M1 l* V0 c
8, 钱说了算。
9 ^6 i. d! ^$ s! j( z+ l7 v- e
( p6 M, I5 i5 o6 |' `deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 S L) ]' W) M- _+ N
但是API就不会出现这种情况,毕竟我们给钱了。- T/ ?( O+ |1 @$ L( ^
chatgpt也是这样的。, a$ y. B D x
" |' f9 h5 |( J- w' H4 e. Q' c; Q( w! v" _3 l( A0 y( M/ F
|
评分
-
查看全部评分
|