|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 " B$ ^" f- H! C
# E) `1 f% L4 {/ |3 R; M0 M. V4 V
已经搞定.% W& w. l3 o6 o0 Q) u; B& C
. b! l) [- a- Q0 I- O8 k" f8 u( b首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
+ F0 B$ t7 }4 q: f! P; P; @' V# Q/ n7 s$ w0 W+ W3 A
1, python + pypdf 按章节拆分小的PDF( ~7 o& k5 l0 W+ c) B! G
! ~( ?/ G3 b; c2 r$ |6 U4 k
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile T# r. t0 ]# ^4 T% I1 H6 [2 s
* C2 O& Y" O9 I$ C$ n/ m得到text file
( `: @( ]% S& U" T& }
; e) Y& d, W4 p. T3, python 读取整个outputfile,丢给deepseek 矫正。- p( K, u1 I% ?3 q4 b, ^
2 w# v3 T( e9 M( l- {) \" m模型是 deepseek-chat" h7 L; ?" L" }( b7 n2 G2 n) w
* H; U4 x6 M) K% J' R8 }
max_tokens 最大是 8192,别的不用改。
: Y @) F# R( O/ x: }# M7 Y5 {+ C0 d* G7 h* @5 ~- U [
参考:( `8 J, e4 G/ }4 u& _5 {
https://api-docs.deepseek.com/api/create-chat-completion* E! x6 n* c6 s
; V9 w: P8 ~8 U! Z3 t: F3 U4,费用:
1 `. E4 A+ x' }1 h2 G/ ~+ S$ ~. N6 g* d B' K! H( t
实测:( ?( Z, o7 a1 T! Y' U
G- b3 w( v% B
296K 字母,用了 9 美分。
1 z8 q; a9 {2 h; t! b( p% T! u4 n% h; u
英文字母 到 token 用量大约 1/3
# z9 W- c/ H6 i( O1 X9 X4 I
" w; E, B7 Q& ntokens: total, 11782 completion, 3729 prompt, 8053 | s: 328993 w- h! Z" ?: U" K* H: {0 S& \. m
$ j# x! R/ W3 ~8 e# h9 I# Y5 W
32899 个字母花费 11782 tokens,包含输入输出的 tokens
6 W# P" Z' _. G! u: Y: t9 w4 v9 G- d& \1 B0 e: H r2 J/ U5 W
价钱,非常非常便宜了。
u( l' ~* G0 O- L" z
9 H$ I' m* V8 L2 {+ x5 I2 T: Y参考如下可以计算,懒得算了。
/ [+ k% ^1 Y6 }* N: p2 T. f: c5 M7 S* l/ @4 o
https://api-docs.deepseek.com/quick_start/pricing
2 ~6 p$ S# c$ y) E' d/ e; G: S0 M. }, @
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.143 m3 O& Z- f) y; p
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
S8 ]5 { G6 v2 M1M TOKENS OUTPUT(5) $1.10 $2.19
5 x. T6 q; Z' H+ \8 E% o: K. D0 c; t
5, Balance& ~: i% g$ v, v% Y; V
5 a# b L `9 X) ^% j! S
可以在程序里调用,知道每次运行结束后,balance还剩多少。
! E. [. P( `1 U' X* R- A! g参考:
+ Y' a- e- w9 X& |7 e$ Ahttps://api-docs.deepseek.com/api/get-user-balance+ i U d+ ~: t, j' X
6 d Z/ v$ H. p# s$ t* t! l2 @
6, Models# E5 O" w/ W8 J; U5 h
# p- |, z0 {6 g" S" H$ G
目前就两个1 Z5 m7 p5 b* T5 Q- D2 \, s' M
# deepseek-chat' ]* i! n2 D! O* t
# deepseek-reasoner
9 S, g$ Q* }& T" E' V/ M! a7 I( a& ?+ `
参考:( h, p, @ x6 h g; J X
https://api-docs.deepseek.com/api/list-models
4 K3 l- ?. Q1 P
6 m1 x. k& B! j% F- c- ~2 b
. @1 ?3 N0 z% a" g5 O& X5 w7, 问题# H' A% ~( d' M: J) N$ M
; i/ |1 G: P6 t- s
deepseek 会将前后两段合成一段。7 L8 s, J7 }) y: Y
特别是那种大量的对话的段落,deepseek会给你合成一大段。
6 D [' L5 m6 m/ h) Q: ^: y0 J: S6 Q% L- u
8, 钱说了算。
" Y; b( ]4 _/ K4 t. z+ S3 Y
6 e( L8 w6 v+ G. [deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。6 H" ^, a- _8 d4 [! |
但是API就不会出现这种情况,毕竟我们给钱了。
9 g4 C' w0 o8 `% }* X% U# C( qchatgpt也是这样的。
6 ?1 w. a1 y8 A9 N
' Z, L1 d" o1 e1 H7 F' H! h
! H8 k5 l; J+ u( Y$ Q5 d |
评分
-
查看全部评分
|