|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ! e+ t& o2 Q5 H9 e
5 k# M" W# {) x+ K; l$ j已经搞定.
- a) r/ g4 m# P% F3 ^1 K% Q+ G0 G. \, B7 [
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
- w+ B K- _7 T a) v) X) }0 y
. @# Z& j( D% `! Q0 Q* F8 `1, python + pypdf 按章节拆分小的PDF
" A5 F# {5 |9 M5 w( S
) E( `$ ?0 E; e6 j- x" \2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
$ K' C3 k( i6 w& j" j/ F+ }+ y
% b g9 B% S9 Q! N+ m8 ~得到text file
8 W* Q$ [3 ?5 @! z% P5 n6 n) `+ U; j# t5 o; H/ e
3, python 读取整个outputfile,丢给deepseek 矫正。
" B, |, N g! \0 b
7 U3 m( s0 O+ L模型是 deepseek-chat' M9 V! h7 e: k( @
1 k; M- ^) o' T% M4 Kmax_tokens 最大是 8192,别的不用改。
/ G. ^# @8 W/ U0 R3 P! ?- V/ J" l- q z5 H. P. a6 K
参考:
+ D- N& E: G. b+ ohttps://api-docs.deepseek.com/api/create-chat-completion
' D% ~1 v% x$ i" o2 l1 u' s; R. u$ p: M: t S( e
4,费用:
: T6 p, g t+ ^4 u9 `' @, C9 g) s9 |) n4 T
实测:
( i8 l+ L" B& |2 m8 D8 u. W! a7 F% ?) Z8 V
296K 字母,用了 9 美分。 k! J5 |+ I& M, J( c2 y( h
& j4 u: N/ |# h" a- x+ U
英文字母 到 token 用量大约 1/36 p- X, y6 B, y4 i2 g) U
0 F/ L6 _. y2 e0 Y# K9 ~
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899* T# I. P4 O9 d0 Q8 M: @
2 I3 A& s0 D5 s/ U0 p- f
32899 个字母花费 11782 tokens,包含输入输出的 tokens6 c* o( }" y/ X% Y# z: E+ g9 T
4 C! e% @$ R8 A- t" G5 D4 f3 D价钱,非常非常便宜了。
4 \' b4 V7 Z( x4 E; B; S! M' ]! d! T( r. P/ C
参考如下可以计算,懒得算了。
^3 F1 V2 @6 q& x: ]
; b& }0 F* _' v" K; T: m% `: I% D/ [https://api-docs.deepseek.com/quick_start/pricing
; h0 n: N% s; |6 H! v0 d* Q8 {/ {, }
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.141 _4 @: j4 [* Y$ L. D- t. u
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
. M7 F6 M; |- z* x8 n# b1M TOKENS OUTPUT(5) $1.10 $2.19
1 J) l/ @$ }2 j% O6 V
/ t0 c8 p5 Q/ H1 Y$ q5, Balance1 J1 s: L: Q* Y2 t
$ J4 ~. r6 ~6 u/ \0 X6 n% w8 H
可以在程序里调用,知道每次运行结束后,balance还剩多少。
( B! i8 O8 [4 p, Q9 ]+ j参考:3 W2 R& S" F; O! K# W9 ~- T
https://api-docs.deepseek.com/api/get-user-balance/ _, ], c y5 {' G2 I
) X3 ?" R# f- V8 F3 }6, Models
; @! R, }- M% `* M( u# F& H9 h! l
目前就两个) k. D7 i' b- ~4 ~: z7 f I
# deepseek-chat
6 B, j/ k& n4 j9 @- ~# deepseek-reasoner
* G5 c' h2 u3 H. N" b- {$ U5 d& C: K0 F' z/ @* I
参考:
8 M) ^+ M; H' o" Rhttps://api-docs.deepseek.com/api/list-models
" |6 b2 V# ]& v! O0 @4 ~& P1 S, s6 C( g
. h- _9 E3 q# X) z" D
7, 问题
; T! U I6 t3 Q2 n% y, m
# p; b; a0 A1 R. n9 S% xdeepseek 会将前后两段合成一段。- `7 |# {2 V9 A* u* F7 \; P4 w
特别是那种大量的对话的段落,deepseek会给你合成一大段。1 A! v9 z: q- x6 |
, L0 n$ i) U4 x* [8, 钱说了算。; ~: X+ R( A" }( d3 z: i
- g4 Z" ^% H% t" q$ w4 ddeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
! J, T3 X6 k: _4 m& d. P( X, ~5 ~# k) u但是API就不会出现这种情况,毕竟我们给钱了。' f1 G" Z+ U/ z4 S9 F# @* j5 E
chatgpt也是这样的。
" P% [6 }) f, h3 y: H" I: y5 l0 ~/ d
4 H$ n. h9 ^: w. u' L/ F
|
评分
-
查看全部评分
|