|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
* ]8 y/ N. s. C7 m" h7 d
4 U+ J7 J* b9 y( \" d; `: U; F已经搞定.6 U9 J' X2 k5 k$ s1 C3 L9 E8 J$ ^
4 i6 z$ r" j% v6 H( M* u. U# b首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: ]- _ U$ k7 n1 e& ?# R
! D2 m" M" A0 V- y1 S5 Z1, python + pypdf 按章节拆分小的PDF! K& Z' i' a- t+ C: K! h
" b+ p( B) {* g6 r' `0 z# s4 ~2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
3 c: T- E. C% z% D
6 O' z. p3 V1 g! s* u7 ^2 E- {得到text file e& {: J& p. C6 d& y/ ]. \( \ o6 p
; M( }* r! L/ s# \0 Y7 b2 O, n8 h
3, python 读取整个outputfile,丢给deepseek 矫正。
9 l/ f! }$ B0 c! P2 a% N9 E; L
( C- H7 ~6 c" {3 `/ o/ L模型是 deepseek-chat* m( |1 X v9 ]" b8 M0 w
C1 t0 \# C5 O* c4 H. B k
max_tokens 最大是 8192,别的不用改。* H/ f! n7 @' i1 B9 s
: [& b4 K, i: s5 I* U" K" {- A
参考:
+ r: H. k$ A8 \( ohttps://api-docs.deepseek.com/api/create-chat-completion
6 _6 \# ]5 b" U: ~- P9 r' D: y; ^7 ~' v6 H( t
4,费用:, t: z& W# c/ t& u( {' Y
% l; x! K- w! K# |/ z& L H: @6 X
实测:
* g i4 V$ b, p3 i1 S% U4 Z' }9 b. E
296K 字母,用了 9 美分。
, |, y# H' Q& ?9 W! i* r
: S: c z* H4 F7 f+ Y/ i6 m英文字母 到 token 用量大约 1/32 V3 ~7 q. {: b7 g1 L* N/ j
! C: T" E p2 z. B/ [
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
& ?5 ]1 e4 B! i; ^
2 y; k6 ]$ W, [% J/ h8 w6 e32899 个字母花费 11782 tokens,包含输入输出的 tokens! W' a1 H# ^6 J3 z
! o& j, M" ]5 d4 `
价钱,非常非常便宜了。% ~/ Q+ z& }, `4 D/ a
! z1 X5 m; o, i. t+ K+ t参考如下可以计算,懒得算了。
- \$ u1 I% W$ J) l" ]+ C" k3 {
8 V) d: K. @' _: r/ `- Ehttps://api-docs.deepseek.com/quick_start/pricing* s- j! b9 l# P0 y$ ^" W' f- c; }+ z
! `+ F9 m s3 X1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14' n' `( W' K* {+ w0 v5 Q
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
, s5 j$ W& D- ]8 N: f3 N" e/ Q! U1M TOKENS OUTPUT(5) $1.10 $2.19" h1 n _% e9 b! g8 ^# c
" J: x$ a( l% K* |, Y1 _+ H! ^
5, Balance S( J+ h0 d. L0 R: X3 y
! Y, U" Q* f% K$ { C+ c可以在程序里调用,知道每次运行结束后,balance还剩多少。; ]8 R. i8 a2 x
参考:
" J3 I: e7 [' J! p4 O. M3 ^https://api-docs.deepseek.com/api/get-user-balance
2 }" M* [ A' M% d# Q8 _& h3 e6 f# x G2 r p! p6 u2 b2 H: o
6, Models: f: s8 i, a+ ~
- m; W1 p+ r5 ~& M目前就两个
2 C+ ]8 r: V, X( N' o E# deepseek-chat2 |1 |4 j2 I- f% t6 u2 f
# deepseek-reasoner
+ Y$ A! v) c' l% Y# I- R! A; e4 a* g( J
参考:0 w; m( _, Y! R% C* ?; A7 {) f, H! o
https://api-docs.deepseek.com/api/list-models
; c/ U& m) e. J! B7 s( h; n2 y1 f: M, q! r
& [, ]; T/ W b0 I5 i7, 问题/ L/ {: N7 }4 F! `! n7 A
: u* {3 b U+ Y( B# ~deepseek 会将前后两段合成一段。
9 I8 q* ~# F% b% S( S# }特别是那种大量的对话的段落,deepseek会给你合成一大段。6 `# ~8 g+ t* i3 k
: h. a/ E) B7 [$ O3 q
8, 钱说了算。
& Z# h$ W* j( P$ b# r' ^4 ^- J2 T
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
, W) e9 F* M0 q: O, v但是API就不会出现这种情况,毕竟我们给钱了。
$ t9 P g' X ]( G" ? Fchatgpt也是这样的。 I7 Q+ c l; V5 }) A) u+ `
* A; Q$ g8 q4 A( \( L
4 D$ W6 f. R3 F9 k- v% p2 L
|
评分
-
查看全部评分
|