|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
- I0 l: L6 c( _+ q. ^4 x+ W m4 m
* A* _" _/ ?+ Q3 C已经搞定.7 [$ e* x, t$ t0 y
; W* `( c; T' H6 y7 W @, L( j
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
$ }$ t8 M, f$ U, q
$ ^* l& g, t2 ]' X6 j7 A1, python + pypdf 按章节拆分小的PDF
+ [; \ a B9 W3 g' R
' a5 F7 Y" d7 P" X5 t6 p2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
4 F; L/ J6 B- ^0 D* o7 e# E
q3 [, J8 v e" G- I, R7 V1 f! N得到text file
+ M z" z! B* {) K! s
2 h8 w, d" g4 z+ U# o2 d" M3 P3, python 读取整个outputfile,丢给deepseek 矫正。* [7 `5 r @: g' O& C8 J, f8 V
( ~8 H4 i# V% n) A( k. U模型是 deepseek-chat
/ Y( J3 R. h) r8 P4 E* ~! s8 o) K8 j, |2 s9 G9 a/ s1 F
max_tokens 最大是 8192,别的不用改。
2 K7 u4 y5 _$ l
* y" I1 @) E+ x7 B参考:7 D, j$ D4 e! ^
https://api-docs.deepseek.com/api/create-chat-completion3 ]6 m2 \0 f! N# O# k
6 q1 j5 b: ]0 Y2 l" U1 q
4,费用:! r3 q7 O3 f2 }3 A/ g6 X( I+ p" ?
6 h: y; l9 c9 s: f) q7 v+ S
实测:8 L2 w& z7 z8 F% j" c3 m, n
' j; X" Y: J) l296K 字母,用了 9 美分。1 M3 l' ]7 l+ n$ C: ^+ C
* g" x$ z- g" B( c" B
英文字母 到 token 用量大约 1/30 T: H- [! v$ d _
$ g* R1 ?$ T) `) [: s9 y& o! X) z# Ktokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899/ X6 y4 i) x5 O
, M. p0 {) w% T M4 f* o2 Q9 O/ g32899 个字母花费 11782 tokens,包含输入输出的 tokens
+ A, [. X* Z9 i# m7 e: R' G
2 Z' n3 P% B2 Z W价钱,非常非常便宜了。- O6 i0 X6 y: d& H7 d0 P% |" h
; P! s" Z) X* G* \7 [
参考如下可以计算,懒得算了。! P, p- J2 j5 D' O( Q
7 S P* H! _0 P3 Z3 K& u. C" P
https://api-docs.deepseek.com/quick_start/pricing9 k& `, l/ ?$ d
8 R0 u, ] E- }; z1 y; s% a
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
' @! W2 h2 ]" o1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
: {0 `3 e" t; |5 I1M TOKENS OUTPUT(5) $1.10 $2.19
( {9 A! i5 ?; L
# M% I/ v/ o: q! ^/ ]5 w5, Balance; I* K7 Z' n0 @! C8 q! k
+ s: U- }$ f, ?0 n# j1 C
可以在程序里调用,知道每次运行结束后,balance还剩多少。6 Z# j3 e) X' }2 X. m8 j
参考:
. d8 {. l, X: _* @( Khttps://api-docs.deepseek.com/api/get-user-balance2 o% L+ }/ ^6 K% r6 Z/ B p
2 \' f. e6 X; C
6, Models2 |# _# y4 }% d$ _1 D* {+ ~! b
1 l: P5 |3 r+ \% e目前就两个* R6 x# j7 v, }- _+ g
# deepseek-chat
/ m) L# C. c1 f6 C# deepseek-reasoner
- |5 r+ h! s9 w+ h0 D
! R' @( m7 b2 {# i$ {2 B" D参考:
r v8 ~, ]6 N. H" _https://api-docs.deepseek.com/api/list-models5 \6 @1 {7 U4 M8 p) y
* K, `0 A# m, O' j( M/ _, I$ l/ u N$ V$ l$ ~* i9 m
7, 问题
! w! t! @* f; U) N3 k) C- Z; n
5 U! c+ { h4 _% j5 m+ X& Ndeepseek 会将前后两段合成一段。
9 d1 a5 |: {) T; L |. z8 C4 r特别是那种大量的对话的段落,deepseek会给你合成一大段。6 o& K9 j* {. K& [) o! O
! N+ |2 {& y. y' C
8, 钱说了算。
+ n6 ~" K* B9 Z* E: Y1 M4 i, ?
8 L7 }. Q) C7 @deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
& A: z( a1 y D- s% ~但是API就不会出现这种情况,毕竟我们给钱了。( k$ c" q: ^* }, |. C' s+ b
chatgpt也是这样的。- D+ Z" g* R" X+ `. x$ s
0 ^* a1 z$ v: H+ ~
' V( N, ]; T0 e. x9 H
|
评分
-
查看全部评分
|