|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
9 \5 P; u* J, u" A9 h* W! P5 K% u
4 ]% i" o0 P9 D4 C Z0 y已经搞定.9 v& |8 L6 T7 v, w
! s& n7 l: r4 Z' z( u* N: I% I首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
; u- n- [4 f& o* q3 O, D+ ~9 h; X; A5 \$ ~1 k- o
1, python + pypdf 按章节拆分小的PDF* ~4 h4 C, i: a( b* N1 a- _$ K! l; L$ J
: R3 \3 r( j; w. x, b9 I- d3 j& [
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
# o/ o$ O; @) Z3 N/ [7 }
; t' S/ E- p/ }得到text file$ h% s7 s# S9 P* V0 u
" V) Q- R, b9 ?/ z! U% F9 ]3, python 读取整个outputfile,丢给deepseek 矫正。
4 m2 ~( n, ?' ^
9 i8 w( N. W/ i% ^模型是 deepseek-chat
$ V% e1 @6 D) A) x O9 w
( `* Z. e/ n% S' Mmax_tokens 最大是 8192,别的不用改。
5 e6 W1 Y$ N# ]% a& O) l) C4 d; y" Z+ H- o7 T9 o
参考:" F. J2 X: z8 R4 N
https://api-docs.deepseek.com/api/create-chat-completion
* H: ~# n9 k1 u, X6 H
4 f9 D8 i; I/ F% g% _7 n! N+ V4,费用:
3 | b5 v9 T$ c* s6 y9 o: J+ ~; f# L
实测:8 S" k" I3 B: Q2 w
$ ~3 P1 \1 j+ F1 Y! x, E
296K 字母,用了 9 美分。2 M: u& w/ i; q$ y
4 q. B$ o$ O: E2 }# O/ K4 b
英文字母 到 token 用量大约 1/3
8 p/ x* I e& K# V/ A! c' z9 _6 ~" g3 T9 ~7 E. [
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
9 p3 r7 Z k. z7 R8 [ w7 g% Q
9 @/ `0 T; J- x32899 个字母花费 11782 tokens,包含输入输出的 tokens
$ T4 d- ]( n/ c. V. I f' r) I) b& a5 X- f2 g! |' f/ n% D
价钱,非常非常便宜了。% Y0 n$ W! e2 c6 {4 p0 k) k
: L4 J7 O0 N8 ]6 ~参考如下可以计算,懒得算了。+ j. R" w/ M- q2 Q2 H
) i" D; C2 _' n/ Ghttps://api-docs.deepseek.com/quick_start/pricing6 m1 n; w8 A6 W6 u( ?
" g- b* q' s& c; O- o' Z
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
6 ~6 |% B: I, j {1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
* C- R0 W& P" J( B1M TOKENS OUTPUT(5) $1.10 $2.19, J2 g8 ~: V5 @' F
G: S' D, T9 D3 Y: _: r( k5, Balance
8 A% h8 a# r) t7 i) _- V
; m) `- ]$ s, |, C可以在程序里调用,知道每次运行结束后,balance还剩多少。1 E- P: }$ Z1 l' e1 W- @0 h+ H9 O6 d% n
参考:
3 _& Y9 w3 k7 g8 l0 p! c3 a- {https://api-docs.deepseek.com/api/get-user-balance
* ]8 M; m7 R2 s6 q2 o; A
* }* d* b3 w, c# m8 Q6, Models
' c0 T5 r. U0 a; A1 E$ K: G+ r
. e; x' `+ F7 l% z: u目前就两个# b% {1 b+ h9 w9 N5 r- j7 a- \
# deepseek-chat
% ]6 P, w1 H, [" |# G& t# deepseek-reasoner: _7 v, |/ q8 D' E5 z( K) N
] h3 Y" R s) @$ e2 s: ~ l
参考:# V/ {, e5 J2 j% R
https://api-docs.deepseek.com/api/list-models
, m p! g* `7 A; E9 y/ C; v, |9 F1 o! r! a% X4 U. W8 R
. i7 o m% U* {. z7, 问题
1 O- j; U+ S1 d7 A* M' \
5 o/ [, V9 H: B& Zdeepseek 会将前后两段合成一段。
' x8 X- ^" e0 |5 G/ Z特别是那种大量的对话的段落,deepseek会给你合成一大段。
' Y6 Y: y6 E, Z# w* S2 Q! f: s; G R' k
8, 钱说了算。% _6 J0 ]9 h" s; ]3 F5 o1 j
- Y# X |' L, Z- q* l& tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
8 O3 ^, z. B3 I, O1 H G但是API就不会出现这种情况,毕竟我们给钱了。
- {8 l$ h# ?8 ^; V4 X* \' echatgpt也是这样的。6 V. y t3 } L, r! |1 t( g
! e4 x3 h! U* k: j6 c: \! L2 u, h
$ O( H/ f! u: I6 E9 ]
|
评分
-
查看全部评分
|