|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
6 c6 q; z8 S" }: b; m$ S: ?+ v
1 E, V& ^. D/ j: y5 B已经搞定.
% d" u$ {7 F" ~/ c7 e7 q2 x1 }4 X
2 F! L: a- s! c首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- J9 b0 I: t! }9 e& A) O h& r
4 [) \0 h2 p# i# H1 M1, python + pypdf 按章节拆分小的PDF
, d5 n# p4 s9 C9 x; X8 t# X; Q6 A. Q1 @1 P0 U* M: W
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile0 K9 p0 u* r8 p4 x! A( N
/ q: j) ]7 K8 b5 x- Y( b9 V& V
得到text file4 J z# s* M, _5 d
W8 P' `* z- |/ U8 ]3 M9 K- q8 y+ g
3, python 读取整个outputfile,丢给deepseek 矫正。# ~5 K8 b4 P: g3 z4 I& a$ z
4 I4 G$ G( A' C( V0 a: U模型是 deepseek-chat
) j1 M/ X- B* `
7 |# w1 d) D I& r" i; s9 V, ?# B/ Fmax_tokens 最大是 8192,别的不用改。
* e) h" O0 O& W- s3 d8 x
6 p7 Q5 Q! n7 {% s6 v9 {6 x参考:# o$ ?5 `( H1 \7 L: F' T
https://api-docs.deepseek.com/api/create-chat-completion
$ s# s+ i' {4 o i. a( V, ?* I" v+ |' Q, r3 Y% f; E
4,费用:
; h7 |% v/ {! D' T) [+ q0 X
6 t* G& a. U* a7 K8 u9 |实测:. {* i( [# N2 Q4 R0 ]; ]
+ }4 t! Y9 j8 c7 M
296K 字母,用了 9 美分。$ \ N9 g$ X( Z) z7 P
; [( c/ }! c$ ~/ ]: h/ W英文字母 到 token 用量大约 1/34 c# N0 W6 d- p/ d$ y* i! e6 \
4 }5 W9 E+ S5 xtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
& v' J9 F' `5 ]/ ]
; X& D, s( Q4 h/ [: l32899 个字母花费 11782 tokens,包含输入输出的 tokens
1 y3 s3 N4 K8 }3 q* r" O) W
, r* ~5 ]4 J7 e- b% g. D价钱,非常非常便宜了。3 L, i+ o4 [7 e# q1 m' ~3 \7 s9 p4 M T
9 D6 [; E K [7 Z
参考如下可以计算,懒得算了。6 _: R# k0 u6 x6 [& Y: P' u" K
) L2 h2 g7 O* ihttps://api-docs.deepseek.com/quick_start/pricing
& v* W/ y: E1 ^% |9 j9 W9 t& q% s8 r; F+ S/ v( g6 |9 Y
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
- q: \" ?/ _6 ?$ O! `1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
9 S/ N+ x& \0 X, l+ l5 n1M TOKENS OUTPUT(5) $1.10 $2.19
# B7 f& Q% T6 q6 [& m1 j* P6 x- V1 Z9 j: {; w
5, Balance4 v; `7 @ |% n) W3 s6 w. v
3 Y! Q$ R+ F$ J' z$ z+ c" {可以在程序里调用,知道每次运行结束后,balance还剩多少。
* B$ I/ h3 o9 ~/ F参考:
: X9 [7 @& t6 v7 u) R0 `$ `3 X; Thttps://api-docs.deepseek.com/api/get-user-balance
. y! C1 g6 R% m' x5 v( p# |
4 A9 Z0 n \- ^" U, f# E6 y: A6, Models
1 T+ @) ~6 Y' @- z" c9 d7 n* d# j* q' Y0 c9 V
目前就两个$ V8 k0 c- {( q) F5 p( r
# deepseek-chat
, E; @! I# y3 H# deepseek-reasoner
* H5 E; ^8 ?* p Y" c+ n' i. H, y- e" p1 o. e. N& Y8 e
参考:1 |, H; Q% \( G
https://api-docs.deepseek.com/api/list-models
2 ^% b" ?( J9 n, A; Q: F& e; U$ E8 e1 w
( Q6 p0 u: R* J# J5 v4 Y% }
7, 问题2 Q+ W% j& Z/ w
: S7 |9 G; r" a9 ]* u# l, r
deepseek 会将前后两段合成一段。
5 l/ U `1 a! |7 t# [/ J特别是那种大量的对话的段落,deepseek会给你合成一大段。
. u- L" Y- l7 a# [
& u0 V2 s" ]; g$ {: I* O/ ?8, 钱说了算。' y; o. x% O( }" B% r: [% D
9 _& a ~% t- `1 Ldeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) a( Y/ K) [* Z2 t: {
但是API就不会出现这种情况,毕竟我们给钱了。
1 S) @6 t; W1 E# g0 z" Jchatgpt也是这样的。
0 v4 I: Y# M# J0 f4 k) {2 h( @' K& @% Z7 T& ^
* K' M, ^# @$ y4 H7 e* Q% v$ v& @ |
评分
-
查看全部评分
|