|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 . h% u6 X/ K1 P* V
. f! P: \7 M% \' S) J
已经搞定.
6 z. M, ]4 a5 K6 j2 ~, X: E7 K: Z. l; p
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。9 A N1 a7 }: q; i
Y7 _8 x! F+ C5 V1, python + pypdf 按章节拆分小的PDF9 I9 l3 r# s9 H' k- U/ Z
( R: e! d) Y& b2 N4 Z
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
g; n: I0 }4 i' O4 h
) K* g3 S6 t& I0 N% ?: m% m8 A得到text file
' {/ ?# z$ W* {" B( z
1 ]' B% O9 R/ L7 n8 s: z3, python 读取整个outputfile,丢给deepseek 矫正。4 I) R" m; Y1 ~! W* H
8 L! n9 d9 _8 d$ I ]9 b模型是 deepseek-chat8 _+ e2 |, o( G% `: B* j" [
2 ]7 e6 z$ k$ D, H( Q6 |max_tokens 最大是 8192,别的不用改。
3 u4 n K" K2 V7 }8 T9 n$ R4 Q( j* d; P3 R
参考:
2 L+ x+ N g: P; J. s6 h- t, {https://api-docs.deepseek.com/api/create-chat-completion
4 z( |$ }, k+ c8 k( L* w, W3 _/ ?+ F: E0 p( g+ c6 W' Y! l$ d
4,费用:) `! H. l/ f. E U7 R
4 L4 D1 m! B" i2 b7 S8 b2 L实测:" W2 T5 R8 _) w1 n6 _# Q8 T, n( v8 [
& U9 B0 V. G4 Z; O! [- s, Z296K 字母,用了 9 美分。; s* t P8 L2 z2 g7 n& |- |
' r2 M+ y* E; a, Z1 ?
英文字母 到 token 用量大约 1/3
/ ^. u' N. L/ d8 A) Q# B
: Z! s$ ^, `% rtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
2 q" U5 g6 m" G8 |3 D' b: J0 c* \' q7 |. e, u, s7 V
32899 个字母花费 11782 tokens,包含输入输出的 tokens
9 I! A5 p! E a f7 u2 q, {8 z. C4 X5 D7 J9 o$ F
价钱,非常非常便宜了。, v$ J2 B' q- @0 n' n
) X- L" h5 O4 f( D0 a; y- S9 T8 f$ R参考如下可以计算,懒得算了。; Y6 r) ?- B( @, x
% e! _9 }( t |+ h! l- A* A: r
https://api-docs.deepseek.com/quick_start/pricing
: [; \4 ~3 g* d& U/ i7 P( X8 \ t8 f) @
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.141 v6 S6 f; ?" W0 }6 A1 {3 O# A
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
, | _# i! a7 P% A& J$ R, c1M TOKENS OUTPUT(5) $1.10 $2.197 M( ]# H; [& }/ c- B; }3 b
; D4 m+ p8 F4 Q. S' c( ?
5, Balance
1 j! P; N9 G) D! R' r
: O! U- {9 Z& R: ~" c* i可以在程序里调用,知道每次运行结束后,balance还剩多少。
) u) E. b% S) D参考:, X7 g: W! e- y1 z+ w* u
https://api-docs.deepseek.com/api/get-user-balance
5 ]/ a$ y6 N, ]. J. O* F* \ I/ I+ L
/ L; ~1 j2 r8 ~6, Models
/ N- i$ R: h0 q+ C5 V# ^3 t- E! U5 ]0 O2 k( F, R
目前就两个3 z: I6 G8 v- l7 B
# deepseek-chat" d8 @% i) {" }2 ]
# deepseek-reasoner
2 i* @' `8 n/ c: t6 e x, ~7 W5 {$ r2 ~
参考:
7 U: I( }' R! _. \4 Ehttps://api-docs.deepseek.com/api/list-models
0 q2 Q3 Z, H! t$ d( _2 x
7 }1 x. E7 E/ y* D
- F1 S& @, m; B$ N$ l4 t7, 问题+ C6 `" c! X9 h$ z+ V2 X/ I
& b. ]- [) X. V0 S+ S r9 A
deepseek 会将前后两段合成一段。
" Z6 `- n: p A特别是那种大量的对话的段落,deepseek会给你合成一大段。
$ X2 }; A+ \% k
3 V: M" l* B! ]. p! S. I+ N! {8, 钱说了算。
0 }6 Q& ~, x0 U' t) r# ]/ [1 l6 I6 T) ^$ k8 Y/ M& e; v
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。% p7 ~ _$ D0 V
但是API就不会出现这种情况,毕竟我们给钱了。
( f) X0 l4 K C! m! hchatgpt也是这样的。
! c- e' o: X- a$ X# Y, V3 @
5 T! h4 }# B3 r( z
1 H' `; U; M3 H7 D; \0 d |
评分
-
查看全部评分
|