|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
4 N4 G; g& O/ C4 h1 V7 s, k3 K/ k( o" \. w
已经搞定." f" ^/ L7 b& X% @
6 u" H v" m; h8 q首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
7 b* U5 n" l0 `1 k8 v; W0 @0 B, M1 e/ {
1, python + pypdf 按章节拆分小的PDF
7 F- [2 _8 C0 p* b2 ^ P1 [
& R% Y; q H- t7 i0 \* o4 @+ W2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; W8 |; M2 W, r! e* A# x9 O, p* h" P
7 b) a+ c+ u$ T2 p( D得到text file
+ X3 B T$ G! [# u+ Q( U% Z% R: S* M _7 @! P5 w3 a4 x
3, python 读取整个outputfile,丢给deepseek 矫正。
+ P9 b$ H5 m# B
8 T' N% Z8 Y( |8 k模型是 deepseek-chat9 Y$ X; x6 P% f1 E% i
8 ?1 T* U& ] q8 I! H, t8 b* K( |max_tokens 最大是 8192,别的不用改。 v" l3 E @& w" a" ~( n3 @
: Y9 H& g# t3 P8 A+ a% q
参考:
: M8 J! f! Z' ?* z/ M! f3 B- ohttps://api-docs.deepseek.com/api/create-chat-completion
5 V: y3 t- L' x, V' `
: `$ n/ x$ E' j' l8 }4,费用:
9 |+ H* @( X% f( Y3 E& q; p" o( S/ L! t& F; m
实测:
" w2 M# k+ f9 J# r) Q
4 c, l6 g6 Y* ~( ~0 {296K 字母,用了 9 美分。
4 A) r0 o/ F/ i* Q1 o5 K. Z% N7 E9 |+ a( `
英文字母 到 token 用量大约 1/3! I7 B$ k, _& w8 V$ {( r9 F
' ? Z; U+ g3 |# q! O6 w/ S; O, Xtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
: \$ j) s, f8 q( {9 }9 ~: U# Y$ D8 Z4 W @5 d9 m6 M$ \7 f( V$ w% G
32899 个字母花费 11782 tokens,包含输入输出的 tokens
2 ?- [4 z5 l' H c# Y2 p+ w3 v, g6 x5 ]* d1 n
价钱,非常非常便宜了。
: a7 @$ j1 L+ R7 R6 v& j; ?# u- o5 c4 Z9 {1 v
参考如下可以计算,懒得算了。) Y5 X- F% r1 v, d) U
! x7 d5 p. R# d9 w" y+ D! ]https://api-docs.deepseek.com/quick_start/pricing3 l5 V% K1 I5 B1 C
0 t/ C$ M* x# b7 R- f1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
+ t+ j- h, @0 [$ v& w4 O5 o1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
6 D. S* p7 Z! f& |! V( j1M TOKENS OUTPUT(5) $1.10 $2.19; W8 v; y8 U6 }! [
5 i8 N) H( X x+ K5 z8 J- ]5, Balance
Q; M/ m" [. r1 I! b2 q
+ ?9 u: u4 T5 t3 P5 X. K$ t0 ^可以在程序里调用,知道每次运行结束后,balance还剩多少。
2 c1 g4 I$ g- Q3 y/ A9 [参考:
2 z S# I5 K% W+ }; t/ [" Yhttps://api-docs.deepseek.com/api/get-user-balance# G, }* k8 q! @7 y
$ u# h# U. A6 l& w d5 k* V; A6, Models. A I3 \6 Q7 l3 Y5 Y" a5 _
6 q% g4 W, r; D; Z" P% b9 l
目前就两个
/ `1 ^- G9 d! {; O( F9 J* M# deepseek-chat
! G( N8 ^3 V- L) G# deepseek-reasoner q/ z6 T1 G5 x8 Y0 g
8 ~) Q/ `$ y& Y t参考:. z) u' w& O4 Y) t- {4 ]
https://api-docs.deepseek.com/api/list-models$ X; E( Q5 S% z3 G# ]
$ {3 O' P( `4 c6 }: i
, {3 v" ^5 X& }7, 问题
2 S3 Y# v: N/ v0 u) e: r5 M$ p
6 i# k* G5 r" @" w, H- {deepseek 会将前后两段合成一段。3 T4 Q8 S( J, y& a; \6 {
特别是那种大量的对话的段落,deepseek会给你合成一大段。& x( B' A* o$ \' Y& t
) @. x5 @! d/ r. z
8, 钱说了算。
! K& d+ J% X8 K/ {& @0 O# K% S$ N! u6 Z
/ F5 T& B! t* [, l4 m, F. Odeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
, u0 H6 Y1 u; T但是API就不会出现这种情况,毕竟我们给钱了。: U( D i& y: e k0 @8 d
chatgpt也是这样的。5 M3 u. i! E1 n% f: s8 c
8 Z9 t6 K. v# }: u% {
& A0 b3 a( P* K |
评分
-
查看全部评分
|