|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
) n Q' {: v( c1 l: f+ v- t/ F; ~; Z8 f7 W, j4 k; X% Y( N
已经搞定.
- d# |5 b* M% D2 B
" k8 j( b/ Z5 `/ n" h! |首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
k7 y; S2 G. ~; A1 m. `( `
" C8 r' {; [& D) Y1, python + pypdf 按章节拆分小的PDF
7 ] _1 F; `, g8 |$ y3 }& u$ [- l6 h: n2 z3 R% m4 m h( {, s
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
- i$ i+ K- H6 j7 |6 k' Y( Z: h
2 R- n4 r d7 D# c得到text file! ]* a6 e* | ]; P. R- { P% C* `: q4 {
& h @* A- |0 O
3, python 读取整个outputfile,丢给deepseek 矫正。1 H/ {. }4 m S6 }! R9 R
$ r1 ]9 [$ I* D" o
模型是 deepseek-chat0 V) ?7 W9 J# n3 y. K$ F
3 m* P I. B9 Z) t( N5 _' d
max_tokens 最大是 8192,别的不用改。
E& z! ?8 b O' I! y/ H( {* y) \0 h5 u! v
参考:# _- }' ?1 u' [0 o4 W7 o w3 W3 C+ h
https://api-docs.deepseek.com/api/create-chat-completion& U' V" F& G6 J9 U/ O3 a' N- s/ e% Y
; X/ S6 ]7 z0 F0 c4 W) Z& ^3 ]4,费用:
" @" n1 a% [5 E7 _! C! D; _6 i! x- s; A; @* Z' y
实测:' a* k- }5 x/ p% [ i5 a. \
" C/ o: t; m6 L* g: b9 G
296K 字母,用了 9 美分。" E/ f2 e1 z1 ~7 h8 B
& ]" o5 ]! \$ V英文字母 到 token 用量大约 1/31 ?( S% d* a' v8 Q9 [" E7 F( S& @5 M
: N: ^1 \- n" C0 j: o* k% x
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899' ?& K! W9 ~4 b; \$ l' W0 I, O
/ P' i, K4 W" R) ^+ H! c! `. s
32899 个字母花费 11782 tokens,包含输入输出的 tokens9 M0 G% {1 ?% g- G/ g6 w$ \
& E) v% c0 \9 Y2 G) W
价钱,非常非常便宜了。) t5 ?; z$ d" W9 U+ l* z
$ f' A5 Z' D2 r参考如下可以计算,懒得算了。
; D9 }& E* |) B
& D4 Y" K9 ^1 h0 uhttps://api-docs.deepseek.com/quick_start/pricing1 I" N) B n4 l! R) {4 D! m
e/ |, q h) f3 @1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
+ Z8 N" I" d3 g6 ]1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
( J% V- O l6 k' J0 Q( N! E3 g1M TOKENS OUTPUT(5) $1.10 $2.19+ Q# b. C# P |$ ~! R
& S3 _/ Z' v% D" T* }
5, Balance4 H" C* Z7 x7 q: K9 f
1 t: y' |1 O! U y6 d+ t' K0 u2 L4 r
可以在程序里调用,知道每次运行结束后,balance还剩多少。
( `1 h3 f$ }' x) F; |6 d参考:8 b) P# Z- C% x7 n$ k7 W% }9 {( _
https://api-docs.deepseek.com/api/get-user-balance; ^# V$ Y% h$ j' Q
: J2 i" v9 H' E2 e1 H
6, Models/ Q8 v+ F, H, L/ m. b+ q# e
. G/ G9 R3 g$ }7 p3 |! t4 K
目前就两个9 l# s- S+ f& E1 n- m+ K
# deepseek-chat, D+ ]. I# O0 _$ h
# deepseek-reasoner
" x2 @ [' [4 x& {- X# r
: v' q& m: B h参考:) o: B4 h; _6 B) F$ ?+ X
https://api-docs.deepseek.com/api/list-models
9 ^; D, I; V+ i/ n5 [/ U5 W* b, M) n* B( F0 A
! \5 S) j- Y3 j7, 问题
$ v5 B7 L( V% n6 D7 y- C! D
3 |* F! p; e% N) w6 P4 ?! N H( Bdeepseek 会将前后两段合成一段。
; I) h5 n8 P( v5 b& Q/ \" k3 k" e特别是那种大量的对话的段落,deepseek会给你合成一大段。" ~. T s! E3 R: j4 h0 C) G
^, a u& p8 j% A! V8, 钱说了算。! Q0 d; |! l3 a
" v) G, C, p) O' y+ Udeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
! U! m4 O% t- _! b+ z) d但是API就不会出现这种情况,毕竟我们给钱了。( p; w8 N2 q. K9 e* M: Q* Z) [
chatgpt也是这样的。
5 K) |- B2 N3 c/ ~
0 J! i8 ?& B9 K, g4 ~" J3 w( W% @7 G! B
|
评分
-
查看全部评分
|