|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ; c; ?' J' L% M7 [
5 x8 l" k5 X/ F- E& U$ `, K# w
已经搞定.' x9 m0 c6 Q8 O; I
9 {) y6 q; B; U. D" F9 d" S
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
5 F- i. h% p5 d( t: n* K0 Q6 I+ h. Q: I, d2 Y) @
1, python + pypdf 按章节拆分小的PDF6 s2 C" z! v7 P0 P \4 X
0 I0 m# I {, U1 E p3 Z. B2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
2 b( j# J( n0 f2 o9 f5 Y) q& h: O
得到text file
* o- C7 b$ n' z$ S* M, ?4 j9 x
; F- `( z! I& d5 {3, python 读取整个outputfile,丢给deepseek 矫正。
, b3 M+ o6 O# n) C1 b8 S) q+ r4 G0 ^$ `' c; N' Z
模型是 deepseek-chat. s' Z/ @/ {5 w- x( k' b7 |8 B6 Q& i
7 B* U2 u7 `+ W7 d+ q; h
max_tokens 最大是 8192,别的不用改。5 h& `$ m- H: X* p2 h. H$ K
+ B, {* l5 m) S, \7 [5 T$ O7 ]参考:
- Q# b5 Y6 _6 D6 i# ]; E9 Bhttps://api-docs.deepseek.com/api/create-chat-completion
4 x7 |7 P4 ^4 _$ y2 N! e* p& g, I- q% P3 C; M* k% I2 d% F
4,费用:
* p9 A$ w4 N$ |4 ?/ _, O( D0 P; p; L( [5 k8 t
实测:
+ {( {' N/ V5 G& E+ }5 j8 u7 q* ~/ T- N- a, {
296K 字母,用了 9 美分。
" B) T, V1 ?/ P% d
* k9 H1 W- @. e7 t英文字母 到 token 用量大约 1/3
+ r+ q1 S" K* B% ]
& X5 q8 e C8 k! H1 E2 {. gtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899' A* c- b2 n# W* x
( e! Q9 I! F/ e9 C
32899 个字母花费 11782 tokens,包含输入输出的 tokens: \4 i/ }3 f4 H# ?+ M
Q# Q3 `) S' q6 F+ p7 O: H
价钱,非常非常便宜了。
& f3 W& L9 z# a! i/ s0 F; D6 }/ C% x5 k: `, [
参考如下可以计算,懒得算了。
2 ^* r7 \7 E" G1 ?4 G! I% y9 v' E7 a1 Z! g( E+ `
https://api-docs.deepseek.com/quick_start/pricing
& Q) }* E1 J: b
; W9 e+ t; Q n1 I. b1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
2 p" k4 Q7 Q- z; }1 ^' n1M TOKENS INPUT (CACHE MISS) $0.27 $0.55* l. S" \' A% \
1M TOKENS OUTPUT(5) $1.10 $2.19
: {/ z1 R5 _3 R" V
& G' |- e1 o' E/ w5, Balance: n" e* k+ ^9 m2 R! T3 M
5 K4 O0 i8 b: s可以在程序里调用,知道每次运行结束后,balance还剩多少。1 F X/ h N1 d1 {5 R
参考:
! g5 t1 V E/ J7 `) e0 ~6 Phttps://api-docs.deepseek.com/api/get-user-balance2 T: U. H2 h4 f' g6 ?; i' ]! n
7 i6 m: r. @* r3 O) a& D/ t; o, D
6, Models
2 t. p# E& x) P5 g3 U! D6 s
9 p/ n, T1 U$ P/ T8 q) p目前就两个
7 ?. y) N z9 W$ \' X: P; `# deepseek-chat
& \0 l% A) [* p7 y9 e! P$ V; P* q# deepseek-reasoner/ q% L5 { q# v9 {: B- `
, T* s3 ?2 m/ W5 d8 B) J
参考:7 S4 L z+ k) n0 u& ^0 b1 g
https://api-docs.deepseek.com/api/list-models
( j( n; R5 o, o( p* l# o
+ s, x U: T; `2 K4 g8 t
# A) x z. d7 e% s; T/ l& c' [+ s( F7, 问题& K6 e1 j. i8 r8 B
" }, b" P( O* mdeepseek 会将前后两段合成一段。
P/ z9 x% d- p: a" o' [特别是那种大量的对话的段落,deepseek会给你合成一大段。5 n6 d/ `$ i* @* f% W1 R; I
1 u1 R, e7 l% U! E u8, 钱说了算。' `& H* l+ `% t
, J- Z- P: F3 ?5 I" z) e+ f
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。7 V' s9 L; Z; I+ y0 V! b
但是API就不会出现这种情况,毕竟我们给钱了。
2 i; O* ?* C: c1 u/ ]$ Nchatgpt也是这样的。1 P- Y$ _( w1 X& O
3 ?. W& H& l. q" N
7 z) v r6 j3 v8 J. ?* W1 h. V& E |
评分
-
查看全部评分
|