|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 4 p, g# [7 b: e. T, m1 f
4 C( Z) i3 N- n. d" q
已经搞定.
u3 U6 N: a W$ e7 \3 ~" i$ y
3 K K0 t* A Q+ j) J首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。 w! z% g$ e& |, I6 x
+ C; o4 u0 p9 n* |
1, python + pypdf 按章节拆分小的PDF
! V* y7 \7 i9 M4 ~4 z3 m* m
: m0 _" j6 {6 ^2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile5 x) s! Z9 x" C1 @9 s
8 Z6 Q, ?6 e0 q3 ^/ e
得到text file
7 E$ v% N2 Y& S. ?0 u8 S# c5 _0 F2 O2 t" ^% k: Y7 L* [& d
3, python 读取整个outputfile,丢给deepseek 矫正。
0 |0 J4 u6 j- F5 T, `; p5 j, |; o) \8 i* d7 N0 E
模型是 deepseek-chat
6 J/ P2 A) t/ c8 D1 \# Z0 ^2 C! a" x$ \) a' a1 S2 ]
max_tokens 最大是 8192,别的不用改。/ p; N; W. b9 ^
( P( T, h' M$ K% \
参考:' E n% t( {2 D# s
https://api-docs.deepseek.com/api/create-chat-completion
! E6 `3 j# ~ `4 i. I! m0 N. o6 H# V5 M9 ^
4,费用:
% I7 A# ^1 I0 N5 Q3 D: O# R' J
实测:1 |* K, \ D% a% g3 J! n
$ ]8 L( O# V2 g! K! V0 E/ `
296K 字母,用了 9 美分。
) Y2 v7 j2 N9 F+ V0 X( b# |* K% d6 ~. ]7 F0 B
英文字母 到 token 用量大约 1/3
2 j: c; s ?4 X* @* W8 w; c' {
4 s: p+ I( d' }- Ltokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899) v; X4 y' S- d
2 @5 P9 E$ b3 R; C0 g32899 个字母花费 11782 tokens,包含输入输出的 tokens) v6 C5 ~4 k- o: H
0 m- w, Q: Z* L& R4 i: J1 [5 K价钱,非常非常便宜了。
h# z+ N ?1 q/ s
: D9 t( G3 {: q6 @3 p参考如下可以计算,懒得算了。8 o* m" P( }! l Q$ M
/ D- D$ L0 t& R! c
https://api-docs.deepseek.com/quick_start/pricing( o- u \/ R, k: l u
" P) z4 b+ ]5 \. x, P. _
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14+ C; }) O2 O$ Y+ T
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55) m# o2 k7 e, h
1M TOKENS OUTPUT(5) $1.10 $2.19
% Z' b# ~$ s" g6 L0 T5 ^$ c$ h, X6 f) o0 I
5, Balance
* _1 ?5 N" t+ E& c) |" y9 k
. M1 C7 Z8 G+ Y9 l6 W可以在程序里调用,知道每次运行结束后,balance还剩多少。: M/ y: {) |- y1 F0 i8 a8 J+ E3 u
参考:
4 [8 h- ]" s4 O" {1 ] ]https://api-docs.deepseek.com/api/get-user-balance" c0 v" D" I! z$ Q T- I/ u
9 i) f; m$ O; M. n. R" Z( Z. k6, Models3 h* n; f+ C x4 d7 S/ a% X
2 t2 C( n2 W: `' R/ \/ j
目前就两个
$ L8 B* e+ ]+ v5 g3 [" j# deepseek-chat
) b6 L$ D- v7 p- P7 Z0 k, P- ]# deepseek-reasoner' C8 g, U- f. F% V; T9 u. t
3 F. x6 v7 E( `8 L9 S' ?# r
参考:
( u Q, w- U1 J# b6 ]https://api-docs.deepseek.com/api/list-models
9 Q! l. ?$ D0 i5 Y6 i! j* r
' k7 E5 e4 i! q% R4 J: k; ?- r( {- ] ?
7, 问题4 y( G+ U4 M, x
. q' A/ v! U+ ldeepseek 会将前后两段合成一段。1 E0 g; n s6 K$ I4 d; M5 n( N. j
特别是那种大量的对话的段落,deepseek会给你合成一大段。1 ], r$ i3 |$ j6 H2 @% N
2 d6 X, @% Y$ a# [
8, 钱说了算。
! q" Y8 g8 a( _2 `) g. X' R. W- q( i. A( l, l
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
- ^! K- p; s, o# c A4 Y但是API就不会出现这种情况,毕竟我们给钱了。
. x V1 V& @# S/ Pchatgpt也是这样的。
+ Q& `# m9 ~# e# a7 L
& a4 E5 o$ I E' l, m8 G8 X' n& d* g$ m
. c! g6 S* B& M# U2 Y0 T |
评分
-
查看全部评分
|