|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 - e! v! v1 e8 Q: v- ?
/ ~1 L5 |4 O8 z9 r已经搞定.( M0 q1 z0 l8 R% I, ?8 ?
/ H: z4 W9 z U( `$ ~/ T( w1 a
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。2 n2 C9 ]. L1 N+ J% h4 Z
: T$ g& S2 Y* ]1 x$ Y
1, python + pypdf 按章节拆分小的PDF
: q% V- [$ b2 C) {7 ]; A
) U* m( F* s! y$ r( i: S2 V3 Z9 j2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
6 f) u5 L2 Z8 Y- O0 K) |% o5 P, G4 f; e8 W5 e' t& N0 }
得到text file
5 n& \% S, O% \& e5 t! V* @' {! Q6 l" c8 Q: s
3, python 读取整个outputfile,丢给deepseek 矫正。
& U- j& }% a5 H$ K* r, G; \: C! X8 {# E% i. d+ G! c
模型是 deepseek-chat9 M% W! C; {$ S( [) J' I3 q% V) B
' F. Y7 ~9 ~+ J1 z0 A/ q; y
max_tokens 最大是 8192,别的不用改。# [( U8 i G' n$ h" O# e) r
5 C' r: _1 ~% }- x( i
参考:
' r G M) K6 W: Shttps://api-docs.deepseek.com/api/create-chat-completion0 g, M6 X5 p7 j' S& e
, {' w! Y" Z! z r* m7 y2 W4,费用:
) l$ y$ [3 [$ e1 r& Q4 j1 T+ N3 i8 A- y3 b0 F, q1 e
实测:
- B5 `/ h) o: ?# s- H. P- Q$ E' |2 O1 X& o! l0 u2 V" @. b+ Q
296K 字母,用了 9 美分。. _- t( C1 k+ N7 h3 d
& Z; J5 e5 w, ~8 X1 ~英文字母 到 token 用量大约 1/3" o6 ~: ~" s) }" v! k8 V- E
) A3 Z0 n0 [' Z! P
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899/ X& L6 u }, V1 S# ]; b
- o" s9 a* e9 m5 h; m/ D7 P$ K( g' j
32899 个字母花费 11782 tokens,包含输入输出的 tokens+ D3 n8 v0 z. i2 g6 X. D/ O
+ _5 g. \5 S/ T; ]8 u
价钱,非常非常便宜了。. G4 F* H; s7 \6 N2 d+ N
" s$ v% I( B: N参考如下可以计算,懒得算了。2 I7 G( d) u+ u
7 R( Z; `# e' \1 h
https://api-docs.deepseek.com/quick_start/pricing
( C4 y" O: }8 j. k( C$ ~2 l3 q' p U$ R; \3 M0 |1 S# j5 k* F
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.148 |! x! R; @! y' G {4 Y7 a
1M TOKENS INPUT (CACHE MISS) $0.27 $0.550 V2 _ Y4 x: B8 c5 N
1M TOKENS OUTPUT(5) $1.10 $2.19
$ H8 K: |0 f* p
$ Z8 K' R: D& H5, Balance- m6 k4 \6 y; q
0 A" m2 q& u) ~+ R. i+ s可以在程序里调用,知道每次运行结束后,balance还剩多少。
: R1 |8 y" ?& h- M9 N/ J4 x3 s* M参考:! l7 m% @! ], x+ y- W4 c
https://api-docs.deepseek.com/api/get-user-balance2 p; z/ c2 v5 B
" w5 _) q3 n" L& h9 p5 l& `6, Models. @0 ^# ]5 j0 j3 ?0 f; X% [- ?
" |7 M" l3 j# G目前就两个5 [9 K* I6 E; {. p# K: @
# deepseek-chat5 Z8 C3 Q3 Q' [7 n+ g5 z
# deepseek-reasoner
9 z( E6 Y( ~- g% s$ d( d' z/ g9 k& u. l( z
参考:# z& d3 O, l. N/ ]9 d! j: r, `+ e
https://api-docs.deepseek.com/api/list-models% z( H3 ] G2 l
9 W2 f# ]9 |, O8 _) \& ?
8 g# ?" _) A. S1 ^; I7, 问题4 W' D9 z+ Y% t2 K5 l
1 l! y g* k5 w7 tdeepseek 会将前后两段合成一段。
i$ b% I$ n5 m/ D4 i6 l, D特别是那种大量的对话的段落,deepseek会给你合成一大段。' p( i9 t$ l2 M' a3 [. L
: K% I, D2 b( w5 c4 K/ `
8, 钱说了算。
- o( ?9 Y3 V" |% {- r( H' Q8 ^8 g& g" \9 O( F9 O) F" |
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
7 g! g( B: `: F0 e* T# O1 {7 P但是API就不会出现这种情况,毕竟我们给钱了。4 i" @, }- S& P0 G6 [
chatgpt也是这样的。
8 ~; V4 E& D0 h5 u
! C' S. D% t+ Z2 R
9 ^+ [; L) z2 {. A% @( f |
评分
-
查看全部评分
|