|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 6 f0 r9 y- s8 l" u4 g4 `+ L0 P
0 k& c a7 h# q& r
已经搞定.
' r) l; g8 J( w- H' K' z- n7 |3 {% H8 f; }$ i/ `
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。0 [: A1 W! r- T# N ^( D5 K4 ?
% o6 Q4 X! T6 z7 a8 G7 b1 t
1, python + pypdf 按章节拆分小的PDF
; n) j$ c, R0 {: W! Q/ O" Y2 M; Q
9 _9 h) t2 x: p6 }* ]2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile S" m9 \7 I8 O, {5 m F* B6 N
1 w$ C7 R- d0 y% e得到text file+ z: X x0 t4 M/ p* ?
& e7 r! x7 z# a; P8 X. S* l
3, python 读取整个outputfile,丢给deepseek 矫正。# m$ X/ a2 c! w
5 z+ w5 d1 Z- ]( Q2 o7 ]3 S模型是 deepseek-chat
: E. \# ]2 N" a5 `4 d t& v- ^, E5 E
max_tokens 最大是 8192,别的不用改。+ E8 [, c. t9 g8 S: X& K
, m/ n4 O) q; q! u参考:9 g- y* q5 Y" K8 Z
https://api-docs.deepseek.com/api/create-chat-completion
6 N9 i( Z$ g* g3 r* T( x" L; q, G# @
4,费用:
. l3 `0 l# P; D' [
. ?4 Y8 V3 f5 l9 o& a3 {实测:
: T0 a! A7 j1 H7 N+ I3 m* [2 `+ q7 l! g: M3 t. c: L& p
296K 字母,用了 9 美分。
( r/ c% ^" Y; z3 v4 t
4 ~- f# e: ]4 z. [英文字母 到 token 用量大约 1/3
- e& {) G% N" U F8 J8 d! f+ q2 [7 t. U/ `" s
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
7 s9 d, m6 \% G9 K5 P# q. i6 k- h5 n4 E( p2 W
32899 个字母花费 11782 tokens,包含输入输出的 tokens
" P; G; |/ h! M, X* b& B8 o. Q0 {) F5 l, h
价钱,非常非常便宜了。
- P/ @4 r, @2 |: A+ i6 G" ]* p
7 v. X' p" Z- s6 U参考如下可以计算,懒得算了。
/ f3 N: ?9 _6 g8 Z- e1 H
7 M5 r: t! O9 I/ ahttps://api-docs.deepseek.com/quick_start/pricing
9 p% n) i3 a5 } ]8 Z! ]) {; R, \$ c( }
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14" g( K0 | f" E4 b; f" C' F
1M TOKENS INPUT (CACHE MISS) $0.27 $0.552 h& L$ p' O0 t+ S0 w: s
1M TOKENS OUTPUT(5) $1.10 $2.193 V7 \1 W! ?* e& o+ L- C8 t4 ?7 `
" v* T' m$ a, J7 x4 Z8 Y' |. o2 H7 {5, Balance4 J/ l' j2 z& U
) Y# |$ n5 C" O6 P2 l" U5 [
可以在程序里调用,知道每次运行结束后,balance还剩多少。% W$ K+ _0 B2 J+ _2 U
参考:
& O) a- t0 l! [+ B- X$ k( Rhttps://api-docs.deepseek.com/api/get-user-balance. u- B% H, @, z: W
) F$ t$ y9 o* s+ C4 f. c% j6, Models) s" N- W5 K9 O- N/ r. r
" ^1 t; y! N% R5 {* V
目前就两个
0 ~8 T# `; G& J; M% n$ W# deepseek-chat6 C7 z3 Q3 a) A% h6 P
# deepseek-reasoner
" K5 Q- G5 [( Q# L7 h F$ n0 r3 w" L0 g6 E
参考:
- E5 O0 P4 U- q( N8 E! Ghttps://api-docs.deepseek.com/api/list-models) B6 v) ?; x, a7 R0 A9 L7 L J1 w9 q
+ {; f7 j5 F# O* l8 ?, x+ J4 p' T6 h: G2 ]
7, 问题
2 H$ e$ c& j. t; }; c/ v6 x* U
: v1 }6 |9 C% ]2 Jdeepseek 会将前后两段合成一段。
8 h" _$ [: H/ w Y, V- W& Z$ j特别是那种大量的对话的段落,deepseek会给你合成一大段。
0 V( Z+ ~5 J6 O% D9 V. u0 j* e: v0 Z
6 k; `3 `4 A' M) v; S8, 钱说了算。
) `: t2 b/ ~! }& d8 J
8 P2 t9 W9 b5 h wdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
* X& ?0 m$ T+ X7 r5 V但是API就不会出现这种情况,毕竟我们给钱了。
$ G2 N Q% [6 @( ^chatgpt也是这样的。
" @/ |; n) M7 }/ H- X, r/ z) H, N- f6 x/ Q
* O/ D; X) F0 ^, ^# Z* w
|
评分
-
查看全部评分
|