|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 S" T; x( Z! |7 ^' ?' k4 X+ w
$ z7 E) l3 ?6 P# j7 P, u( Z
已经搞定.9 G- S+ E: w$ d4 D! P4 \( A
; H4 }5 A1 {, q n, v& g首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。7 s* P* V/ g E( i4 q9 d' z
1 ^0 X* \$ M/ {9 ]! G1, python + pypdf 按章节拆分小的PDF
- O3 G! J: _& a: x: d; ~* z
9 q/ I& R" u0 F3 b+ P! a% n2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
" J) d3 ~ ~" j
+ ~! P( H9 T6 q4 R& E& D得到text file
4 k( z; u# G$ L5 d, a- O! Z' { d
3, python 读取整个outputfile,丢给deepseek 矫正。) S$ |- G$ G* Y: G# w! ~9 Z) N
+ l* F! c: V7 P3 j模型是 deepseek-chat4 D. t# I2 T- N
& b( j' F) Q, p: s5 N/ imax_tokens 最大是 8192,别的不用改。( W1 J1 W2 k3 d, o; `5 Z6 k) S
1 c2 g7 Z( B: l+ j
参考:7 f- O K" b" }
https://api-docs.deepseek.com/api/create-chat-completion
2 B6 u, g& I+ _7 J
! o4 U6 j+ T9 d$ g4,费用:; ?/ `" E; n3 V6 k4 F: L4 B7 X
1 D$ ]% J/ Y2 B$ b' v' U$ M; O实测:
- I* N& X; h+ W
8 d, ?5 X+ M, M- ~6 ]& m# x0 o$ J6 Y296K 字母,用了 9 美分。% U3 H- @$ ^( O; n
4 W6 M8 g- y. i
英文字母 到 token 用量大约 1/3/ R3 L& i. y! ~+ s' d' G
+ J8 Y2 `1 \% g1 gtokens: total, 11782 completion, 3729 prompt, 8053 | s: 328999 z, e7 k) A3 Z1 y& N1 N
4 |3 U" y6 b3 H; j: h
32899 个字母花费 11782 tokens,包含输入输出的 tokens
. r' q9 a) l) A2 H" ]
, r7 `* \ H: [5 E价钱,非常非常便宜了。- E9 J7 c- x3 J) e H
! d$ [# X$ g" p% w7 ^参考如下可以计算,懒得算了。
O( A5 n* Q" f( k
, k, x. s6 A5 J) Fhttps://api-docs.deepseek.com/quick_start/pricing
# {) m" y: }* a$ p# E- ^$ k. q3 h c- J& q' Z$ J
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
3 G* h' p4 T) q# [1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
6 {2 Z- s- A" D* j* F1M TOKENS OUTPUT(5) $1.10 $2.19" N0 `" d' q6 p+ I
, {1 K$ S8 o. s& b2 j5, Balance
& b. o2 X8 O; \ B! H6 ]* S- c3 ~- {, c+ U0 S; r
可以在程序里调用,知道每次运行结束后,balance还剩多少。
/ J* x8 r! n" b& G ^参考:
- ]: N! l: `3 {3 V6 i7 }6 m/ lhttps://api-docs.deepseek.com/api/get-user-balance% }3 s% X. X( v( c1 `) r6 V+ P
* \% c7 c2 x n( f: |
6, Models
0 {" m. e5 @# u) L
( J% Q7 S) d% }2 F4 L& b% z目前就两个+ J+ o$ q+ T( o" l% _; z
# deepseek-chat
3 V Z0 L# N; |# x# deepseek-reasoner
" W& q/ ^/ Y# {4 ]: g. y! v4 }$ q& m
3 F; r$ V2 S& v v" p9 O# Y参考:
4 z2 m) r( {) X. k! W$ vhttps://api-docs.deepseek.com/api/list-models( s8 G; ` ]2 w# m! \
5 J. J$ p' K( b. t( a- H8 A6 I% V+ I; Z$ K4 \
7, 问题
H B H. n$ z+ K+ x; R" N6 ~ J* ^
deepseek 会将前后两段合成一段。6 ?. d$ s& D9 |! Y8 O* e
特别是那种大量的对话的段落,deepseek会给你合成一大段。
, g/ c. Z$ \' [1 \2 I+ w+ |) w
; I8 }3 D1 u: J n& D d8, 钱说了算。8 ^! @' W6 L4 @; B d8 Y
0 }3 [* j, h3 Y0 U' _) @2 qdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。: X% e2 v& ~, U! W
但是API就不会出现这种情况,毕竟我们给钱了。
1 ~1 q: R+ G5 V9 x, U5 }7 kchatgpt也是这样的。: |! j3 A3 m; ~* C
! X0 D1 m6 P4 e) B: F7 k6 M1 c# E9 \* D; e1 z l4 p& Z. m4 [! ?' ]
|
评分
-
查看全部评分
|