|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
- }( H1 w0 u1 P8 o' Y! z
0 @& }" x1 K5 j已经搞定.7 d4 @. ?+ B+ @
/ k9 N4 b" A* l9 |7 c1 u4 p. V首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( n* |. o' S; c; ~( d q
) Y! e: u5 i; E! p
1, python + pypdf 按章节拆分小的PDF
* D8 r- A' j2 `0 ~, L g& z, c x" _+ ]5 ` C6 K9 d' Z
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile% @9 V; a, D) a/ g1 w* c0 l, ?7 C
! e* j. l6 c a% }5 s- K
得到text file
! K# A# }6 R9 Q& j+ V! E% j( G" d! T: `
3, python 读取整个outputfile,丢给deepseek 矫正。+ C+ U- N1 n7 f8 m$ B: A
6 k- K. Y. S" B2 Q% Y
模型是 deepseek-chat2 T' s# K7 l z a: D
3 C* j, D% b6 J. P7 R) H$ l) L
max_tokens 最大是 8192,别的不用改。. e4 a: {& Y$ x/ u2 B- ]. ]) m
) r8 u/ Z( Y2 y- M参考:$ M% B8 M+ p: `7 l
https://api-docs.deepseek.com/api/create-chat-completion' P1 U* j! x. l* \- J' j) [
! P7 W( {5 x3 x$ z4,费用:) k% I2 }; U- }5 S3 S, u
0 Z) ^1 g9 V h9 f) G4 t实测:
1 f5 L. |. ^7 _6 n- }- S6 h( v7 m; C# d) {1 A2 l
296K 字母,用了 9 美分。6 W1 K9 S5 F' I) I) [
8 d$ T7 L& v: {' B. t: `9 B3 d$ Y: q英文字母 到 token 用量大约 1/3
I( P9 t- H4 {3 H5 m& r
+ Q0 V) N; J* \/ _tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
7 u9 G& j1 L4 v3 d$ D" b& a$ S s% s4 C7 B4 ^ z( q0 C
32899 个字母花费 11782 tokens,包含输入输出的 tokens/ \- i2 V( W: T5 b2 o8 [
8 a0 G" V8 l2 C/ B价钱,非常非常便宜了。% o0 R- y$ j/ E. d
; H7 g( L0 b& E! r参考如下可以计算,懒得算了。
M9 z' A& v/ M; e& a, x3 v5 _' v. c# R1 N+ N: q/ d( e- Z, ]4 A# r
https://api-docs.deepseek.com/quick_start/pricing
, f3 b" m* d( Q6 ]% m# m2 S7 ?; g2 R w6 q- s9 E8 [/ u
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
1 j' \" v/ n$ i/ e1 D; B2 f1M TOKENS INPUT (CACHE MISS) $0.27 $0.55 t; Y' b; w0 V2 U
1M TOKENS OUTPUT(5) $1.10 $2.19
! h+ e- |/ V: L& w* X+ F" Z- s, t3 f( ~1 V( E( R; n+ y
5, Balance6 ]1 z$ r; k$ h0 T: \4 H0 m, s& t& j
) y5 j, h" Z D6 e可以在程序里调用,知道每次运行结束后,balance还剩多少。
' w* Y6 p$ S* C, B$ d8 v参考:- S w4 \- A2 }, k! U
https://api-docs.deepseek.com/api/get-user-balance- q! l+ l% r( O- ~3 p
/ B( g: R, Z o$ U5 J9 }$ \+ v6, Models
; Q. h* @& S* n/ H, ~" t! x) U7 S) ^. \/ a
目前就两个
( Y- `- _4 H0 k# deepseek-chat% h! X( E/ z6 ^
# deepseek-reasoner; N) Z7 k* e" F8 I
( Q" c; p* s- n# z参考:. y( \/ o% w J r- ~0 E1 q4 j2 q X
https://api-docs.deepseek.com/api/list-models; v- ^ S, Q5 W7 A, j3 V5 ]. Z
3 U( o8 C8 h3 K d* l& c- n2 c( `4 ?! Q* s$ w2 n" ?3 G# ^( S2 o
7, 问题3 ^( E, h/ c0 f: r
/ {+ \7 Q, ?& k$ ?2 Ldeepseek 会将前后两段合成一段。) l8 }4 I" ~9 J1 X8 H% n/ e
特别是那种大量的对话的段落,deepseek会给你合成一大段。+ u; W {- |, x
1 v' ^2 _3 t3 g7 t) r7 n5 t
8, 钱说了算。
. m, | U! R" s+ W9 a f
, c+ K4 T8 s% d6 m7 kdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
% A7 |* t" D* n+ b" K, ~+ c但是API就不会出现这种情况,毕竟我们给钱了。
* K, w. E# E" v+ Zchatgpt也是这样的。5 w8 U3 t% G" `$ f
3 ~1 I* |0 l) s5 h0 f
& h( u9 U" M( m P |
评分
-
查看全部评分
|