设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2144|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 % M8 I* {2 H/ b! p3 D% K
+ ~* A% K! s7 x/ N# A4 \
把PDF上传,然后让他抓取文字,并修改可能的错误。
, e9 @5 D9 l- m0 _" J然后deepseek完美的完成了任务。
" p, P0 _3 E9 ?9 {- u8 d; R段落清楚,列清楚,页眉页脚全部去掉。. O6 P  \6 P$ e$ a8 A( H4 H9 Q, `
我要疯掉了!- `$ a5 ]  `( @4 n( J% N
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
+ l  E- {& V/ U6 W====/ m: `; E( p: a- F+ Y+ K" s
中文也很完美。  L- v- v( d; Y" k) `& u
经验值,每次十页比较稳定。: ?# O6 Y- T5 e) }
现在我这里API还不能用,等恢复了,全自动了。$ p: h" M) r8 Q: p. v& {" P
====/ v, ^$ a9 p! B9 \* T3 W
第二次疯掉了!7 E$ t# B* l+ @1 g: n! i" @! t
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。1 i) O1 `' I3 }% x; E5 Z- M
====
$ u7 E! V: R' a- z1 b' r现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。7 Y/ ^* p. j" c7 x
但是任务多了后,每次翻译的页面数是减少的。+ |, s9 P( \! z4 N/ [
好吧,我五体投地,继续探索。4 b" D* p% L5 K" X! c& S
====  r) _- B8 X' @0 E
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
) r/ B+ p' x- W/ @$ |====
1 h0 V) @/ |$ R5 _* b7 b+ E好吧,有些东西是不给翻译的,哈哈。5 ~$ M- n& p, |" J) s4 X' d& x

! u% v/ _4 S" O5 tSorry, that's beyond my current scope. Let’s talk about something else.
! R4 a7 p4 v6 X0 z====& K% w4 c8 K& y! j3 B9 M
然后我的英文命令也让deepseek 帮我修改,呵呵。6 U* R  N: ^! i0 K
====
, {+ y+ N# X5 g) Z7 D! g日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。0 m) J; F+ x. K/ x7 I; n! [- k' p
====
4 o0 ]2 o, W: B/ p时间段的话,北京时间的下午和晚上用比较好。. i+ j' ^6 H/ D
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。; ^) ?# v# l( s( w5 o# {' O( V
====& K$ J3 L  y: R* ], Q- E
用千问吧,非常稳定,非常强大。2 p/ h- c, w$ O
https://chat.qwenlm.ai/, i) h+ f  a+ n# |# l& X4 g' V
====
9 y: ^8 F, q- U$ d: \( l' N1 MDeepseek,API 看上去可用了,但是不给充钱。4 q/ {) r+ P8 v+ R9 z! O( y  L) a1 C. V
$ H4 n& i' a& t7 n

7 p; m/ D9 S+ n% W; k. _- H. u
% V1 \0 o+ c# ?( y9 F# U

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3585 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53: [3 p/ F* [1 _; p+ h! d
    这功能很赞呀

    4 G* e9 a: ]3 c( P0 w+ Y简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    ( l+ `5 Q" h1 ]1 G+ d有没有上传整本书试试

    / K2 U" K# e0 \1 Q, D$ N目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3585 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    2 Y5 e' h0 |9 N& f' j4 p3 `8 {9 k! f- S/ {; ^0 E( @* J
    以后让deepseek 读出土的竹简- |  ~, Y* @% q# T1 @7 D

    + {# N/ e3 N# c4 W$ m0 B3 y还有把古文翻译成现代白话; `7 c1 ^% M3 j9 E

    9 B( q& l! x6 W+ W7 _% }; ?: y以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 04:56
  • 签到天数: 2752 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?# x8 T( S! f1 A# O% m

    $ O, o( F4 n# Q! T/ F  ~我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23# H- ?, e8 b9 O1 ^
    请教是如何实现的?
    * ~6 X) t8 v5 E% c3 F1 a, S! a1 R0 F+ s( ]
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    * w  W- }" B4 `& G2 ~& i8 D7 ]* I  O7 ~( M* _
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。: [% y8 {6 G3 D- m4 S: G
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。2 F3 h' u1 E8 j2 y1 Q
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ( d5 @" `8 J; k7 c9 d/ R

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    " M$ D& o" n5 V4 M! R# v请教是如何实现的?
    - ~$ s( J* d% O: [* Z
    + }2 ~( x) x4 k. T9 F% t我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    4 x: Y9 p: o. f0 C5 H- Z
    https://chat.qwenlm.ai/
    3 U9 d. a- J1 L试一下千问,估计美国人没有攻击他,所以资源敞开用。. a  U  a* A( x; t4 Z
    很稳定,质量不错,好像最多一次处理15页。& }. L: c; \# u+ r$ o5 j* z
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 2866 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    , T: S! z, t$ h" D处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。7 c2 y: B8 @" {) d3 E7 }6 M1 J
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    8 ^. @5 j* F! V& R6 ~6 `5 e
    , ^, z  O$ P" Z5 h/ F" i. l5 Y/ Yhttps://github.com/oomol-lab/pdf-craft3 \% D# g1 T0 O( R( y
    : f% Y( }. D: s7 }
    1. 这个工具要求装 python3.10
    , m& s  p9 @1 @6 U2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0; x2 c; m! _/ H# j8 V
    3. pip install pdf-craft- z" s: j3 p, t9 T6 i
    4. 把下面的内容写到一个文件里,例如 a.py
    " {- N2 M0 y$ f: q  f' [8 L2 f& M$ W
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter, H- u8 u& \5 ^# `' A" p& [

    2. $ h* q: M; b% N. U2 m, M
    3. extractor = PDFPageExtractor(% r6 b7 P* {, b0 L
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ; r( r: u! n% u
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      - V: T: y9 o  _  {
    6. )! h% G( O2 K  l
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ( g4 s, m7 V& \# Z! O1 e
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
        Y/ n0 {3 i7 |6 Q& n! O( p/ |: I
    9.     md.write(block)
    复制代码
    4 F4 D! c% |# ?# g9 V9 d! q

    8 h0 d: ?2 e9 c! B- ?/ v: D" P要修改的内容:
    ' p0 g0 a4 u8 Q% v4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型$ z2 i0 b* b* O! G. ]
    4.2 markdown_path:输出的 markdown 路径文件名+ U% A: T3 w/ r; n) P
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名; o/ V0 B( r" X' p- |* U$ i
    7 a  W+ }& P; q1 E) \% k
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    ; g/ {* p' W; N" h4 c: i7 P
    5 Z; T3 X* f) i9 \" G$ \/ q目前为止PDF转纯文字的最佳办法。; \/ g4 l4 b. n6 ~4 ^) [
    先写个小程序,把PDF按章节切成小的PDF。
    3 t' ], T+ ~! H) x! N然后,把PDF一个个传到deepseek,让她抓取,除错,输出。" J+ y% V. v4 R2 [" Q
    效果非常好。
    3 m3 ^0 Z# ?! [) B* s' `# p. p0 E+ _- o/ f) O9 v
    deepseek,qwen,chatgpt 三个,deepseek是最好的。* D- H# G0 Y, x
    4 Q) Z$ I) L8 ?$ @2 X
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ' B& V+ h& e8 ^* x+ p6 X+ x1 `而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    8 ^7 \4 o7 N9 }我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    4 h* ~" d5 A' J' {# g
    % F3 A1 J, @+ UAPI到目前为止,差强人意,不如网页版本修得干净。! d% N0 [  o- d; F  W- p' ^: E* L

    ' m# n# h/ E; E& G, x& kdeepseek可以同时开四个。( L( m' r( Q6 L+ f; C7 l% r/ V- }4 R

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 " w7 }# J  A! ^/ N9 L
    5 M4 r2 ^5 U$ }0 ?
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    2 |8 D# A& x% `5 i" j  A5 R* m$ D# U2 E让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    & _5 K& o$ i0 ~细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    " U) V4 E7 h$ e- _细说一下,听上去很不错,多谢。

    ! J$ p9 `) g( `8 p' V2 ?+ z' E直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 8 y" P1 I- C; y; |( Q
    ) Y# o* }! J9 \0 C2 }7 R; Z2 b5 m
    已经搞定.1 c8 V8 I6 f: |& B& H8 Q' s
    ) R5 j+ r! m4 d8 a# r& l
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。9 R7 L/ m, t5 o" u7 \: k
    - k/ s& h' u6 V  L1 j
    1, python + pypdf 按章节拆分小的PDF2 B- e( _9 U: G
    2 j3 d% V) ?4 q$ ], G4 h; I
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile0 I8 g, D  m: b$ M, b3 |( k
    ! X" T8 ~- u0 H1 O. n# w
    得到text file
    0 y% _+ r4 I9 C, [0 Y' g9 @/ s' A" [- Y
    3, python 读取整个outputfile,丢给deepseek 矫正。
    & N# \) y- [+ F- l8 s9 b% K; g: ]- E( t0 A
    模型是 deepseek-chat) y$ k& a, J3 o8 i+ O7 ^4 I2 v
    ; u: w$ @( C, ]
    max_tokens 最大是 8192,别的不用改。
    ; b/ C1 W" i5 v+ r' }7 _* {3 G  q" Q' t  b
    参考:
    ; b7 y6 b4 p: y$ dhttps://api-docs.deepseek.com/api/create-chat-completion
    6 \$ o# M9 U: X) ~+ O8 s
    - w7 |* M: T, J, f7 n. o! N. [3 x0 H4,费用:6 o6 s- ?5 L. D$ M* Y7 `- A# ]& Z

    5 u- d# J/ w7 E7 a+ d实测:
    - c5 a9 Z7 S* x) e6 A4 |# \) x
    , x) J8 e& a1 q1 o6 ^3 q& }296K 字母,用了 9 美分。' l( z: b1 c$ f9 V0 g1 w
    $ @+ U4 B- m# {3 \
    英文字母 到 token 用量大约 1/3% \5 @; u7 a' V" G3 t8 p
    # a3 b* v  t  ]9 T0 a8 o8 V
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    . \, E5 g# u* S; l( p' g
    ) R/ t0 k* k4 _' w9 ~32899 个字母花费 11782 tokens,包含输入输出的 tokens: i- V( k# A! b  k! }
    - m  s# z. F& Q- e8 D; `
    价钱,非常非常便宜了。% }0 M# D( }0 ]' s. }
    / B3 G# @- \& `+ a1 e! e
    参考如下可以计算,懒得算了。5 I  d& ?5 C: |% h4 u/ L8 s7 U% G( R

    / b" ]1 l8 \; }- phttps://api-docs.deepseek.com/quick_start/pricing0 x" D, K6 `! [

    0 D* K0 P& V. A0 G% R# ^1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.140 i0 ^6 O( o7 E) b
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55, ^1 D. f. \/ q2 j8 K, ?6 A
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    0 ~/ q0 L$ s3 a3 t; c8 f8 q
    % o; I. c1 `9 g% d: @2 F5, Balance
    ( D- E6 s) p8 g0 D: f& i/ P, T( l0 @% e2 x# U
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    2 d; j4 f- Y% ^& \4 E参考:' z4 O6 k& N  T8 h! m- Q2 W
    https://api-docs.deepseek.com/api/get-user-balance
    # L8 d5 ^4 Q. a' w7 M4 p- @3 r1 v* h; }' h! s: S1 c
    6, Models
    7 Q; `0 l# }8 Q$ F. S% w3 q+ B  Y. c
    目前就两个6 P* {# Q1 Z# x6 K% j* J
    # deepseek-chat
    ( T6 x4 \: C( k( K5 s7 c# deepseek-reasoner
    " L9 b2 Q' }! {& k+ k5 V$ D/ \  Z: G% i; {5 i
    参考:7 ?3 _! l: D( ]6 i) i* ^& n2 j6 B
    https://api-docs.deepseek.com/api/list-models# t0 U, X3 W8 e, X* m. G
    : O3 ?, m& D1 d8 Q+ h) [1 Q: ?# p6 q

    & A* B0 {# m1 ^' P5 `/ ?7, 问题( r8 Z) ?# Z! L+ c

    ; Y+ z! f% F3 x+ {- jdeepseek 会将前后两段合成一段。
    $ g8 @: a% f$ c+ t特别是那种大量的对话的段落,deepseek会给你合成一大段。
    / q2 ~& [8 \2 S1 t5 F. E! F
    $ k* F! b3 \# }/ b6 E8, 钱说了算。0 h! U6 ^7 I& r+ F

    & N9 L: V! t9 i1 w7 s4 I5 Adeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ! b- S: X* @) k; @1 D8 r. x但是API就不会出现这种情况,毕竟我们给钱了。2 s' B: y) b$ l6 q
    chatgpt也是这样的。
    ! B) }. k, V1 \1 O9 x% w, w- H2 h# f8 T/ Q: ~7 f, f1 g

    $ a& t4 S9 N+ R$ R) i" V+ g

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-24 16:54 , Processed in 0.040095 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表