设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2392|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
+ ^" z% S7 o+ |, E; I# R4 c  T3 ]
3 |0 m% _5 y- z3 S; u; K把PDF上传,然后让他抓取文字,并修改可能的错误。
. R; U, K7 c0 C  C" Y/ v然后deepseek完美的完成了任务。, E8 s! V# d4 H5 Q4 b. c' K
段落清楚,列清楚,页眉页脚全部去掉。4 l8 G# h7 J9 c1 ^# l& }; {
我要疯掉了!/ B# g; v/ p1 G- c8 @: i+ a( ?/ ?
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!  B4 p" _/ Y' c9 G% P& Y0 _
====
0 E& K1 {' M( k3 ~, u中文也很完美。
" u+ j8 h- f/ V: T2 p/ R" T7 O经验值,每次十页比较稳定。( H3 h' A& N$ |8 h9 f$ O4 M+ q' Z+ i, e5 ?
现在我这里API还不能用,等恢复了,全自动了。6 ^7 d" K; ^+ w  {+ t
====
! |, ~" i9 I9 |* {* i2 {第二次疯掉了!2 {$ U0 v  F0 ?; f% ~3 n& F
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。7 G  m, M/ d' U- K3 T' @
====
$ O. o2 w' `$ z0 M- ^' w现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
: X( b# w! M9 ]% K, r- I但是任务多了后,每次翻译的页面数是减少的。
5 C& e6 e* B% p/ d. A好吧,我五体投地,继续探索。6 M& F% n+ D" b- S8 q0 v5 a2 b  f
====
& j. K; l: O8 b+ ~为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
' v0 }3 n$ x" T& Y# m. e====
' g7 z' y( ?3 x+ g好吧,有些东西是不给翻译的,哈哈。
: |  }' T/ ?( ?8 F# p8 T1 r: @8 z% k
Sorry, that's beyond my current scope. Let’s talk about something else.5 }3 t, Z3 n" s3 E4 O
====
& Q4 Z% n- a" m9 F7 J9 k5 _然后我的英文命令也让deepseek 帮我修改,呵呵。' x* U/ M1 }( g1 u1 N7 i
====
9 @" Q2 M7 K/ ^; U" y( Z% g3 k日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。$ ]) T( Z# N  o4 a4 v/ D
====
4 l/ h% F6 x3 X& R9 d时间段的话,北京时间的下午和晚上用比较好。; x0 R6 x' x+ \9 X$ S
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。$ H: H4 _. q8 D+ r0 n# `9 z
====
# u! g) Y; m6 w  R. b% M$ @用千问吧,非常稳定,非常强大。: w! x5 q' y$ j- Z# i
https://chat.qwenlm.ai/
4 [# b9 C  j9 p+ [! q) L====
! r5 h" q. W; g. X2 z1 _Deepseek,API 看上去可用了,但是不给充钱。0 F# i* p; c5 C9 l3 j" p
" Y. F! \" c' _5 ]% o0 u( F1 s
/ E2 m' m/ f* ^% A; ?- a; N

: n1 G0 C, |0 o1 L) p* D

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3632 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53" G- P- h; M& {$ M% G% B( n
    这功能很赞呀

    + X. R7 N; L3 F6 e+ |- r" r) m  \简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    0 ~. g$ l5 w7 i/ V6 \有没有上传整本书试试
    3 X/ H1 D1 j! _& l
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3632 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    - B' W3 A) [% k: Y* b. v  @. o
    4 q4 G( n4 k7 C9 F( w以后让deepseek 读出土的竹简
    # S" k$ N  D* [- X/ P( k$ k4 w- U* O- X6 x" q0 x* d1 K/ x3 I  e
    还有把古文翻译成现代白话8 y) }1 m7 I& i  Q0 t" _3 Q6 G* M1 }5 e
    7 \! ^% p: a2 j
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2795 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?+ K3 r# [7 J+ o' S
    4 @3 g% \. {# C9 C: [: T
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    0 T# c0 A9 A+ G7 F! [请教是如何实现的?! N9 F1 U8 a$ n9 p( h1 c9 X

    0 X) j4 {7 y9 Z# q! S1 K. D我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    0 F( Q6 j8 ^9 M8 p

    + X, A/ r5 P. T6 r我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。6 X7 t# _6 p7 T( r
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    4 c' _/ ?7 Y' C4 g1 s美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    1 _4 |: q: o' e, f  _3 g

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:232 ^& q, k/ s% Y8 ~% {6 B. R9 U  Y
    请教是如何实现的?
    / u  J( ~9 [2 x. N4 w
    + t/ z$ K/ K: s0 g- p我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    0 P9 W0 H0 P( s. ]1 O2 g* r+ Nhttps://chat.qwenlm.ai/
    6 P3 C& Z( D) D2 E& W( y试一下千问,估计美国人没有攻击他,所以资源敞开用。! v5 {' @2 S5 A8 e
    很稳定,质量不错,好像最多一次处理15页。! ?. i( S6 V& [4 Q1 ]
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 2910 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    # j  @; w- Z* t' B7 g( O; w8 {处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。) L! e3 ^! p" i7 \
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    - s. ?+ s6 N9 Z* f+ E8 q& k% N/ j9 ^' T5 f! z. \! Q; ]9 {% D
    https://github.com/oomol-lab/pdf-craft9 o3 w' |! a. R5 k4 `: N
    . _3 g( _4 [, |; ]5 z, b% H
    1. 这个工具要求装 python3.10
    ( x3 a; F; ?" C( @) }3 `) ?5 t2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    ( p0 F' D3 e- E" q3. pip install pdf-craft
    . m, d  n9 N, F7 l4. 把下面的内容写到一个文件里,例如 a.py
    4 i$ ?' n2 ~/ }9 P% y
    ' u2 N% D4 [. Y7 \
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter7 T! y. `9 p( F/ ]+ T" s' l" S) K: t
    2. $ b2 K; z. \/ H' t" o; P% U7 ]# n
    3. extractor = PDFPageExtractor(
      ) x1 y$ E. Q5 P
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.& ]$ W9 q7 Z/ A$ v; E/ f
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed& \5 @! W+ R. o- D
    6. )$ d9 r1 x* ]0 `+ ^9 {3 c* ?7 E- y2 R
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:% j9 N0 t0 u5 w" e7 U; t' B
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):. }5 u8 O) {7 L- p
    9.     md.write(block)
    复制代码
    6 y+ W4 R. N  j4 F+ {' V
    5 Q! _1 R2 ?7 z3 }8 }- _* N
    要修改的内容:. t1 z1 D" R( Z4 }
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    7 `- m9 i8 {; A& r- w' E7 l- U4.2 markdown_path:输出的 markdown 路径文件名0 m$ R9 Y4 J3 c
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名2 ?- h/ j% k' N

    / {, M/ W1 i2 @  b2 C5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ) a2 l% H3 m$ J9 ^. i* a5 C( x

      \. o6 E' T# _' w4 y目前为止PDF转纯文字的最佳办法。
    9 M. \4 l/ o, U先写个小程序,把PDF按章节切成小的PDF。
    5 e: }' ~9 F, D/ _然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    / v# }* t7 A* }  g效果非常好。
    8 u/ w+ y- ~3 b5 t/ m
    3 L( |7 P! u% ?4 d# q$ Odeepseek,qwen,chatgpt 三个,deepseek是最好的。9 N: `+ _5 h9 D& S9 k; M1 ?- ?

    7 ?5 N5 Y2 L1 |, y& G% Z3 [, L4 ~- pdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。4 l+ }8 c  {9 b
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    & ?" o% T/ f9 v& V" F我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ( K7 B8 r0 k( d: a) t
    2 w" t/ h8 c4 R( |! YAPI到目前为止,差强人意,不如网页版本修得干净。+ E: f; |* W& G) U% q3 I
      q( i# Z( c2 z+ P' T$ e
    deepseek可以同时开四个。; H) h! k9 N" Y) X: A& ]+ H

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    * L3 G# F# ~% h6 ^2 B
    6 Q; D- w1 e$ O% k$ _, c3 d让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    2 G+ I! u' \3 m; R2 t让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    / J" }7 d/ |8 c细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:331 p6 O2 L* i- F3 i
    细说一下,听上去很不错,多谢。
    " h2 a3 S" s' }) q, P# ]
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ) s8 B& I! H3 W) g3 i! y# F/ x: Q/ `$ X* a
    已经搞定.
    9 L4 Y4 ]2 v1 Z1 B, q
    2 q8 T: T2 m, ^) A* ]首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。5 r# A( d; x; S/ p! g2 D7 _
    4 n: J2 V8 K; u9 ~  |9 q
    1, python + pypdf 按章节拆分小的PDF3 o5 u- I2 y* u" J, g% s$ U

    $ P( {4 D! E% n! p7 H) ^- M2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile! n9 i  v. d  Q# ~
    - h4 x  R0 ~) V
    得到text file+ M! L, T: ~" }" {

    / S/ [$ e6 L# G9 d' K2 O/ ]! I7 d* S' L3, python 读取整个outputfile,丢给deepseek 矫正。: V2 c3 q. z% Y. Y/ [9 q

    2 s' W- Y5 L1 M: t2 H/ P5 K模型是 deepseek-chat' W9 _! j- H2 }/ x2 r- r

    ; x8 Z/ ]1 Q$ l& umax_tokens 最大是 8192,别的不用改。
    & U- W, M) f' E+ F7 a2 u/ v3 g! r( w" L3 h4 x4 y3 g! W
    参考:/ h' b7 p  G4 I
    https://api-docs.deepseek.com/api/create-chat-completion# h' j4 o! q6 m1 s8 B
    ) q) z: ?9 S/ ~# E
    4,费用:
    ! \$ W. Y9 D; _- }
    " a8 f) n( [9 P$ \实测:
    2 e; w, |2 d5 J$ K8 L
    3 N. z9 Z, K4 A/ B6 o& c/ @0 z+ V296K 字母,用了 9 美分。; Z# P+ u# w! D1 H
    : z9 V* x! E; c) K; T
    英文字母 到 token 用量大约 1/3. W* }2 g/ Q8 S

    9 Z  G, [0 \) z6 w: ?6 S3 Etokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899: i4 Q+ v- b1 J( \+ W# q2 d

    # D, V$ t/ H1 [6 ~32899 个字母花费 11782 tokens,包含输入输出的 tokens
    - y5 ^( B% H- D6 l6 b
    % Q- e( D5 x/ i2 q0 J4 `  @价钱,非常非常便宜了。
      Q) @+ `  j5 ^$ z3 _
    3 v; X- T9 k7 i$ C5 Q参考如下可以计算,懒得算了。
    & q# P! [9 h( m
    ( r+ ]9 J! S7 @https://api-docs.deepseek.com/quick_start/pricing" c: t8 n; h3 r' [7 H, Z' t9 K; i

    ( f* h7 {# K& N. s1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.149 A3 X9 N+ |5 s) C5 A4 w
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    2 l6 H4 |# M( ~  {1M TOKENS OUTPUT(5)                                              $1.10                $2.197 k4 g# p, F7 l5 W% C$ c4 o
    $ ~, H8 Z7 u  G* v" S
    5, Balance
    4 b3 |3 u9 H4 c. ~0 [1 M3 Q7 c3 g% F1 V6 s; t
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    , A! a/ |, ]; H参考:
    7 d- @3 g4 H8 `https://api-docs.deepseek.com/api/get-user-balance
    * y; a- ^9 C6 |1 k+ I- C
    ( O. d$ @* s" |1 H7 j8 u# V+ o6, Models3 H/ f. Z0 N5 f

    5 {8 d7 y& T; @9 ?目前就两个
    0 e2 h" e7 n8 F+ z! P9 c# deepseek-chat
    6 q; s. e, }0 y5 M1 D# deepseek-reasoner/ o7 w7 y' j8 e" J' T

    5 R2 K3 n$ w; l3 s& M* B& w参考:
    - |/ W+ j" D5 Y6 J  Rhttps://api-docs.deepseek.com/api/list-models
    : _( ?( R. s7 l5 A& X+ d; u. V( D  u6 x% k, h
    $ y- c- r- |: ?( f$ m6 v
    7, 问题4 m  [" z$ M1 S& T+ R  z
    2 h3 j: k4 D9 q0 V% {9 v6 Z# e
    deepseek 会将前后两段合成一段。
    & @; j0 ]' B. Y特别是那种大量的对话的段落,deepseek会给你合成一大段。; I) b( {# W/ U7 h; `

    0 Q( _" F5 H/ ]3 Q8, 钱说了算。( \1 }9 i* p, a2 e2 S9 [

    7 }  C# f) n; m+ I9 H( C1 x( Gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    9 D( C% G, `+ t, V! r; m但是API就不会出现这种情况,毕竟我们给钱了。! |% `6 }) o; v0 o! G0 \
    chatgpt也是这样的。
    ! ]4 V! D- y+ ~; R1 [0 m6 v8 b: T3 g$ X" x, R; j
    7 h  a9 t2 H- a" [: \, z

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-12 23:59 , Processed in 0.047829 second(s), 24 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表