设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1582|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 3 Q0 h6 ?' b3 k

7 t$ E! P) q4 A% z: K" Y, q4 p4 e把PDF上传,然后让他抓取文字,并修改可能的错误。: y) y/ a9 w1 y! H
然后deepseek完美的完成了任务。+ v! }' z0 z* R- W$ H" q6 M
段落清楚,列清楚,页眉页脚全部去掉。
& l6 y" Z$ z/ Z; D' Y( I我要疯掉了!
7 N, X+ I+ h5 g( _. J; M$ o赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
, \; M- ]& b3 o# a5 ^====2 p1 A$ a% Q9 F" F
中文也很完美。+ |2 F) c& A0 T7 j  O5 f
经验值,每次十页比较稳定。; [4 n% G; |; T4 ?9 |
现在我这里API还不能用,等恢复了,全自动了。* }9 o) h! X# S$ A$ U
====0 s& y+ l0 F* d9 z1 u2 z
第二次疯掉了!5 z) {  }- {0 z5 z& Q
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
8 q) c5 P5 y) D9 Y! w6 ?====
% y- o, c: A; [: V" }7 e  I2 g现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
4 k6 G0 ]7 V% a" x3 C但是任务多了后,每次翻译的页面数是减少的。7 M( N$ g" c  p
好吧,我五体投地,继续探索。. o$ ]6 j; T& B# J  ?. _* o
====/ O5 t  }$ @. U' P' p
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。9 o, d4 W- H. f. F6 Q, R% t
====8 E4 [& v$ q2 l) K1 U4 B' }
好吧,有些东西是不给翻译的,哈哈。
$ U7 ]- l" q% I" w  C
" _. G) }" F, X8 o6 T/ l) MSorry, that's beyond my current scope. Let’s talk about something else.
& B( M8 d( B8 [7 c0 _. M5 ~& R====) a( w- F% W: }' w  g% Y
然后我的英文命令也让deepseek 帮我修改,呵呵。
/ P  ~% r9 c5 q" J1 @: |====
* x/ Y3 F/ R: A" d/ K/ a日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。% G/ ~  I( ?3 s* ?. G
====
& o  A( @; s' f时间段的话,北京时间的下午和晚上用比较好。( w: m) r4 W; O; |
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。! [- ^" b7 l9 l- W
====3 G3 Q+ m( L% n) e* ]4 D
用千问吧,非常稳定,非常强大。
  S. N0 u$ W" |! x6 N" p4 {https://chat.qwenlm.ai/
; W' T4 j! m1 R+ U6 l====& w/ h6 v( N, G) b& o+ k$ m
Deepseek,API 看上去可用了,但是不给充钱。) b1 a8 r/ i$ s6 f

7 n. W  M. E9 ^- y0 ~* e/ b' J# O8 q$ b( O9 a1 q' O
) p6 c% Z/ j& N! ~

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3500 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53% H/ }& i- a- l0 u
    这功能很赞呀
    $ G# \/ H; _, W! N' Y, [2 K& y
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13" {$ I, k% X# w# }
    有没有上传整本书试试
    / G) H6 t% m2 h* I. n* T; f2 V
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3500 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
      s8 {' R, \9 B8 X6 y( \$ x/ v5 c  q& P
    以后让deepseek 读出土的竹简
    + Q8 b1 ~: y2 X! {" \0 n0 V6 G# a7 X  g  |& b7 G- A' T
    还有把古文翻译成现代白话
    / B/ W# @9 }' V' r6 o* S; g: c' C4 i0 `8 X/ k# s5 q6 J
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 06:13
  • 签到天数: 2650 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?3 c. j. k2 P# b7 L
    ; _* _  x3 T. r4 M: H' b
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ! C& _( z' c* ~& G  Q请教是如何实现的?
    2 y& b8 N1 I  K- B4 g# H! a) p7 A5 ^9 C8 @# v$ [, [# |/ }
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    $ K- P9 x! [3 |* ?- }2 V

    ! [/ H- X0 E3 E4 H: p9 I我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。, [! o2 O3 t% _
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    & L' U2 D* h" m$ r4 K美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    : E" R) ?, V* F, p. ]

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23% I2 H: z" ?2 w+ }. U3 p- a0 p, }4 [$ g
    请教是如何实现的?. ]  V+ a1 x5 H* O/ t
    8 x  Q2 ?! G8 [. ]2 B; n
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    3 p+ i! a1 k" J4 b; K; s' Uhttps://chat.qwenlm.ai/
    3 X! W9 \, U8 }/ |5 C0 w7 r* S试一下千问,估计美国人没有攻击他,所以资源敞开用。& y$ A! ~8 t3 J" G
    很稳定,质量不错,好像最多一次处理15页。
    : [" l" D$ Y+ G* j$ o9 s/ V我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 分钟前
  • 签到天数: 2788 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    3 ?2 o3 X3 Z9 `5 g, l" ?( Q9 ~; V处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。8 K# R  }; \# J+ F/ K- r3 A4 K
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。7 ?; \* @7 ~+ E* ^

      I" B7 T. i! e7 m8 x4 Uhttps://github.com/oomol-lab/pdf-craft
    6 z# I+ y8 v& k8 \& @
    2 t% X% m1 y" M9 U8 f# g+ g) x1. 这个工具要求装 python3.10: w7 v9 O/ n7 G) D. D: R3 w
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    , Y. ~: h9 r4 r& I1 x9 [8 ]3. pip install pdf-craft8 Y6 q- k7 o$ r0 O0 `$ v/ _4 S6 X
    4. 把下面的内容写到一个文件里,例如 a.py
    0 n( s- }. C# W1 p2 j$ i7 k
    . U+ S/ w/ v% i1 R! Q
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter0 l( j8 @9 G1 Q0 E1 a6 u4 r& B

    2. $ t, J8 x1 H/ Y
    3. extractor = PDFPageExtractor(
      ' ~" E9 d+ R- q' P
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format." g& A6 `! S$ E
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      $ ^- t) b' `9 T, O
    6. )
        {7 r. z7 X, ?8 s; K9 n8 p
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      4 S: ?$ c% d. E
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):0 H  v% R3 r* ]1 r0 ?1 g8 L3 ?
    9.     md.write(block)
    复制代码
    ( X6 ^1 L; ?. z1 E' q8 n9 c, g* a2 ^: K

    ) u4 ?$ X6 M/ n+ i! s2 }要修改的内容:
    , `  V' h$ x& l/ s6 U" E4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型  b! [6 I) s5 d& y6 t% a
    4.2 markdown_path:输出的 markdown 路径文件名, s& c& g' V% y# M$ k
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名* j$ U4 |4 f. i# Y) R
      k$ j2 {% J+ t8 G5 H
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    0 j0 t& U, l9 ]8 `7 u5 s
    & j+ h+ d; O7 X3 u6 B9 ?4 ?目前为止PDF转纯文字的最佳办法。  ]5 L4 O" V8 Z" ?9 g* z% q
    先写个小程序,把PDF按章节切成小的PDF。, Y, a+ }3 E( ^# b8 M6 }" F4 p# o0 e
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。/ S4 Z4 ~" ?6 N5 D
    效果非常好。! f% W' B; A1 ~5 x
    4 T/ |2 D0 k. z: B9 H) u/ ?
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    ' U# }# ^+ P/ n* Y0 K4 [) u% y8 R  w9 k
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。# [1 O" y( N% _) K
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。/ d" w4 c- O0 `! K
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。& L" u; |3 e& J# m
    % n7 G4 i$ g' U7 T* E3 z/ s
    API到目前为止,差强人意,不如网页版本修得干净。- [' @0 D$ g& K9 ]

    ! Z+ `$ z" H2 y6 X5 w9 Ldeepseek可以同时开四个。+ F8 K( u! H, o

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 2 u; V2 t; X9 H4 D, J' P- X
    2 \, n1 S( G( z" `
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:266 Z9 P) H7 N( \# ^0 ?
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    5 x8 g0 _7 e, V+ Y细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ) K5 ?/ c6 N- z5 S4 _细说一下,听上去很不错,多谢。

    ( Z, F5 ?* c( g. V# a  t直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    6 N! C4 w  Y5 _$ m6 ^
    & g# M* m% G  q! s已经搞定.
    8 h! P% J: ~' o# t& U. ?# h; p, n/ D% Z$ j& ~3 p' H' c/ |9 t' r; Z
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
      C8 V3 S& ~  V  |$ ], q/ t! q$ x, q, n+ g3 o" d
    1, python + pypdf 按章节拆分小的PDF  h9 Q1 V: l) L( l4 z/ T$ f

    " z, Y& d4 m# e4 H9 a" |; L0 p5 N$ w2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 L* N- U1 f& l/ u1 i0 w7 E+ X
    5 @8 S( w8 v. W  t5 a: p7 f8 v/ T! A
    得到text file+ j7 B9 o5 a5 _# }

    3 u* O* {( b& V* z4 P3, python 读取整个outputfile,丢给deepseek 矫正。
    0 ^' n" _- b8 b: L; Q
    . Z/ E* p; S( u, a) Q3 h( ^模型是 deepseek-chat8 P" X  D( y+ i
    & H7 B  X  _4 F; j/ v6 y0 N# F  u
    max_tokens 最大是 8192,别的不用改。
      R" ~3 c3 l, x6 p( d* ]# ^& v' D* W; Y' ^. h
    参考:, M6 r  H! K  R  A& h+ _
    https://api-docs.deepseek.com/api/create-chat-completion* J4 M: N2 }& A0 @) {+ b1 D' d

    1 ?) y2 z# k9 x/ _2 b7 d: b4,费用:
    : F5 O' l& J3 L1 l3 \3 N- i. C, I# K
    实测:
    1 o% n2 |3 o( Q4 r5 T5 e5 Z7 g: D
    : [- z9 V7 g4 n5 s/ d  G296K 字母,用了 9 美分。
    ' Y7 n3 u& o+ N8 z. w8 q/ I6 m2 I1 P) G5 a0 k
    英文字母 到 token 用量大约 1/3  t2 ~' y: {7 d5 h8 P7 d, L5 q: i
    8 D# n' o7 W, S
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ; w6 m6 V, l# d$ \
    5 E6 R! v$ D0 ^* S3 y32899 个字母花费 11782 tokens,包含输入输出的 tokens
    , r9 i# n7 p/ l9 r& M: l* R7 t# Y  s
    价钱,非常非常便宜了。
    2 S' Q: o1 A0 Y9 i+ W8 U* W& d' O5 Q4 K" W
    参考如下可以计算,懒得算了。
    ( k  }1 x  Q2 ^. k- n  q5 W& c+ m9 J4 @* q
    https://api-docs.deepseek.com/quick_start/pricing4 i) d$ B6 v, p
    6 V$ Q# O/ A& j: v! l
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14) Y" V4 t+ D  y' X  J5 L
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    * \$ M7 `) @# j6 |2 C. I7 e1M TOKENS OUTPUT(5)                                              $1.10                $2.19+ h2 L  q+ q& }; _& ~! i- [7 M
    1 l, Q. h1 Z4 n
    5, Balance. Q0 c9 h5 b  ^! J# M2 Y
    1 G* U( Y: E0 ?
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    # M; m/ ^% a6 D! Y! z  S参考:6 G6 m% ^! ~( D
    https://api-docs.deepseek.com/api/get-user-balance* S$ k) j. w+ ?+ l$ j9 ?
    / ~/ \; _( h, A  ?2 P' i# O! D6 l
    6, Models
    3 `$ w) i, h& J6 R6 ^: y5 F
    ) e: W6 F# K8 ^. {! \. w: t目前就两个
    ; ], k- S: E/ X$ r: [: D0 u$ r# deepseek-chat( q' f8 o) h* h7 C( S* E! G
    # deepseek-reasoner
    9 P& Y/ f) a* L3 b  H% Z9 F0 h; F  X* O, e3 e  A
    参考:8 H" K4 a" l8 ^" s5 M$ v
    https://api-docs.deepseek.com/api/list-models+ A" a+ h& F1 ], r* `
    6 t, {1 C) r. \5 d2 C! R

    4 A/ {* \0 j4 d1 m+ G! b7, 问题; G& j- `) T1 K! U
    0 j/ [; \" p1 s! D
    deepseek 会将前后两段合成一段。. k  v* Y$ [& B& i# K0 H
    特别是那种大量的对话的段落,deepseek会给你合成一大段。. c; r. J8 h; v+ R* M6 g- F/ A

    9 @+ g. }& Q% t7 Z+ S% m/ x8, 钱说了算。2 N: x0 }# G+ s

    2 [2 D3 k" C% R' ?2 Sdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。5 Q/ V" f$ d) ?& q0 y5 e
    但是API就不会出现这种情况,毕竟我们给钱了。9 [. l1 R' \6 d6 [* I1 k0 p8 s
    chatgpt也是这样的。
      S0 f. D& {' n3 |* y7 _7 {7 f: w/ ~0 D
    + V$ l4 \; z8 j2 _( _9 ^

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-4 01:41 , Processed in 0.056867 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表