设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2628|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 % f8 h! O$ E4 I% ]: m. `

3 X; C4 D" W% u" i% s' R把PDF上传,然后让他抓取文字,并修改可能的错误。
4 R, G9 L$ r0 f0 b" L% a% h1 ~4 |然后deepseek完美的完成了任务。& k/ B8 U0 \$ @5 V
段落清楚,列清楚,页眉页脚全部去掉。- T) `1 r& j* n/ P
我要疯掉了!; s" N$ I& Q8 O: k
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!4 @: J3 G  w$ W; E; Z
====
' {! n9 K; h+ p! W* n6 C* L; |中文也很完美。/ n8 V+ t" |; `* ^6 d: j! [' y
经验值,每次十页比较稳定。
9 q+ N1 M4 g8 \, O" W- v现在我这里API还不能用,等恢复了,全自动了。& q9 y: O0 z. Y5 ~
====9 P5 x9 W1 a; i% Z* R* D
第二次疯掉了!/ [, j7 T8 N+ Q0 V6 L7 q  o8 z, i
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。3 n) m: b) o: ^' G' k/ ?& c
====* m& j# B4 J3 K* P) F, u4 l
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。" @9 @  {# M9 h* v( u
但是任务多了后,每次翻译的页面数是减少的。
$ y; d5 O& ~9 x% X好吧,我五体投地,继续探索。
- v8 |9 L0 R4 B====
, A" Y/ f9 O6 U4 `为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
. i& r2 a' j& I7 ]) D" Z) Q====
; X! f( ^0 |8 ^; w. j; }5 Y好吧,有些东西是不给翻译的,哈哈。& x+ J; y- f- c
9 y2 N! _1 P6 ?$ }" I
Sorry, that's beyond my current scope. Let’s talk about something else.( ~" u4 B$ I) [# w8 _; |6 }3 \
====
1 z6 c* z8 [" U3 a/ k然后我的英文命令也让deepseek 帮我修改,呵呵。
. M, s; l# S1 d9 n9 A  R( V====
5 k! {2 F* g5 o3 U日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。+ |2 l7 T4 v& s) \# s/ f8 @
====7 }, m* L6 K* P$ D6 ]: q# y/ f8 ?5 Y
时间段的话,北京时间的下午和晚上用比较好。8 }3 q3 `) v1 h- E8 a
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。  f% c( q: r9 L, H# y3 }4 p! j
====( v+ o- y, o9 i0 L! u  V" d8 I% w
用千问吧,非常稳定,非常强大。
1 S6 L# w& s: Whttps://chat.qwenlm.ai/
( z9 `3 p+ U1 a0 F$ _& P- Z7 e. a====& V1 V% b/ k! _2 k
Deepseek,API 看上去可用了,但是不给充钱。
1 p1 k' W" _3 Z' T4 y3 ]+ P
2 Y; F* V, f3 r. t( ]$ L2 N
" r; w4 |* o, N/ `) e' b
# E' K  O; \) i0 t2 K9 H7 \$ Z/ W! D, ]

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3689 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53. P9 }/ ^3 S# f: I* z+ |7 D
    这功能很赞呀

    " H3 O" U9 V: Q& l5 F  F' n% }简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    " x; C0 q; g& g8 R( C# m有没有上传整本书试试
    5 D; L1 J- w8 J& _/ }; ~
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3689 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 3 W6 H( R! [4 V# q* F

    7 T1 x! s( ~. p+ J3 r以后让deepseek 读出土的竹简
    0 J$ Q! R9 b# \. w, R
    8 d! ^# L7 R  c6 A5 K% S  [还有把古文翻译成现代白话
    * u( k' }# l9 t+ Z5 {
    ) V. w; h! P$ J: k$ z以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2851 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    - H. }' \4 @9 v; F% _; [
    ' z7 Q8 H# a$ s5 _% j" [5 A我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23! @: }4 j! u# ^2 a$ T
    请教是如何实现的?1 \1 F/ u' h+ e4 h( l) v
    ) o5 n# e) _& l% c8 W* M
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ! w: {4 {3 C" }0 I: d% K: M0 X( I% {7 ^8 b2 F: m
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    2 B8 [: r5 j* d" z7 V文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    8 T9 ]; I' k/ l0 J7 k, X3 f5 K% N0 _美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    $ I; U6 G6 o, o7 Y0 e/ z

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    0 f' ^& H# I3 X3 l$ p. W% ^# B$ ?$ T, T请教是如何实现的?: g4 t+ _  t1 l. x
    6 R: q9 V4 P7 J; Q- l* i& c3 ?- F
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    , S/ P5 k  K" r2 ^( o3 ^
    https://chat.qwenlm.ai// t$ S9 P, a7 \; ~# P6 G% y0 R
    试一下千问,估计美国人没有攻击他,所以资源敞开用。+ E5 V2 T' o8 P
    很稳定,质量不错,好像最多一次处理15页。7 ?  f  _) _2 B  V8 c" `: c2 x
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 2964 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。$ Q' R  B' u4 c0 C3 x
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。7 V0 U1 V# E1 L" o( b
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。" E; X1 ]- v6 v# S3 _) x

    2 h# L. |5 d8 J" O5 }" lhttps://github.com/oomol-lab/pdf-craft  M  d0 r. F8 X! v
    ) I, o5 f% a) P$ U/ W
    1. 这个工具要求装 python3.10( i7 P1 O9 W7 @
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.00 g: B; V( C9 r1 Z0 j+ X, |, C
    3. pip install pdf-craft
    8 {( K) T. L- T4. 把下面的内容写到一个文件里,例如 a.py1 Q4 F6 Q/ c- W+ Y: ~& Z! I- P3 W
    ; X0 @! ?3 w  r6 m9 z0 K
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter: Y0 }7 x- q, M" e/ V4 q7 k

    2. : a9 H1 x& H1 d
    3. extractor = PDFPageExtractor(3 b  X( X$ c3 v# Y& D# v& n* Q# p
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.' P) Y! G. y: o$ F
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed4 W/ m1 c7 Q' i3 y, T) v
    6. )
      # u" S2 T9 U* D' L
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:! ?; r  ^/ b8 W" N6 v
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      ( a* k& v0 X3 J
    9.     md.write(block)
    复制代码
    - \/ B5 Z. ]4 j
    % P3 h: I) i6 W. l* c+ R$ m6 k
    要修改的内容:
    6 \0 ], [2 @' H+ W3 T4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型2 z/ |5 J. v7 F2 T3 V' Z* R2 ~
    4.2 markdown_path:输出的 markdown 路径文件名
    1 c4 G( N/ U% _& f4 q! |4.3 /path/to/pdf/file: 输入的源PDF路径文件名  _, X: G! h5 R& J0 b0 {% `6 d

    " B7 H$ H; L% e5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    % Q. Q4 d' v7 m. B
    / @" }: |  E/ E# U( C7 m7 D目前为止PDF转纯文字的最佳办法。
    ( n6 W4 A! e0 c1 _: O$ E6 Z先写个小程序,把PDF按章节切成小的PDF。
    * M2 f- a. n- v: p& s% C* X+ A然后,把PDF一个个传到deepseek,让她抓取,除错,输出。7 X3 E% u: J& }  ~
    效果非常好。9 m8 \# V5 u0 o0 V. b! X! t
    : W% ~; x3 [: h! j1 G6 m
    deepseek,qwen,chatgpt 三个,deepseek是最好的。. Y# Y  M9 y; |1 ~: L$ d0 B
      h9 w( g  i8 w( G: O6 n' g
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。5 W' I/ {  j( m. O- l; f8 L
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
      d% K. [# y2 c/ t* |我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。, o+ p5 ~4 g6 `% C. W
    ) }$ ~& E  O/ F* l
    API到目前为止,差强人意,不如网页版本修得干净。# C1 i- s  R1 }& _$ f! ~

    + ?1 w5 k4 H% b% x  Hdeepseek可以同时开四个。
    $ c  j, |  ?5 f1 ^

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 / v2 u4 j; _% u9 C
    - t9 `7 Z. b! G1 O
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
      e5 E  [. g( r% w* |# g+ h6 u/ |4 Z' W让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    3 R$ R4 n( b% n3 K4 \
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    7 P6 |) V! i+ @4 B7 B* J- Q细说一下,听上去很不错,多谢。
    / L% L+ b3 h8 q3 s( ]2 ?
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ( F$ Q$ L" p$ M: t1 l: U$ j4 `2 y. Q7 j' I+ a& O
    已经搞定.
    6 L1 @" p: E" ]7 M# ]  M5 W
    & m5 E/ W+ j* G4 K8 q) }1 k3 Q4 ~3 p首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    1 `5 w4 ~3 A4 s" X6 k1 F& c, ^6 e
    ' V# m8 E" `+ I9 M; a) ~" |1, python + pypdf 按章节拆分小的PDF" x; C/ Y  `* Q5 w4 B
    6 R( b* k9 z* g- c' a5 e8 g1 t
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    $ W8 X- t) h+ X& Z+ z/ ~$ g8 a! U# n$ Q& D# B* `
    得到text file
    6 Y1 j  `; Y5 X( j% k- y$ ]1 X( W1 l1 I0 \5 d6 m
    3, python 读取整个outputfile,丢给deepseek 矫正。* a' R$ K4 h' L
    # d( B/ O$ u" B% \8 E0 b3 X
    模型是 deepseek-chat: c8 [* t, U) T8 _

    + Q4 a' l3 R+ j* amax_tokens 最大是 8192,别的不用改。6 c; M5 O3 @; @" B
    + N1 r5 |, ]+ Q7 L6 ?7 Z
    参考:8 d3 c  r" G* W; s8 @2 T, n
    https://api-docs.deepseek.com/api/create-chat-completion
    9 v( y+ G: t  Z8 h% y+ P" c% s1 A& i1 f+ x; `8 @4 K
    4,费用:  |- `; H  X+ Y7 U

    + `$ p9 k$ @& o, s; e2 k. g实测:
    ; |) [0 a7 u8 ~8 S% b2 z7 M! U% J1 p/ [- ?' h8 b! E
    296K 字母,用了 9 美分。& o. C" O, b7 U# {* ?

    , g: m2 C/ T! W9 ?英文字母 到 token 用量大约 1/3
    ; @7 @' {, s: W7 p: l) `2 d2 G; h. y9 E. `& z! J
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899' K( @& t8 t  h' p4 V4 {8 O5 `
    0 s5 E2 U1 f7 q: m3 q0 p
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    8 ]% ~2 [$ O7 D6 F8 r3 {0 m/ |$ L" N# x) S6 l8 W  Q
    价钱,非常非常便宜了。
      p& J$ K7 [8 h9 V  A: e2 F$ J% l; t3 I: v  D
    参考如下可以计算,懒得算了。/ q4 Y. |6 x, F( L

    0 [5 e  n5 {6 c" }1 ?0 c9 Rhttps://api-docs.deepseek.com/quick_start/pricing3 f( a. w/ Y. ~

    6 k& m9 V( t* [' [4 D+ s  D7 A1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14' F9 Q, {3 m" m: a4 y& K
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    ( [: a9 V+ G3 f& ?4 A$ |1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    9 B8 i5 b. k1 H  j9 O5 `' W0 t! q+ L8 t4 k% t9 {& C
    5, Balance
    ! Q5 }7 _! a$ h+ J( m1 @1 f6 H/ q9 }2 V7 F
    可以在程序里调用,知道每次运行结束后,balance还剩多少。  a. h8 p( F- ~, m- ?
    参考:; u  b7 k( }6 Q' p6 x
    https://api-docs.deepseek.com/api/get-user-balance. K) b) W( K% g: ?4 r1 U
    + B. {' D. Z! G1 }2 x5 l. S/ N
    6, Models* U- P/ n# l! `( r' a

    & R# N" R: X% R2 D7 ?目前就两个
    3 N/ K2 e( t) Q6 A. K# deepseek-chat* o$ j, _" M% c! ?) Q
    # deepseek-reasoner/ O' d" Q) t3 d1 p0 E/ K( M6 c

      Z4 V  p3 g. x0 x' a参考:
    % }; `5 U0 ^2 M( c8 }: D7 E  p+ D/ i3 Q$ }https://api-docs.deepseek.com/api/list-models
      _- }" o0 j" T- ]/ p  y: i6 j, O( \7 b" b
    9 v3 o3 C7 {" Q& o! o. P
    7, 问题3 ?: _# C1 f0 f4 G$ u0 J3 V
    4 i0 J0 E9 `5 z4 k' t
    deepseek 会将前后两段合成一段。
    3 V. x5 K% X7 D# \; H0 f- C2 o& p; S' S: g特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ! B( v& N1 p4 ~% A  c- ]  I" ]4 M4 X
    & ]! L, }/ q0 F: j5 N* o8, 钱说了算。
    5 i4 c) ~( `9 U+ T7 |' M2 G$ O1 ^+ w" q. T5 B9 ^. D2 G
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。0 O- E- k. f6 d5 F' G1 o8 u  X) u9 ?
    但是API就不会出现这种情况,毕竟我们给钱了。
    , Q' V  G/ G2 W  Q5 O: H; N7 Xchatgpt也是这样的。
    1 v. c7 }- W0 |* p
    1 s- r0 A& Q+ c
    ; A. U. P2 V/ e; V. C8 H% `! a

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-8 06:41 , Processed in 0.085703 second(s), 28 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表