设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2648|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 % E/ p7 i5 @/ _% H
2 d6 Z$ |( D9 @9 B
把PDF上传,然后让他抓取文字,并修改可能的错误。( u) Y9 R9 U) `  Z% [) v
然后deepseek完美的完成了任务。
. e  s( B5 f3 G6 |# B4 ^段落清楚,列清楚,页眉页脚全部去掉。8 T/ ]( u9 I$ M) p
我要疯掉了!
9 `. h+ s+ a2 l, B$ u" H  @赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
. ^3 ?' I' ^( S5 H====
* a0 K  t4 A+ R$ Q4 @中文也很完美。  X3 {9 n/ B/ z/ r3 n- r% E1 _% r
经验值,每次十页比较稳定。  D1 H8 [/ y& o
现在我这里API还不能用,等恢复了,全自动了。  D. T9 ?/ `. Z% m
====
3 A4 t0 T/ }: {6 M$ y) `6 h7 t) P2 |第二次疯掉了!! V" D# }0 `1 M
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。& F" ~$ k9 P* N0 B+ _( E
====2 H) W: ?1 T- T1 m
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
7 }; l8 g6 B9 |  M+ \/ L$ b. O3 }但是任务多了后,每次翻译的页面数是减少的。
+ |1 Y' B# z; D4 f好吧,我五体投地,继续探索。2 g2 q' X9 q8 a* j) n' q  `" x
====9 L6 K5 I* i. e7 r) k# g- L+ W
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。  X0 ?5 N; O. |2 i7 d) a
====8 Z1 e% l1 T5 ~. w+ C6 P, q
好吧,有些东西是不给翻译的,哈哈。
' ^1 K$ E/ x4 c7 u2 w2 h8 Z5 q' t$ @1 d/ {" ~
Sorry, that's beyond my current scope. Let’s talk about something else.
+ N9 }4 P; E( l- i/ x+ V, _====
) _" u3 N7 E9 i  }1 G& ]然后我的英文命令也让deepseek 帮我修改,呵呵。* h* M# l1 u  W7 e# P2 h/ N5 X) _
====+ d+ Z% X! u! f2 c) ^$ n
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
6 m2 J: X) b8 W, b: `4 q====
0 q& m5 J- |  h% K2 @时间段的话,北京时间的下午和晚上用比较好。+ v' l* j6 S$ e) v; S5 u+ C7 k' z' F
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
' ~# k, B7 X& r/ k7 \====
! H  u9 N; \2 i) r( v) M用千问吧,非常稳定,非常强大。
% h0 ^; b& y* {: Ghttps://chat.qwenlm.ai/6 V. g4 w1 ~: o  u4 K0 d
====
1 q' ?/ @  Z% h9 Y3 PDeepseek,API 看上去可用了,但是不给充钱。
+ r( O3 H( Y$ _+ c6 x+ e7 h6 p
. T7 f6 Y6 }2 J# W' b* ]* b
8 I2 U+ \* F& _2 A6 [5 q- }
1 c4 ~2 i$ q2 v: p% n

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 3690 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    . y6 a5 c1 H! C! k这功能很赞呀

    2 C2 `* |# M% }+ C+ t! h简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    1 m4 P' n) z3 ^) S( W3 B有没有上传整本书试试

      p8 L  I  X6 e) \- @: b目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 3690 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 , u5 n7 X7 e/ Y8 V' P
    , F+ ~! H& v8 p! Q
    以后让deepseek 读出土的竹简' p- |7 I& {4 N" F- a

    & s2 h1 q# z6 p3 A5 ]9 K还有把古文翻译成现代白话
    % [$ c$ I) r: I! x( J
    ; W! @& t! `/ N$ E( j0 {2 }3 @以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2852 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    1 H6 x1 r2 X7 |6 f+ y
    % X: ^: u4 y$ l我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:232 W2 {% v# l2 @9 c
    请教是如何实现的?
    ( P9 `$ {: k5 _& O8 z! ]9 M3 ], ]+ j/ [% e
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    . ?0 b6 {3 p$ d

    ) @% t: _! v) R0 |. ]我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。+ n3 Q+ [* k; @* y5 ?& i, z
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。! B$ H* T8 j0 |0 G; C) M
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    / {5 }& Z, q( y' c

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23) o) n8 K$ k) P3 c- L6 {- y
    请教是如何实现的?% Y- Z) V  W# T, e! r5 R  C" h
    ' F0 z* J' Z2 l2 j. f6 r# ?- P2 _
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    , O* @5 T# B3 A  S9 nhttps://chat.qwenlm.ai/! H1 l; O, S6 W  k5 n5 E! W
    试一下千问,估计美国人没有攻击他,所以资源敞开用。& `- l, Y! ^) {0 V2 d% j
    很稳定,质量不错,好像最多一次处理15页。7 J9 V* F: Z3 z0 S, H' D
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 2965 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ( n3 z0 ?6 @1 O处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    9 w( t& O1 u- |2 b2 z6 ^# i! J这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    - s2 Q5 P) q! L" y2 q- X; I# y3 \8 E) M7 V* m
    https://github.com/oomol-lab/pdf-craft) w9 p6 N1 a2 _4 n4 {* K( [
    ; e5 l, @. v2 Y5 R/ s7 k
    1. 这个工具要求装 python3.10$ _& A2 L0 r3 ]3 W. ^4 i
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    8 R" @$ l6 K. x& i3. pip install pdf-craft0 g1 l3 r; ?7 y4 Y
    4. 把下面的内容写到一个文件里,例如 a.py
    6 O+ |, A0 Z3 {0 Y  ]" t! L/ |
    ) \$ y+ ?2 P6 V; P/ D
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      6 g/ M; c! H" N9 o& V

    2. 6 a2 a% E/ \" }5 Y) F% k) a- y2 p
    3. extractor = PDFPageExtractor(
      6 d. [6 f3 n9 J$ Q/ B# f
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.8 a4 y- o1 A* D& F: ^: M
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      6 U+ v1 H9 P: O& Q! X
    6. )+ @& M5 W3 ~# y& w7 g
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:- p# B9 g" e$ |- ^5 X* n& L! B
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):/ w+ G$ B4 V0 s- _. l  E, L( ]5 r
    9.     md.write(block)
    复制代码
    - O2 Z  k; `1 v1 q- {

    / }5 x( z8 S/ f3 I$ U! N要修改的内容:5 b8 O4 J' E. f& |3 f0 H
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    ' [! C' ?( w5 G* l7 b4.2 markdown_path:输出的 markdown 路径文件名7 H$ p/ o$ V# ^4 A+ K
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名4 q* d+ i) L  _, w3 c$ }& |8 N) I( S
    ) i7 K3 J# E& F* s
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 * R" e9 k' u- G- U7 j% ?  ^5 }

    ) f* z* G; f+ ^2 G. C目前为止PDF转纯文字的最佳办法。& \4 w) O* M- m, F, k+ L/ u
    先写个小程序,把PDF按章节切成小的PDF。
    7 H* b. Z6 w3 q% b- o, V; Q然后,把PDF一个个传到deepseek,让她抓取,除错,输出。0 g: Y/ p% M/ @) w6 f+ _
    效果非常好。
    , g5 m- B# t/ _+ P' s6 |1 S& \. U7 ?& s2 |! I
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    % u% V1 E- {5 n" F
    ( ~4 @, E  V1 X; Z7 i- }deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。; x) _1 Y* a) Q4 \: L7 ^% e
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    " o4 C$ }. a! l: o4 ~) E我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    . W) t# x  o$ s% n$ t; l
    " t) r$ R( P$ _+ Z- [API到目前为止,差强人意,不如网页版本修得干净。
    % t6 a; U8 u: d2 s: W! Y* R& T6 D+ j
    deepseek可以同时开四个。
    ' E  h. T6 e; @0 c1 [' A: P

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 . t1 M/ E1 ^5 ~0 v1 Y) @

    + M  O2 |7 ^8 U% n让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ! X, D! E2 s6 C- B让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    $ I3 }  L, v% d
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33  a7 Y0 `/ e# M. E# v
    细说一下,听上去很不错,多谢。
    % |! k3 V7 d) {0 S3 F( f5 Q
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    ; L* I2 K) [6 ~1 p% u4 R1 U; v% X3 A- Q- J
    已经搞定.
    ; I; n" ~) H2 L' i! g! Z8 J$ w6 P  G' l) z# O2 i
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    : a5 r6 V* G! T1 h! e; R; i! O7 I
    1, python + pypdf 按章节拆分小的PDF$ g6 W5 p4 v0 v  N$ ~* P6 n' K4 ^

    ) \4 J3 D* V) O1 }* n2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    7 D7 R$ z# r3 S' E- W4 i) p" U/ u2 s7 r- ~+ h0 ]5 I& c" |* f
    得到text file
    + b2 z- R  {! U8 }; U
    1 z3 {  o" R8 W2 m: _3 Z  N7 G4 `% `3, python 读取整个outputfile,丢给deepseek 矫正。
    7 i  V4 U; ^! n1 R2 [
    8 G! e  q1 L1 B# C% A1 C. U模型是 deepseek-chat
    5 d8 k0 N+ b6 M6 Q2 K
    9 }3 y9 l6 P- S/ J1 u# \! G+ K9 H6 Vmax_tokens 最大是 8192,别的不用改。
    % ]# |7 j, T9 h+ D# B# b# [3 S
    2 i4 E8 B: l9 C' _! W! N7 z& N$ K参考:7 [( s" r0 o! T; z
    https://api-docs.deepseek.com/api/create-chat-completion
    ) I" M% t/ y+ U, ?# _: V; x, T1 @% ?& u3 w
    4,费用:
    + N  S' S4 |$ @* f$ B
    - Y. h5 D% b& i; t1 h. f实测:
    . D" f. T1 ^% b; [' R; i% ?8 A3 s9 ]# M) p6 E1 R) T
    296K 字母,用了 9 美分。8 J, B: S. i* ]/ F

    2 K  A9 d& f3 a6 z' m6 D, v6 N$ n英文字母 到 token 用量大约 1/3  D* G1 X  H: F) Z

      k+ `9 X0 r( b& P: N# Jtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899" q2 m8 V- K0 U9 `8 h
    * R) S' ?9 q; I; ^
    32899 个字母花费 11782 tokens,包含输入输出的 tokens/ J- D1 y* z+ L5 f0 l# Y$ S$ ]8 n

    * e: n! d; }9 V& v价钱,非常非常便宜了。# U/ A1 r0 ^3 R, n& r. _7 U8 ^

    , W3 Z$ f' g5 V4 E* C* O; T& G参考如下可以计算,懒得算了。* x1 @8 l3 ~! ?1 l) t+ j$ V. D+ T

    " m2 ~; g/ [! X, F# K5 Q  a8 [https://api-docs.deepseek.com/quick_start/pricing
    ! R, z$ V! u1 ^5 }6 ]
    8 X: p3 w' \# m" I  J" X4 @1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.143 Q2 {0 C" B+ q. b
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.550 z0 c+ C% ?6 ~. L5 x% t$ F
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    - u# E$ U6 t3 H) X3 W6 w1 Z, _  g, ?  S  J( K1 T
    5, Balance
    8 W! k! E- a  N" E& S1 O3 ~
    ! W- A& `( d3 U+ h3 L可以在程序里调用,知道每次运行结束后,balance还剩多少。
    8 G5 H% ?1 a+ m; R! @/ M参考:  a, f% u4 ^2 {4 {9 C
    https://api-docs.deepseek.com/api/get-user-balance
    : [: z" t$ i2 u% P+ ]$ U' d; h- H; }
    6, Models
    : f; B3 e* G9 k4 T' Y( [/ |2 K3 m8 t: E" I" Z  c
    目前就两个
    0 O4 d% _/ @. S# |* z# deepseek-chat* h: m' I) J' j2 Y# N
    # deepseek-reasoner
    2 M) g, F) w+ G' \3 Z6 q& z/ E5 ]* N6 n# L
    参考:
    " J( j' U2 K) ~$ F& B, thttps://api-docs.deepseek.com/api/list-models
    + k+ |. G4 ?5 P9 |/ a* N  w
    ' K* [1 G" {$ d  Z) R! T! \4 Z6 N0 f& k& w# a5 `3 w; P
    7, 问题* ~# D9 E5 ?/ q& X* h

    $ b6 h/ T3 _7 J9 x0 V2 y( adeepseek 会将前后两段合成一段。
    0 D. D; H7 p" @1 t7 b/ `特别是那种大量的对话的段落,deepseek会给你合成一大段。
    * G4 r# r0 p6 _3 m" H$ u, C! U7 [" M1 l* V0 c
    8, 钱说了算。
    9 ^6 i. d! ^$ s! j( z+ l7 v- e
    ( p6 M, I5 i5 o6 |' `deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 S  L) ]' W) M- _+ N
    但是API就不会出现这种情况,毕竟我们给钱了。- T/ ?( O+ |1 @$ L( ^
    chatgpt也是这样的。, a$ y. B  D  x

    " |' f9 h5 |( J- w' H4 e. Q' c; Q( w! v" _3 l( A0 y( M/ F

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-9 17:20 , Processed in 0.065116 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表