设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1793|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 + a: L; z- I4 B" s' G) [
: [2 Z, Y* h" m5 D( X& F# c
把PDF上传,然后让他抓取文字,并修改可能的错误。" @- c5 ~2 ^- a1 h, y
然后deepseek完美的完成了任务。0 H/ V. L" G6 q- m! z0 ~5 B
段落清楚,列清楚,页眉页脚全部去掉。9 K& F: m& l2 k
我要疯掉了!
8 G; }' B2 B& ?$ u# X; k赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!& _/ v' }! m1 L" J2 B
====
: s& x& R9 s" A( H中文也很完美。
! ^8 Q2 h! q- _. s: K经验值,每次十页比较稳定。4 F) H4 f0 K' ]! V$ I0 _. s6 H
现在我这里API还不能用,等恢复了,全自动了。
$ e/ F% r6 H( l% b# ^/ h$ u====5 c" t3 R& M1 R0 e  J1 Z
第二次疯掉了!. d  G! o; N4 y. _, @) j' t
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
: N2 R$ ]& F/ j& o9 P! Z====
) r' U' o& L% A现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。4 T) u* t5 e* ~5 d# `
但是任务多了后,每次翻译的页面数是减少的。
  h. Z4 Q% A4 g9 s/ o9 o0 N# Z好吧,我五体投地,继续探索。5 R( u/ ^, L% G  f5 F9 ~4 j( G
====
3 C0 \+ `$ \1 G9 y4 i7 G为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
' ?; {# z0 k$ c& q+ H9 a====
0 c5 m; U# Y8 _, _% s2 z/ b' Q好吧,有些东西是不给翻译的,哈哈。+ w' K& a. ^, J' K3 }7 C! t% K# i# i

, P' r& y3 O) h2 MSorry, that's beyond my current scope. Let’s talk about something else.
2 z  F5 ~" a8 c- V) m9 r! q4 m3 A- d====
8 v  I% w6 h6 F8 D* M% a然后我的英文命令也让deepseek 帮我修改,呵呵。1 |$ W; {* I/ u1 S
====
' X) c) T$ S) \( E6 n' g日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
: a( b2 V! I6 G) ^4 F8 `& _- J====
+ K2 m/ D5 E8 v- E* _$ Y7 D8 {时间段的话,北京时间的下午和晚上用比较好。7 T2 a& m9 I3 B# X
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。9 G2 X7 |+ a* z5 O/ ?5 A2 D
====
) p- K' T  y) X! N用千问吧,非常稳定,非常强大。
7 D  B! T7 U* {' J, _https://chat.qwenlm.ai/
' g; i7 P) H$ P- e9 D# }% T4 l( M) Y4 e====
& A) o* N# u3 t* fDeepseek,API 看上去可用了,但是不给充钱。
/ j$ q2 C3 c2 Q: Q7 ]
1 L" R! v8 c: r9 A! I; T2 p- [: i; r8 U, e" B/ w8 b
) Q- T+ R# V0 Q% |. N

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3550 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:534 ~7 t6 n& p' w
    这功能很赞呀
    $ a; d$ m9 g! I: b1 }
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    ' x" K: m( l3 B: n" x0 y有没有上传整本书试试

    7 G1 b  V, Y; |+ l& w; R目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3550 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    " P# g, b$ i5 D. h; v0 Q8 X- a, J4 O5 g
    以后让deepseek 读出土的竹简
    ' A* ?; e& A6 G$ T
    4 x' Q# ~  J3 Z还有把古文翻译成现代白话
    & \6 k8 X  H4 ?0 I! u
    ' H3 y6 E2 k" e0 S以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    5 小时前
  • 签到天数: 2700 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    # d' K9 y- ]5 C  o5 A! W! s8 [- }; I6 l( w  z& C0 K
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23' v: z4 f- k% B$ L$ I
    请教是如何实现的?
    + f& S. F) W/ h# J6 \1 b# a
    ( @7 E2 B- t! _1 [我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    9 u  |. [& O4 B7 s1 e, m8 `7 \
    / |& N! e* N- i8 U5 C! V1 z我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    4 K. A8 j% x) [/ Y( R0 K文字之类的没问题。估计deepseek现在暂时只保证主要功能。( O9 b5 t# t  s3 a; n
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。+ u: L4 Q  L% a4 }, {2 c4 O

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:232 U% h9 g5 t# K
    请教是如何实现的?: i4 k0 r0 Q. `) H& B8 Q
    6 R* F8 j% O6 @
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    $ i1 e5 P/ D% C
    https://chat.qwenlm.ai/  b3 X2 m( J, Z* e
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ( a  f4 l9 v+ w7 l# [; p很稳定,质量不错,好像最多一次处理15页。6 o9 l9 I. Q* p, [5 C$ p) U, Z
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 2836 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ) V3 `$ T! c, n处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    * [; h0 u9 G5 `6 Q7 z这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    % M. s- M, n6 i) Q* a
    7 c" }, C4 x1 h# \% ohttps://github.com/oomol-lab/pdf-craft: f# h8 Z. c$ v
      S0 J( T% S# X# L0 @' |; g8 z
    1. 这个工具要求装 python3.109 A- i6 V% e) a5 S$ h" _
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.09 v$ J' S) S6 n* b3 B$ f: s
    3. pip install pdf-craft. q1 A' @, j- T
    4. 把下面的内容写到一个文件里,例如 a.py$ s3 p$ |" s% m2 [. t

    ! T+ w- ~& l8 Z$ l8 G2 N( z0 t
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      0 ^4 x8 e' J( H# S
    2. 4 T5 `( c: K% R3 r5 S
    3. extractor = PDFPageExtractor(
      2 U. U, n, Q0 o5 ?+ u: g
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.6 a/ a1 W- c: t, f/ U) e
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      % n5 a5 {+ y% a# z6 ^+ N& z* X
    6. )
      & r2 M$ G& n$ X$ T' p
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:7 j3 J: l; e* o; @
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):+ L; s2 I7 \: @- e' _/ g2 s
    9.     md.write(block)
    复制代码

    . F, I& a' V) D( ?' Z. G5 u- x; k. B
    要修改的内容:7 w- T+ \* N$ v. Z% Q
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型8 `& r" {$ `3 B- C) ]
    4.2 markdown_path:输出的 markdown 路径文件名, L% G; z: Q$ w2 V
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名; W/ i" [2 u# d! F: Q0 c
    % c! Q+ f8 i: s' [( A% [+ y
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    - _3 ?' z1 `/ P, t9 u9 S
    4 q+ c0 ]; L# J4 o. x5 `9 z$ S目前为止PDF转纯文字的最佳办法。
    0 M3 }1 ~$ `9 Q1 @5 l* R8 Y: V先写个小程序,把PDF按章节切成小的PDF。
    , G: _& P) f. C( j6 ~; H然后,把PDF一个个传到deepseek,让她抓取,除错,输出。" K8 R1 o# J; Y& |9 e
    效果非常好。) F4 w5 J3 n  K) F7 G

    7 F, C& x0 b- Ideepseek,qwen,chatgpt 三个,deepseek是最好的。0 i6 m) T5 j% z/ m
    ) F2 {  t- d  B& k4 |
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。2 D8 G: }6 Q, U' g5 b: N6 S
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    6 }' z0 U4 f: C4 z9 T我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。3 i# \0 A, |  |0 N' V  J

    ' h% U% j2 H% X0 f1 S4 vAPI到目前为止,差强人意,不如网页版本修得干净。- i# x4 m# ^' [) C3 }2 K
    ) R1 s0 b, ^5 N. }" ~
    deepseek可以同时开四个。9 ^) f, O6 J6 D; u- q" ]

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
      j6 @# ]; c2 m2 f$ K
    9 A. {* ~8 E( r$ ]让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26& P! a) Q' G3 x6 ?$ t2 a+ N9 G1 @
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    , H1 l0 @5 w" a" e6 ^/ K, q5 ?, q细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33! T8 h3 Q4 B, j
    细说一下,听上去很不错,多谢。
    3 `; G5 g+ x' G! i. V1 i3 s2 {' h3 @
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    & p2 _' H6 p- O0 r3 p  C1 q
    + l. o! N4 M! ^0 z. Y$ i- _# k已经搞定.( i7 Z* L. e, v7 ?3 V& ~0 B" r0 n

    & U- c) R5 [7 _! p+ Y' L首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    ; c- d/ u6 i( T7 s/ R5 n
    - N" x- _/ `, B$ X1, python + pypdf 按章节拆分小的PDF
    - L: Y" h9 K3 ^3 j3 {1 Q0 {: p! E: s  |# T
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile- i6 J" V6 c  w) v# H/ `
    + J7 d3 W: p7 z" c4 d- [
    得到text file
    4 r+ h. X8 K& v: K6 V$ L7 g4 R4 Q, t3 t9 b" P; h: p
    3, python 读取整个outputfile,丢给deepseek 矫正。
    . r# K/ v5 a  x% b, h) ~6 y: c9 S+ n" F- u5 Y
    模型是 deepseek-chat+ ~! ~9 o& y# Z0 |4 r% d; d. L
    4 H2 j" s$ T' ?* ]" B2 x
    max_tokens 最大是 8192,别的不用改。3 X2 R* z. {2 W: H9 p  V% ]: p) z

    5 s% G& m& j) `, t6 b' v, N4 h. R* Q参考:
    : c7 l- u4 @% h& K+ R1 _6 {7 n  vhttps://api-docs.deepseek.com/api/create-chat-completion  ^: |' H8 m0 S. Q4 Z

    ! k% W$ V9 N) W3 m! f! E: ?9 f$ S4,费用:6 @9 ^2 e* w+ `* _
    $ {, t$ P7 A6 \
    实测:, w0 l  l. b  c0 ]

    ) ?. X8 W! \* [0 u6 V7 x296K 字母,用了 9 美分。: [7 Y( t9 W% x9 m8 r( I
    5 A0 q8 c2 x- {+ O
    英文字母 到 token 用量大约 1/3$ E& s  x0 \2 D/ [* W
    , w/ c1 L7 y" \0 \2 b4 _# W
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    # Z' g2 Q0 z8 p: {# H* s% n' p
    0 ]' E" a7 E% _) j32899 个字母花费 11782 tokens,包含输入输出的 tokens
    1 ~1 t. Z: s" u7 x7 m4 m6 h  p$ i  v  s! H
    价钱,非常非常便宜了。
    ) e( Z$ y$ ?. d( ]' v+ Z/ q- \; C, x1 e9 o1 c# ^; k; |# ]4 _# c& I% x
    参考如下可以计算,懒得算了。9 A# v, r; _* e( B: v5 ?

    # h. `+ P8 i- U" k2 `* Uhttps://api-docs.deepseek.com/quick_start/pricing
    - X; L  v' O  V: n/ e( f3 u4 k/ O6 V% v3 I
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14; b# P, W7 D5 W1 e+ K) c% o
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.551 X- G6 g, N3 c
    1M TOKENS OUTPUT(5)                                              $1.10                $2.197 }; [6 I6 v' v1 j

    + C# b6 y3 _- n; V& |  l5, Balance6 Y/ e9 g! d; v3 k/ |* x9 `1 a
    1 P$ Y8 ]. G. z
    可以在程序里调用,知道每次运行结束后,balance还剩多少。1 M. y+ ]) l# h) f
    参考:9 X4 O) n7 r; R
    https://api-docs.deepseek.com/api/get-user-balance" Z) m/ i/ K8 [! P/ R/ B

    9 B9 }7 a9 Y$ T5 A1 E6, Models( d& \8 h; P+ O7 c5 j7 Y+ Q/ ^3 q

    $ Q, G( |2 N7 I, ^目前就两个
    # i3 w+ L$ E# C" s. }+ U3 F( T. t# deepseek-chat. t+ R' t, J6 n; m/ e7 N, o
    # deepseek-reasoner- M7 ?% |0 c+ C- _5 `( R2 g
    0 b- r0 h) K7 U% @3 w# p: M
    参考:2 x' d% Q; c( J+ f; L" U  R
    https://api-docs.deepseek.com/api/list-models
    $ J8 _9 i# O7 M* X+ [( b" \; f- E' q  ?8 [8 g$ S0 z. Q: x7 B9 I

    ' {% S# A: |# U" D8 a% A. D, h7, 问题
      u1 O  U4 ]# o# j/ i
    & L4 K& F8 a0 L. N  K" p( G) q! Pdeepseek 会将前后两段合成一段。6 n' k7 G6 r: Z+ ^' @# C) K
    特别是那种大量的对话的段落,deepseek会给你合成一大段。4 j" J% k9 f# }2 Q# g. W

    ' @: ~" x1 F' X3 C8, 钱说了算。, n1 ~. j, t5 G, M) Q

      {& S6 W$ |. e7 d4 Z! K* o# m# q! Q, Sdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) D4 X, V7 z9 x% }# M8 R
    但是API就不会出现这种情况,毕竟我们给钱了。
    + |/ l% C# t  t( Ychatgpt也是这样的。" g1 O" S* _2 E/ f0 l7 t! ]& [
    7 }1 S0 G, p+ N

    7 [  s! j9 j: j* _/ G

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-8-23 05:33 , Processed in 0.041843 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表