设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2630|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
, t0 @0 M. j# Y; c1 W# M! {; K
把PDF上传,然后让他抓取文字,并修改可能的错误。; k! L6 |" c9 d  m9 w
然后deepseek完美的完成了任务。6 g  ~" e/ H/ K( I: c# u& @
段落清楚,列清楚,页眉页脚全部去掉。2 t6 J! @9 M9 G+ H0 u- O
我要疯掉了!
# J8 t7 B4 x6 j' e8 K3 F; o赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
0 p+ Y: T# Y! a2 W, [====& s# o  J  k: y# a
中文也很完美。* w# F& H* Y3 H0 D6 j3 Y& _6 f
经验值,每次十页比较稳定。; j; Z. a; z3 f9 a
现在我这里API还不能用,等恢复了,全自动了。
# V% v7 F( P: Q. U4 K* Z* j8 j====
* U" ~. Q. l( b& J4 k/ S) }第二次疯掉了!& `% J" [5 c% |7 W+ ^& I+ ]% @
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
' A+ h# Y, I' Z, h3 j+ L====+ C# i* O) x/ r, ?+ L
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
6 q" v. K* j5 p' P: {) f但是任务多了后,每次翻译的页面数是减少的。
( ?1 x/ F& p8 P+ W- F3 a6 k好吧,我五体投地,继续探索。) Q  d/ _; D1 ?. F5 `
====6 i+ w& O! _, O7 `# q- U4 n0 a
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
4 i2 i9 g! r& ~1 d* J====
2 A* s+ i0 z8 A$ [9 E好吧,有些东西是不给翻译的,哈哈。
1 `7 m9 w/ Y5 |5 e7 W) j
0 I  F1 l! K' f- t/ t# o% r$ F  |Sorry, that's beyond my current scope. Let’s talk about something else.
$ }2 I7 F" P$ f* J5 T# j  D. g0 {====* r7 Z5 I& L1 I' s
然后我的英文命令也让deepseek 帮我修改,呵呵。
* C2 Y/ [# F2 }3 f- o9 C# k====1 E0 o: q$ L( w) Q* I' p
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
- ]- L! M+ a5 C. G$ `6 `: D9 w  n9 A====3 O2 _0 A" a# S4 b2 h) M. y6 o1 t+ v
时间段的话,北京时间的下午和晚上用比较好。% f8 D" ~9 X+ X& B
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
4 }+ ~2 p& m) ]0 o4 K9 j2 ~7 E4 Z) T====
* [; ]. l& }6 W2 ^% }6 d用千问吧,非常稳定,非常强大。
" N1 p6 F/ G+ Y9 I0 l6 t( R( Phttps://chat.qwenlm.ai/
/ k2 i* t; W1 M4 i" E* \====7 T2 K$ d# {+ q9 N. _* R
Deepseek,API 看上去可用了,但是不给充钱。! X" ~; n9 A% M. ^

- {4 Q0 Y3 [8 f& v) `2 i9 D
2 D3 @/ V* [+ t& T: h8 u, k  z0 _/ J3 [. Y2 d+ u2 s' s6 K4 D% y3 E

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3690 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53: `5 S: K; \7 F
    这功能很赞呀

    ' X, G% b/ m. P; a简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:139 Q" W! r; M# Q, G
    有没有上传整本书试试
    1 c# z$ _  T' [- u# J) A
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3690 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    * K3 ?4 d& ?4 `- Y" b8 P5 v5 ]5 r6 v, U3 B/ j0 ~! `
    以后让deepseek 读出土的竹简
    * \% j$ U7 q) s0 t5 U
    6 N& J. z0 a1 O  r  N还有把古文翻译成现代白话) C* F0 q, I' L+ ?" \, B

    1 w  n8 {' A: [8 ~8 m0 w1 ^( E以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 01:48
  • 签到天数: 2851 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?; F: p2 L) S: n; X1 }( }+ g4 w

    * p1 Q9 N9 P7 H2 n7 T我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23- {1 o$ h7 R* l( R6 u0 H) ?$ T$ z6 u9 n
    请教是如何实现的?5 I( V  B; |! v6 z- r

    # o# q1 T/ e$ b; f我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    ! k$ z5 y! h! U  R

    " }' L) }. ^6 v  V* Y我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。- m4 a; m" P) p$ N2 a. K7 ~4 r
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ; T6 E! p6 C! P+ U. u美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ' `3 u! s! K+ O9 G+ L7 E: {

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23. h8 j: C$ D1 \% W
    请教是如何实现的?
    * U$ X4 C7 y" Q. E0 B9 s+ |5 P  j# M% S
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    5 ^9 d- M0 s5 e5 R9 G. z' A
    https://chat.qwenlm.ai/' T8 J1 Z( o+ d; y2 T% C0 c
    试一下千问,估计美国人没有攻击他,所以资源敞开用。/ X1 h! U$ ~, [5 {$ ?' o4 A
    很稳定,质量不错,好像最多一次处理15页。) _5 g0 f5 G. Q: h; b5 X' V
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 2965 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。0 x" W2 X# O$ v  V8 _! P: C/ w) h) V8 t
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。* a# i; ~" Y5 [
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    ! w0 g0 t; Q, {; Z
    5 p3 }- p1 o( H3 W+ dhttps://github.com/oomol-lab/pdf-craft  r! e7 H( G8 L9 \

    " O3 x- x/ R, O1. 这个工具要求装 python3.108 p) _! V2 `, z5 z) ~0 q
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    7 E- ^' H) I  p7 i  c, S, T3. pip install pdf-craft
    & G6 |* ]# t1 g! E/ }- u1 t& V4. 把下面的内容写到一个文件里,例如 a.py
    " Z6 i! T/ ?# ]( c# f2 l3 G) h9 o' O& G% F, D8 l' O: T
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter. A# {) S3 c/ [7 y' s9 X' A

    2. : C: d5 S- N4 @! _/ G2 s/ s2 ]
    3. extractor = PDFPageExtractor(
      ) \0 N7 P/ I! U9 |  U+ D3 K
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      2 L/ w1 R* V& Q! Y4 y
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed1 {, V- ^. K: c+ b% C1 ?; D- L2 U) u7 S
    6. )
      " V/ A3 p9 F; k: V" ^+ I! j* G
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      % R' C% u4 S0 e
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      8 m% o4 |. X8 n& Z  E* P
    9.     md.write(block)
    复制代码
    2 K- S& q/ i; W3 O6 h# Y: [

    5 {: M: k: Z" Z3 q要修改的内容:3 s3 z! Z* a$ @" H+ M$ t2 a! x/ n
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    + \* Y! y3 y( P: e4.2 markdown_path:输出的 markdown 路径文件名! n. v: Z! p$ E" L3 C0 C
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名# X% n# R7 [- g( r, V
    ; o/ q7 P& w! x% ]- a4 }
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    % `/ N  p2 G3 T; F  F; Z- t
    " _1 M" W8 y- U1 \+ o) f目前为止PDF转纯文字的最佳办法。
    " N- ^5 X" W4 `' M- y! p& _先写个小程序,把PDF按章节切成小的PDF。1 j8 T2 Q- l( i; H1 P5 F
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。- ]. |7 x( H9 s; W* A
    效果非常好。& X* i- b0 C8 f% N* }# y  R" P' T
    : N2 K. M. a. p; J5 ~
    deepseek,qwen,chatgpt 三个,deepseek是最好的。: }( m. h- s; O: ?) P1 S
    - K. [8 @. c5 j+ A4 D& _3 e
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。) {* }( \' h8 j2 b7 f4 n  T- E7 x
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。1 q+ J, k7 \4 x
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    0 V, p  H" Y1 Q" F1 t, C( i8 @# z) A% W6 t
    API到目前为止,差强人意,不如网页版本修得干净。$ r/ k% b, x( S
    # m& g/ V* l  i$ Q- v
    deepseek可以同时开四个。) g/ o& h! Z: y0 Q$ h: s3 K

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    ' ?0 j  p+ @9 F! O1 Z& F3 Y- Z6 a$ g0 U7 P
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ( Y9 |5 c+ c. V0 Q7 c让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    7 _/ o/ [/ r1 _; E& U) Y7 I细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    $ H( b" L3 B% c: W' \3 r& z, C% ?细说一下,听上去很不错,多谢。
    # l8 `( V1 a5 _( M5 \* w9 N) }
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ; c; ?' J' L% M7 [
    5 x8 l" k5 X/ F- E& U$ `, K# w
    已经搞定.' x9 m0 c6 Q8 O; I
    9 {) y6 q; B; U. D" F9 d" S
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    5 F- i. h% p5 d( t: n* K0 Q6 I+ h. Q: I, d2 Y) @
    1, python + pypdf 按章节拆分小的PDF6 s2 C" z! v7 P0 P  \4 X

    0 I0 m# I  {, U1 E  p3 Z. B2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    2 b( j# J( n0 f2 o9 f5 Y) q& h: O
    得到text file
    * o- C7 b$ n' z$ S* M, ?4 j9 x
    ; F- `( z! I& d5 {3, python 读取整个outputfile,丢给deepseek 矫正。
    , b3 M+ o6 O# n) C1 b8 S) q+ r4 G0 ^$ `' c; N' Z
    模型是 deepseek-chat. s' Z/ @/ {5 w- x( k' b7 |8 B6 Q& i
    7 B* U2 u7 `+ W7 d+ q; h
    max_tokens 最大是 8192,别的不用改。5 h& `$ m- H: X* p2 h. H$ K

    + B, {* l5 m) S, \7 [5 T$ O7 ]参考:
    - Q# b5 Y6 _6 D6 i# ]; E9 Bhttps://api-docs.deepseek.com/api/create-chat-completion
    4 x7 |7 P4 ^4 _$ y2 N! e* p& g, I- q% P3 C; M* k% I2 d% F
    4,费用:
    * p9 A$ w4 N$ |4 ?/ _, O( D0 P; p; L( [5 k8 t
    实测:
    + {( {' N/ V5 G& E+ }5 j8 u7 q* ~/ T- N- a, {
    296K 字母,用了 9 美分。
    " B) T, V1 ?/ P% d
    * k9 H1 W- @. e7 t英文字母 到 token 用量大约 1/3
    + r+ q1 S" K* B% ]
    & X5 q8 e  C8 k! H1 E2 {. gtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899' A* c- b2 n# W* x
    ( e! Q9 I! F/ e9 C
    32899 个字母花费 11782 tokens,包含输入输出的 tokens: \4 i/ }3 f4 H# ?+ M
      Q# Q3 `) S' q6 F+ p7 O: H
    价钱,非常非常便宜了。
    & f3 W& L9 z# a! i/ s0 F; D6 }/ C% x5 k: `, [
    参考如下可以计算,懒得算了。
    2 ^* r7 \7 E" G1 ?4 G! I% y9 v' E7 a1 Z! g( E+ `
    https://api-docs.deepseek.com/quick_start/pricing
    & Q) }* E1 J: b
    ; W9 e+ t; Q  n1 I. b1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    2 p" k4 Q7 Q- z; }1 ^' n1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55* l. S" \' A% \
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    : {/ z1 R5 _3 R" V
    & G' |- e1 o' E/ w5, Balance: n" e* k+ ^9 m2 R! T3 M

    5 K4 O0 i8 b: s可以在程序里调用,知道每次运行结束后,balance还剩多少。1 F  X/ h  N1 d1 {5 R
    参考:
    ! g5 t1 V  E/ J7 `) e0 ~6 Phttps://api-docs.deepseek.com/api/get-user-balance2 T: U. H2 h4 f' g6 ?; i' ]! n
    7 i6 m: r. @* r3 O) a& D/ t; o, D
    6, Models
    2 t. p# E& x) P5 g3 U! D6 s
    9 p/ n, T1 U$ P/ T8 q) p目前就两个
    7 ?. y) N  z9 W$ \' X: P; `# deepseek-chat
    & \0 l% A) [* p7 y9 e! P$ V; P* q# deepseek-reasoner/ q% L5 {  q# v9 {: B- `
    , T* s3 ?2 m/ W5 d8 B) J
    参考:7 S4 L  z+ k) n0 u& ^0 b1 g
    https://api-docs.deepseek.com/api/list-models
    ( j( n; R5 o, o( p* l# o
    + s, x  U: T; `2 K4 g8 t
    # A) x  z. d7 e% s; T/ l& c' [+ s( F7, 问题& K6 e1 j. i8 r8 B

    " }, b" P( O* mdeepseek 会将前后两段合成一段。
      P/ z9 x% d- p: a" o' [特别是那种大量的对话的段落,deepseek会给你合成一大段。5 n6 d/ `$ i* @* f% W1 R; I

    1 u1 R, e7 l% U! E  u8, 钱说了算。' `& H* l+ `% t
    , J- Z- P: F3 ?5 I" z) e+ f
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。7 V' s9 L; Z; I+ y0 V! b
    但是API就不会出现这种情况,毕竟我们给钱了。
    2 i; O* ?* C: c1 u/ ]$ Nchatgpt也是这样的。1 P- Y$ _( w1 X& O
    3 ?. W& H& l. q" N

    7 z) v  r6 j3 v8 J. ?* W1 h. V& E

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-9 06:33 , Processed in 0.061636 second(s), 17 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表