设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2626|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
6 v( q5 J$ ?% ]+ [. e( u( {% j0 L. U" l$ _
把PDF上传,然后让他抓取文字,并修改可能的错误。1 n& L8 \) k- g6 o: u6 w. Z
然后deepseek完美的完成了任务。- v# L2 a3 [7 ~" C1 P# ^1 G% h
段落清楚,列清楚,页眉页脚全部去掉。
: A/ y& c" f" N我要疯掉了!4 C- F3 j0 O. n" S
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!( o" A7 m7 j8 n9 ?2 V( [4 k
====
( q- ]3 A, Z8 v7 f3 U8 d; J中文也很完美。
$ x) r) u+ O! C' {7 G经验值,每次十页比较稳定。$ n1 `# S0 w' w. q- a
现在我这里API还不能用,等恢复了,全自动了。
7 {0 p; e- H! d====* s; ]* _- }6 n3 P( n2 x8 h
第二次疯掉了!
6 L/ c& z: j% j; L9 s& E, J我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。3 N* G/ t* L8 q  ~
====1 o- }  y: B6 X7 [# a0 b
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。" A( J, d% T. ^5 q
但是任务多了后,每次翻译的页面数是减少的。
7 D! b  @6 f. z# o$ Q" e& ~4 _8 a9 u好吧,我五体投地,继续探索。2 _8 G2 L" \3 G
====
3 M$ h9 z+ S* R/ p+ n3 z3 i为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。( _) U: |  m9 W, E* p2 l
====$ k! A2 p; R  C
好吧,有些东西是不给翻译的,哈哈。. \+ D0 d5 L: V' i- M- E7 O

) q( W; e6 n, K7 J' N. q# ?Sorry, that's beyond my current scope. Let’s talk about something else.
9 y# u- m' S. ^8 ?====
; U9 }* {2 }9 T* Z  z然后我的英文命令也让deepseek 帮我修改,呵呵。5 B5 \3 C* y0 z
====2 \) Y6 I( m0 r9 E4 W9 ]
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。- i" d4 V( _# `; z
====* k6 c& a. i# H7 f, o8 T  }
时间段的话,北京时间的下午和晚上用比较好。
: P9 c% r! z& b4 Z后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。9 Q6 M) W% @& m; d
====* \4 Y0 y; ^; A% v4 ?
用千问吧,非常稳定,非常强大。- o5 b5 B  k, q) \, ^
https://chat.qwenlm.ai/3 l! |; e) U+ g9 S7 B6 `
====
& ]) K4 v$ V! p  g, xDeepseek,API 看上去可用了,但是不给充钱。+ L$ D" D9 }$ p* L0 [. z, `! b1 q

/ i/ p5 u8 ^0 }# b% I( @# g! K/ d/ w4 A2 J# S- z# ?3 H8 x
; E4 C6 K/ S! i# z8 b5 G3 @9 L

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3689 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53- `0 `* _; P& a7 j! Z/ u
    这功能很赞呀

    6 q& H2 {8 F- X% x简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    : Z" W1 v' d8 @$ x- y有没有上传整本书试试
    5 d5 \0 @& s; R
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3689 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    : L, u3 D( h: D( a, m: o8 Q7 c
    / [. J6 e; h% }0 V8 W- x以后让deepseek 读出土的竹简- A8 b9 D+ }1 g' ~! [
    3 g. `  b, K6 Y" \
    还有把古文翻译成现代白话
    . F; A8 ?: p5 q6 C
    , ^; W3 ]( ~# j. x以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:37
  • 签到天数: 2850 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?, [( u2 N& j% B! p$ Y
    7 E2 [8 F. k8 T- Y0 b% q8 C4 Z
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:231 O; Q6 w9 p9 D4 Q% m- t
    请教是如何实现的?
    3 @) `! p3 z  W. T( P2 u6 o, ?- ^" f# ?5 l$ O
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    6 {, G- z3 v# p) x- Y1 R2 [0 t; M+ }% s* i- y
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    6 l! D2 P" w9 \* V文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    . N9 I# J& ^5 q0 `) D; f美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    7 Y8 E1 l% h* k  z

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:238 \0 A+ M( v8 o/ {+ Q% q2 _; x; D
    请教是如何实现的?8 j! j5 Y, D: u2 y3 j
    8 E8 o: x! F  c8 K
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    7 p1 Z5 J) g3 [1 }! whttps://chat.qwenlm.ai/3 H/ t3 ]" P$ z1 b2 _
    试一下千问,估计美国人没有攻击他,所以资源敞开用。' @# W7 S6 F0 _. n  l
    很稳定,质量不错,好像最多一次处理15页。* K8 Z6 ~4 O) R* U
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 2964 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    9 Z$ N1 t4 j2 ~7 T- n处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    1 E! `/ W: V& A' W6 ]% d$ o( T* P: S  q这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    : m5 K7 u) E5 k" \7 \3 C$ D* Z4 p
    : v0 y" J) S: [: P% {https://github.com/oomol-lab/pdf-craft
    9 D8 V* o! ?9 N( m! f8 H- @) A6 d/ Q- s8 s/ g
    1. 这个工具要求装 python3.10" v' ^' U' W! R# f/ p
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.06 K+ `0 m# P; d7 v2 o
    3. pip install pdf-craft
    7 q% e; `# w! f9 M$ ]0 R! _4. 把下面的内容写到一个文件里,例如 a.py! Q, `0 }# @- {0 Z! l7 T* `
    9 l; |* h/ Z9 l) C  R
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter: C2 `% Z) E$ [( R( P
    2. : \/ f  B1 E7 ?9 c* e
    3. extractor = PDFPageExtractor(
      8 c, x; S) f" k4 X& c$ |" b
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ' n- g8 `9 N9 r7 d* M
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ( [) o3 m' w/ I
    6. )
      3 l" x/ Y# I9 ~. i/ m7 E! v  W
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:, n$ Z" b) i* Q  s0 {8 ~
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      + K' `; a3 Z- e8 \- q
    9.     md.write(block)
    复制代码
    3 e6 C! B% C  N) V) A! ^

    " S) u2 A3 `  K& H6 ?5 T要修改的内容:6 J1 ~# q9 Z; i
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型" v) W; p# v6 x) H: K) ?% ]5 L$ k
    4.2 markdown_path:输出的 markdown 路径文件名: A5 C0 Z3 _9 z- p' y4 {7 |
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    , L. U7 w/ Q' F. A/ D3 d- L% h6 l$ D8 ^8 N
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 + t; X( Z  e0 k1 B* T7 t
    # [9 U0 B, |* g( ^$ _9 `' B6 m& y
    目前为止PDF转纯文字的最佳办法。% _% e) X$ p1 H8 _, U1 D2 c, ~
    先写个小程序,把PDF按章节切成小的PDF。
    % W3 L0 @3 e0 n: _然后,把PDF一个个传到deepseek,让她抓取,除错,输出。+ W0 ?/ U% g! e% I1 u
    效果非常好。
    2 g! d' S- I' q. A, w+ S7 m
    0 Y( z8 C/ T4 z5 b; ~1 j$ Odeepseek,qwen,chatgpt 三个,deepseek是最好的。- b  V5 N- F# H0 U! G
    4 _$ ~$ c* U3 x  ^
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。/ I3 r, i# Q# |' N6 x$ \5 ^1 d; G. P
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。4 b. c: @$ U: B7 M
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    1 t2 U7 C/ v/ e4 o, H
    4 q- T" Z. z4 S$ E0 [. mAPI到目前为止,差强人意,不如网页版本修得干净。  \3 `* x/ ^9 Y1 F
    # ]& V+ p# N; Q3 _" ~
    deepseek可以同时开四个。, D+ t& C# E0 Q9 B& Q2 w

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 4 @- l0 t; s& c+ R, r" ^* \- p, R. g

    5 b3 ^  G/ c* s! G/ G让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:268 T* ?" R% _: s! a6 o6 E
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    : q' o+ n! V5 H6 N& l细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:333 s( Q+ x* X$ l& S, r+ T: a1 u6 v2 b
    细说一下,听上去很不错,多谢。

    - l* a" V# q2 e5 Z& Q9 `直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    " b3 e& ^- }5 A, T' j8 F) H4 l( q, j" W7 v% B
    已经搞定.4 v9 N& a% `  @, Q7 T* a& D
    & ]3 y* k& E3 C
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    + P9 `, j  h& R- |  l% m; c% @0 S! F' N- ]# w7 w9 [6 {1 U
    1, python + pypdf 按章节拆分小的PDF0 ?% u/ G: d3 V% m

    6 V' I; a$ Z7 u2 {+ |* R7 B2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile6 \& M3 z+ T  V3 z0 ?4 s
    , |. i/ {; J7 X. X( N
    得到text file; x4 a$ Q0 }0 N% P
    ' S% X/ U* K6 M. k
    3, python 读取整个outputfile,丢给deepseek 矫正。2 E. b/ S; R/ j
    3 |  f, f% t1 R7 Z6 V  F7 }8 a
    模型是 deepseek-chat/ l3 B; e  U4 J' I
    6 I2 `) A+ k4 E5 n8 |
    max_tokens 最大是 8192,别的不用改。5 T# T! C4 s5 h# w. W/ x; u
    & q" g( h8 N! J/ Q2 S
    参考:
    ) w6 I% s/ U" d$ Y' whttps://api-docs.deepseek.com/api/create-chat-completion" @/ _. a% }* i
    7 l& d9 U3 f1 e) U. O
    4,费用:
    7 Y- r# F* n# Y& {9 B
    ' \& E3 N8 f7 c实测:; ?" X. a2 d9 U4 j1 _

    4 B  t* g! Q9 h3 X! P8 ]296K 字母,用了 9 美分。
    # ], k# b. O8 U3 i$ x; i, @+ w) m7 n
    英文字母 到 token 用量大约 1/3* t$ _# w4 d! V' p  T8 y
    9 |- P" A) Y4 w+ X
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    4 ~0 h( `0 m6 I" B& f
    + M$ p7 p$ M1 R. P2 Q32899 个字母花费 11782 tokens,包含输入输出的 tokens
    , l2 F& D3 U7 s3 ~, i) l5 p0 U: M
    : C1 X% Q, a- k1 H; X* V价钱,非常非常便宜了。
    / J. A; C+ ]6 Z9 \$ m2 R3 y, @9 D4 E4 i$ m8 b0 i; `1 E5 r4 b
    参考如下可以计算,懒得算了。
    2 v  I7 _; x' C
    ' U- U- r5 p) n$ _https://api-docs.deepseek.com/quick_start/pricing) d; D! q. ~* r

    * K5 K4 I+ O( {* n/ D; ^/ o1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    0 R& b% q' k1 C+ t* B1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    6 G9 t; r) T  m. [7 Q3 W1M TOKENS OUTPUT(5)                                              $1.10                $2.19( E/ B! E+ J: z+ h9 i+ k

    , [$ {( @& `5 @  e5, Balance$ g! F/ V2 \- K

    1 W7 r, Z! N- M/ I5 [0 {可以在程序里调用,知道每次运行结束后,balance还剩多少。3 _$ q( [: y" |$ Z/ Y2 n
    参考:  T5 Y* j  f/ z1 e
    https://api-docs.deepseek.com/api/get-user-balance
    1 B, X3 t2 W; B1 F! \# S. x' F: Q5 u% i! H1 @$ q. M1 o
    6, Models0 V/ x+ k, q* b* k+ G& ~

    0 x( P6 h5 c, e目前就两个1 a% @2 A7 x' _+ e. y6 a+ g
    # deepseek-chat
    ) _, l+ b  t8 O# deepseek-reasoner
    ( c  v7 c5 ?% T; {! L2 Y8 i
    & ^- g. y8 ]8 M' R6 h参考:8 l3 T' X, |9 L5 p& S% Z
    https://api-docs.deepseek.com/api/list-models
    ) \' u) \& q5 t# n7 }! M/ U, M" w/ g8 K- P( E+ }$ I' z0 f

    5 I* Z  u4 |. v7, 问题
    * H- [% F0 s# {& L+ r0 X7 B) O3 a" Z8 M7 Y1 O2 U9 _9 W
    deepseek 会将前后两段合成一段。
    " z: z+ u  G/ R7 I) y/ B! m, S特别是那种大量的对话的段落,deepseek会给你合成一大段。. c$ T$ K7 t, q9 S! h
    ) p7 J+ b6 j6 G6 \
    8, 钱说了算。2 k. o& l- w" Z2 o+ P/ t' [

    & T; \: U, f; `5 p, Gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    4 D; T" d5 d: u/ u& l但是API就不会出现这种情况,毕竟我们给钱了。6 A! [+ _: Q3 n
    chatgpt也是这样的。
    6 }3 J, x0 J5 r* F. c
    2 i5 x  E' q% C. _6 j/ t
    % _, V: U0 X$ R, H

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-8 01:00 , Processed in 0.063642 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表