设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3244|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
: x/ N1 j# ^, N+ m% @7 Y
# k+ `4 t5 ^" h: e: N) }# N把PDF上传,然后让他抓取文字,并修改可能的错误。9 A% H, u. h' v: a. o' V
然后deepseek完美的完成了任务。# K) ?3 O. A+ t0 i: X7 }
段落清楚,列清楚,页眉页脚全部去掉。
2 s$ J9 A, u2 G: A1 p. C* m' ~我要疯掉了!
# Y& I1 I/ T  g' X- g# x$ v赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
4 ?, N( o) B9 g: S+ m0 S====* [- `4 e8 z) Z# F
中文也很完美。
& ~+ G$ w+ J4 D# `7 D3 V经验值,每次十页比较稳定。$ W3 e% @5 l* U/ U, ~; J3 V
现在我这里API还不能用,等恢复了,全自动了。6 W/ s; p: I9 i" J+ V5 _
====% z1 X# t' l7 L, I$ r
第二次疯掉了!
! v" u8 w: j1 R- R我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。/ o2 v, g- X' R% m4 B
====
7 }: q9 J6 u# K- m现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
3 q# ^/ v0 _7 S但是任务多了后,每次翻译的页面数是减少的。; W7 f3 g' r# ~1 P/ u
好吧,我五体投地,继续探索。
5 D+ H% M( J! ~====
- D" n, r% ?4 s4 I) J3 X为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。+ y1 k" E) M% O" I& t! x1 _
====, _) ]) O) C5 |+ C2 S" H. s5 ]& n
好吧,有些东西是不给翻译的,哈哈。
. R  n3 k( Z" m; f+ Z" }2 Q) N) l; X) m7 q
Sorry, that's beyond my current scope. Let’s talk about something else.
4 Z6 z2 |; P. d; s1 c! K====1 v, ?( P, t5 G: u
然后我的英文命令也让deepseek 帮我修改,呵呵。, c& L1 k! Y7 [( C: ]
====
3 B; _% g( e" z6 E日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。9 B, `* M- q; _5 S3 ^0 c* D) `; F
====
" k+ F, T) \! B; Y- n! n& V时间段的话,北京时间的下午和晚上用比较好。
: @9 U' {' B9 w7 o8 x. M后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。% Z# w9 Y  \# X, F% x
====
/ k- s! p! x0 l+ \% H用千问吧,非常稳定,非常强大。
0 ^7 a- n  P  x& a' y7 q" Khttps://chat.qwenlm.ai/( u5 e8 K5 l) n. r/ J* m
====
( J; I5 G: K& h5 p! W- bDeepseek,API 看上去可用了,但是不给充钱。/ U1 c; E- T+ a/ d2 v& e. X! |
3 z" t  R" I+ j( _
0 `9 W" D7 w3 ]7 ^4 B2 Y( A
: ^1 H6 L1 W8 x4 e% ~/ q, s6 a

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3828 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    9 j. }+ F2 ]- H' P& Z这功能很赞呀
    " T0 D8 C  n* a& ?: x
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    # _! Z! J, z1 j- Q有没有上传整本书试试

    8 D1 r& X7 ]+ n目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3828 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    + e4 n. O6 |1 C% ~  X( S0 N" H) T% M5 ?& }
    以后让deepseek 读出土的竹简
    ; v" ?/ a  a/ m) i8 G9 z& `; A6 M+ S4 c: F8 ^* J5 ^, a& l
    还有把古文翻译成现代白话
    3 z. r, F2 l' q& |
    : P' Z2 C) H7 U: Q" l' \3 E; ~以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    13 小时前
  • 签到天数: 2988 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?% R0 L1 d" _# S) F- V
    : ]/ X. r3 x# c" q) q( n/ n- n7 Q
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:235 ?2 y+ |# |) x: C- I8 `
    请教是如何实现的?
    $ h7 n3 N- H# e$ Z
    / J1 m! {3 Z2 |0 m# e我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    1 B) u: E& e  f7 V( ~6 {
    3 E7 U9 {5 q6 e1 A+ x我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    3 C% H: S+ s6 u0 ?文字之类的没问题。估计deepseek现在暂时只保证主要功能。! u3 I7 X  d; v: _
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。4 \$ ^% ^, }3 `6 I1 q- r6 `

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    2 c% u: Z0 N% h, i- g, Z+ \! C请教是如何实现的?
    8 I) N( g8 V: |" E& g! e3 ~3 {$ U7 J: _* k8 l; F" k
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    * n9 e9 i0 G. @3 a7 r1 x$ F! i7 w
    https://chat.qwenlm.ai/
    : v0 T9 f* @! }3 g! j试一下千问,估计美国人没有攻击他,所以资源敞开用。8 r' b$ w- T4 N' v& |" D
    很稳定,质量不错,好像最多一次处理15页。
    - K- A+ `3 I" y. M9 b7 {9 q: Z我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3094 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。. q* S9 o* w3 n$ p  p/ q
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    : W  ]7 @# ?1 b0 c- V这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    ' D) s6 h' ^0 t7 R9 ]5 X# O" Z2 |; ~! s! E  ~
    https://github.com/oomol-lab/pdf-craft1 G+ l  n* e% K( A# i8 T
    ' \- Z* t: i* y4 n  j: Y
    1. 这个工具要求装 python3.10
    ' x* p* [: E  v/ T) ~, t+ ^2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
      t* C  @4 F( R9 p! U3. pip install pdf-craft
    7 Z/ c' y" P7 U8 L2 E! Q  _4. 把下面的内容写到一个文件里,例如 a.py
    7 `. l8 {( H" v- x$ h* |. A: E/ ]' C; I
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter3 u4 q( [9 h- k; D7 T

    2. 5 F) [9 }& A# w% B5 I8 \
    3. extractor = PDFPageExtractor(/ K  y5 K7 N2 Y- n+ T; `. V4 ~
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format./ a3 G! G1 g- W+ P% n
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
        T7 t7 ~! j" w/ E# v- u* M
    6. )
      6 D- J5 m6 \; ?3 \2 h+ m' u
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ' E9 j) z# J* V
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      % W" ^. h3 R+ V6 m
    9.     md.write(block)
    复制代码
    & G0 @& z+ e0 O* y
    , h/ h: C% p2 o2 D) J7 I
    要修改的内容:
    9 h  K  G, u; z2 F4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型! N  ~6 ~9 M+ x
    4.2 markdown_path:输出的 markdown 路径文件名
    . S( K# _% E& H) S6 _; j4.3 /path/to/pdf/file: 输入的源PDF路径文件名- z9 `) U, C7 B& @2 T. d: Y/ o, h
    * N1 {/ K, X$ U) n' @, V3 {& W
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 : F8 O2 }5 `2 o( H7 N% q+ N) k
      ~- J% ^! M+ Z$ N
    目前为止PDF转纯文字的最佳办法。
    ) N* k7 P8 i' q$ R3 s1 |先写个小程序,把PDF按章节切成小的PDF。
    $ a- ^6 b6 U5 L2 m8 V% T- J2 m然后,把PDF一个个传到deepseek,让她抓取,除错,输出。4 Y8 s+ q, p) S( ^/ Z
    效果非常好。
    & V  Q+ B( `! |. }1 S
    : u0 ~1 D/ r9 L" A. ideepseek,qwen,chatgpt 三个,deepseek是最好的。8 R. u) B0 q; I6 v5 [  j7 ~9 J4 P$ X9 I
    % c0 |4 g2 Z; G$ W1 c8 G
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    4 U4 |0 @& m( Z% o而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    2 l. p- U/ u/ I7 k我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    4 D" r; h$ ]2 |; l
    % q" L& W: q/ b2 B: F5 W  a/ }API到目前为止,差强人意,不如网页版本修得干净。4 ]( J4 S% r# T+ R% c
    ' A2 r$ T" V: ^/ `, _
    deepseek可以同时开四个。, Z7 H* k4 {6 ^; V

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    - P6 w6 b- S* `, W. l6 c) q% r
    % K4 F. P; N' o5 {让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26. \' T5 r# T/ v1 ]3 w0 x& B
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    : L& R* \- f: W* L# N, K细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    - }8 K2 @0 a+ U/ t4 v细说一下,听上去很不错,多谢。
    0 b: g7 j8 n: C
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 - e! v! v1 e8 Q: v- ?

    / ~1 L5 |4 O8 z9 r已经搞定.( M0 q1 z0 l8 R% I, ?8 ?
    / H: z4 W9 z  U( `$ ~/ T( w1 a
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。2 n2 C9 ]. L1 N+ J% h4 Z
    : T$ g& S2 Y* ]1 x$ Y
    1, python + pypdf 按章节拆分小的PDF
    : q% V- [$ b2 C) {7 ]; A
    ) U* m( F* s! y$ r( i: S2 V3 Z9 j2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    6 f) u5 L2 Z8 Y- O0 K) |% o5 P, G4 f; e8 W5 e' t& N0 }
    得到text file
    5 n& \% S, O% \& e5 t! V* @' {! Q6 l" c8 Q: s
    3, python 读取整个outputfile,丢给deepseek 矫正。
    & U- j& }% a5 H$ K* r, G; \: C! X8 {# E% i. d+ G! c
    模型是 deepseek-chat9 M% W! C; {$ S( [) J' I3 q% V) B
    ' F. Y7 ~9 ~+ J1 z0 A/ q; y
    max_tokens 最大是 8192,别的不用改。# [( U8 i  G' n$ h" O# e) r
    5 C' r: _1 ~% }- x( i
    参考:
    ' r  G  M) K6 W: Shttps://api-docs.deepseek.com/api/create-chat-completion0 g, M6 X5 p7 j' S& e

    , {' w! Y" Z! z  r* m7 y2 W4,费用:
    ) l$ y$ [3 [$ e1 r& Q4 j1 T+ N3 i8 A- y3 b0 F, q1 e
    实测:
    - B5 `/ h) o: ?# s- H. P- Q$ E' |2 O1 X& o! l0 u2 V" @. b+ Q
    296K 字母,用了 9 美分。. _- t( C1 k+ N7 h3 d

    & Z; J5 e5 w, ~8 X1 ~英文字母 到 token 用量大约 1/3" o6 ~: ~" s) }" v! k8 V- E
    ) A3 Z0 n0 [' Z! P
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899/ X& L6 u  }, V1 S# ]; b
    - o" s9 a* e9 m5 h; m/ D7 P$ K( g' j
    32899 个字母花费 11782 tokens,包含输入输出的 tokens+ D3 n8 v0 z. i2 g6 X. D/ O
    + _5 g. \5 S/ T; ]8 u
    价钱,非常非常便宜了。. G4 F* H; s7 \6 N2 d+ N

    " s$ v% I( B: N参考如下可以计算,懒得算了。2 I7 G( d) u+ u
    7 R( Z; `# e' \1 h
    https://api-docs.deepseek.com/quick_start/pricing
    ( C4 y" O: }8 j. k( C$ ~2 l3 q' p  U$ R; \3 M0 |1 S# j5 k* F
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.148 |! x! R; @! y' G  {4 Y7 a
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.550 V2 _  Y4 x: B8 c5 N
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    $ H8 K: |0 f* p
    $ Z8 K' R: D& H5, Balance- m6 k4 \6 y; q

    0 A" m2 q& u) ~+ R. i+ s可以在程序里调用,知道每次运行结束后,balance还剩多少。
    : R1 |8 y" ?& h- M9 N/ J4 x3 s* M参考:! l7 m% @! ], x+ y- W4 c
    https://api-docs.deepseek.com/api/get-user-balance2 p; z/ c2 v5 B

    " w5 _) q3 n" L& h9 p5 l& `6, Models. @0 ^# ]5 j0 j3 ?0 f; X% [- ?

    " |7 M" l3 j# G目前就两个5 [9 K* I6 E; {. p# K: @
    # deepseek-chat5 Z8 C3 Q3 Q' [7 n+ g5 z
    # deepseek-reasoner
    9 z( E6 Y( ~- g% s$ d( d' z/ g9 k& u. l( z
    参考:# z& d3 O, l. N/ ]9 d! j: r, `+ e
    https://api-docs.deepseek.com/api/list-models% z( H3 ]  G2 l
    9 W2 f# ]9 |, O8 _) \& ?

    8 g# ?" _) A. S1 ^; I7, 问题4 W' D9 z+ Y% t2 K5 l

    1 l! y  g* k5 w7 tdeepseek 会将前后两段合成一段。
      i$ b% I$ n5 m/ D4 i6 l, D特别是那种大量的对话的段落,deepseek会给你合成一大段。' p( i9 t$ l2 M' a3 [. L
    : K% I, D2 b( w5 c4 K/ `
    8, 钱说了算。
    - o( ?9 Y3 V" |% {- r( H' Q8 ^8 g& g" \9 O( F9 O) F" |
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    7 g! g( B: `: F0 e* T# O1 {7 P但是API就不会出现这种情况,毕竟我们给钱了。4 i" @, }- S& P0 G6 [
    chatgpt也是这样的。
    8 ~; V4 E& D0 h5 u
    ! C' S. D% t+ Z2 R
    9 ^+ [; L) z2 {. A% @( f

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-27 14:50 , Processed in 0.067809 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表