设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3061|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
2 a; T2 w# F4 j
$ j, j# ]% N% ]把PDF上传,然后让他抓取文字,并修改可能的错误。
/ X" z! L) q! I) m  i0 R# ^然后deepseek完美的完成了任务。
* o) \- n* D4 }段落清楚,列清楚,页眉页脚全部去掉。
" s8 \- Y8 \5 ?2 e4 W( B我要疯掉了!
7 f. t% X$ Q9 }赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
3 }0 p' G& U; l( q+ I====
* ?2 n7 O) |: Y9 `) `: f: H中文也很完美。; V+ h. e. B8 D- H+ d
经验值,每次十页比较稳定。
( @+ G3 k9 @1 N3 }' v1 @' z现在我这里API还不能用,等恢复了,全自动了。
) s' `# E  \, [5 K4 K& U' u: P====; p( ^8 E8 N3 G0 o+ s
第二次疯掉了!4 U+ S% @" S) U9 U
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。: T7 v# b5 a# M* b4 ]# |
====
2 w  Z4 W, f2 {# q现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
) z- G7 z) g' g& m  U% V但是任务多了后,每次翻译的页面数是减少的。, ^6 G( B, Y( N+ w0 F0 {
好吧,我五体投地,继续探索。
$ i! R8 P: s4 V. j5 w====
* ^9 L5 R2 D) P3 U3 M  x% a' f为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
/ H5 \+ I4 y4 b) i4 O====
0 m% o/ T. t, T2 r好吧,有些东西是不给翻译的,哈哈。
( I# Z9 k4 P0 ^7 J2 N, o9 K( ~! ^, v3 S3 _1 I
Sorry, that's beyond my current scope. Let’s talk about something else.  l$ K# l; F  a) }2 {, @! o! A  |
====% @: s' U* p9 Z2 s" @8 c% o
然后我的英文命令也让deepseek 帮我修改,呵呵。3 O, U8 C- l6 H8 \- ?- t$ v
====9 W! k; \9 c0 _7 \! c7 R+ z
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。+ [- e2 ?* ?- E3 h/ W# v
====
: F0 z, o  w' [. i! [: V5 T时间段的话,北京时间的下午和晚上用比较好。
9 B$ B# m9 i4 Q$ c, P后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
5 I% B1 A, E; d* i' y* Q====# p) M+ ?0 w) W& j& P# c1 T
用千问吧,非常稳定,非常强大。
& u- D) m& k# b5 \https://chat.qwenlm.ai/
( x6 T( Z5 h! Q* u. |6 [3 b. ]0 A. g====/ n1 h0 t0 q( a4 ^/ I
Deepseek,API 看上去可用了,但是不给充钱。
8 K! u, {' s9 B9 T$ }. P9 F- }* ]; F
7 L" r7 a' ^. `9 s. @
! O$ g  G3 {0 F( @# A, V

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3784 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    1 T0 ]  p" c2 q9 s这功能很赞呀

    4 `2 F0 P2 F# T4 H3 v% U简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:138 K1 `& c1 }& \( _
    有没有上传整本书试试

    1 E$ D5 b, u5 K- c( h目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3784 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 , k4 r7 X* J1 z( e- b$ `7 V
      K( d. \) L$ G: v
    以后让deepseek 读出土的竹简
    3 c' v- }  [, f6 M# u( f1 V
    6 f# Q- A4 U3 J( l; {还有把古文翻译成现代白话8 ?! x2 I) z* I$ s& w. e

    ( A% B3 ~! \- v' x( J以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2944 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?4 @1 G' Q: ~) d9 J  P
    , O. ]6 O) I6 j3 N
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23$ _* p" k, d5 c% E5 l. h& E! C
    请教是如何实现的?
    4 d8 y  n' B1 A' v( q0 \! `
    % B, k2 B8 Q" }我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    0 j1 A7 D% l; p1 W& q7 `6 s5 s- D  s" E6 f( i6 f
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。1 M0 R! d/ w2 ^! R, B" O! C" Y% y
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。" [$ c! o2 i* ?( W; k+ P
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    & M- }& f6 |; [' R0 r9 D

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:232 w4 k7 ^1 ~; B$ D  y1 ]
    请教是如何实现的?
    3 Q) y$ O' D2 e& h& p+ C
    " I9 w/ Z( A7 J8 f* A* S8 n我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    2 I4 w0 c9 l3 U7 K7 W
    https://chat.qwenlm.ai/9 ^( q+ ~, h9 a
    试一下千问,估计美国人没有攻击他,所以资源敞开用。! L7 W8 G& O% {8 s: f. n
    很稳定,质量不错,好像最多一次处理15页。
    * H" H* A# u* s' B4 W我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3056 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ! O) G( {1 m/ X: @7 j; w处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。' g9 `7 F- Q4 I8 J$ _' z& a
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    6 s3 L1 o2 {" L* c( }/ j, m0 v& O6 Q! e% w' ~8 i
    https://github.com/oomol-lab/pdf-craft
    " k% n" \2 k$ j2 v) h
    0 F  Q4 ?" \& Y1. 这个工具要求装 python3.10
    & b9 [  Z5 y3 H2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    . G) {: y$ `# r" g6 I, L" E3. pip install pdf-craft
    6 y0 Z' u3 w4 d; N$ d( X8 U, N4. 把下面的内容写到一个文件里,例如 a.py( G& d+ P2 E3 o/ Q

    ( ?! S/ X7 j$ f5 h  _& `
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      ; G1 C# c1 m7 b9 S: X
    2. 5 ~5 U1 O  }0 H* d9 ^/ \4 x
    3. extractor = PDFPageExtractor(- @/ O, d. Q. ^+ p: F
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      0 M8 S% {) [3 C/ y7 g
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      : d& G/ Q( H* }% i
    6. )
      ) ], R/ V  j( ]. T  O( j1 o
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:# v; ~* C0 }6 c, Q6 X- q
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      , r* @- R% @5 E2 m# o
    9.     md.write(block)
    复制代码

    2 M+ Q6 {- X( W" P8 D8 I5 g  _6 O! A4 z4 V4 k
    要修改的内容:' l1 |5 F7 K5 T9 n0 ^
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型! i' s# G! m$ b& V1 Q0 {6 J
    4.2 markdown_path:输出的 markdown 路径文件名5 @& h* f! X* z" t- H
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名# n. d, p' M: S
    3 J# K' ~/ u- L8 b* t9 ^
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ( ^! c3 {# k9 }4 J4 l

    ( F3 r+ y8 v2 \目前为止PDF转纯文字的最佳办法。7 }1 Z  A7 j1 H. O4 G  k" O
    先写个小程序,把PDF按章节切成小的PDF。, X5 c5 v; c# X& z7 {& `+ H
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。9 Z) d; r+ H2 L0 Z
    效果非常好。" e! g6 |7 q& r; I

      K( Z- j$ d- ]) z- A( Kdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    " r  ^! `. K6 n5 q5 j* W% m$ ]1 a
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ' ]! x& [0 c, U! E8 q而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
      g; T% h  ^% }! n9 ^' u1 p7 ^我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ) r5 G9 @; p" u3 c0 a3 ~1 W% p; [' j; b. U7 W4 ?
    API到目前为止,差强人意,不如网页版本修得干净。
    6 l4 ]8 ~( E% N: J
    : u& F; k. T5 F- S; ~1 x, Ndeepseek可以同时开四个。' G  v# q  B& ^( l+ `+ Z& l3 S1 [

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    & o! r9 w4 z5 h  ^
    ( h( j) c% I) q1 d( R6 u+ H/ x让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    & H2 Z, k4 J0 J# X$ u7 U% j让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    % C8 r, M& c" z' Q细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ( S4 w* J/ Y: p" k( h8 U7 p细说一下,听上去很不错,多谢。

    - g  K7 [+ ^/ ?( F4 U  k直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 S" T; x( Z! |7 ^' ?' k4 X+ w
    $ z7 E) l3 ?6 P# j7 P, u( Z
    已经搞定.9 G- S+ E: w$ d4 D! P4 \( A

    ; H4 }5 A1 {, q  n, v& g首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。7 s* P* V/ g  E( i4 q9 d' z

    1 ^0 X* \$ M/ {9 ]! G1, python + pypdf 按章节拆分小的PDF
    - O3 G! J: _& a: x: d; ~* z
    9 q/ I& R" u0 F3 b+ P! a% n2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    " J) d3 ~  ~" j
    + ~! P( H9 T6 q4 R& E& D得到text file
    4 k( z; u# G$ L5 d, a- O! Z' {  d
    3, python 读取整个outputfile,丢给deepseek 矫正。) S$ |- G$ G* Y: G# w! ~9 Z) N

    + l* F! c: V7 P3 j模型是 deepseek-chat4 D. t# I2 T- N

    & b( j' F) Q, p: s5 N/ imax_tokens 最大是 8192,别的不用改。( W1 J1 W2 k3 d, o; `5 Z6 k) S
    1 c2 g7 Z( B: l+ j
    参考:7 f- O  K" b" }
    https://api-docs.deepseek.com/api/create-chat-completion
    2 B6 u, g& I+ _7 J
    ! o4 U6 j+ T9 d$ g4,费用:; ?/ `" E; n3 V6 k4 F: L4 B7 X

    1 D$ ]% J/ Y2 B$ b' v' U$ M; O实测:
    - I* N& X; h+ W
    8 d, ?5 X+ M, M- ~6 ]& m# x0 o$ J6 Y296K 字母,用了 9 美分。% U3 H- @$ ^( O; n
    4 W6 M8 g- y. i
    英文字母 到 token 用量大约 1/3/ R3 L& i. y! ~+ s' d' G

    + J8 Y2 `1 \% g1 gtokens: total, 11782 completion,  3729 prompt,  8053 | s:  328999 z, e7 k) A3 Z1 y& N1 N
    4 |3 U" y6 b3 H; j: h
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    . r' q9 a) l) A2 H" ]
    , r7 `* \  H: [5 E价钱,非常非常便宜了。- E9 J7 c- x3 J) e  H

    ! d$ [# X$ g" p% w7 ^参考如下可以计算,懒得算了。
      O( A5 n* Q" f( k
    , k, x. s6 A5 J) Fhttps://api-docs.deepseek.com/quick_start/pricing
    # {) m" y: }* a$ p# E- ^$ k. q3 h  c- J& q' Z$ J
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    3 G* h' p4 T) q# [1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    6 {2 Z- s- A" D* j* F1M TOKENS OUTPUT(5)                                              $1.10                $2.19" N0 `" d' q6 p+ I

    , {1 K$ S8 o. s& b2 j5, Balance
    & b. o2 X8 O; \  B! H6 ]* S- c3 ~- {, c+ U0 S; r
    可以在程序里调用,知道每次运行结束后,balance还剩多少。
    / J* x8 r! n" b& G  ^参考:
    - ]: N! l: `3 {3 V6 i7 }6 m/ lhttps://api-docs.deepseek.com/api/get-user-balance% }3 s% X. X( v( c1 `) r6 V+ P
    * \% c7 c2 x  n( f: |
    6, Models
    0 {" m. e5 @# u) L
    ( J% Q7 S) d% }2 F4 L& b% z目前就两个+ J+ o$ q+ T( o" l% _; z
    # deepseek-chat
    3 V  Z0 L# N; |# x# deepseek-reasoner
    " W& q/ ^/ Y# {4 ]: g. y! v4 }$ q& m
    3 F; r$ V2 S& v  v" p9 O# Y参考:
    4 z2 m) r( {) X. k! W$ vhttps://api-docs.deepseek.com/api/list-models( s8 G; `  ]2 w# m! \

    5 J. J$ p' K( b. t( a- H8 A6 I% V+ I; Z$ K4 \
    7, 问题
      H  B  H. n$ z+ K+ x; R" N6 ~  J* ^
    deepseek 会将前后两段合成一段。6 ?. d$ s& D9 |! Y8 O* e
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    , g/ c. Z$ \' [1 \2 I+ w+ |) w
    ; I8 }3 D1 u: J  n& D  d8, 钱说了算。8 ^! @' W6 L4 @; B  d8 Y

    0 }3 [* j, h3 Y0 U' _) @2 qdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。: X% e2 v& ~, U! W
    但是API就不会出现这种情况,毕竟我们给钱了。
    1 ~1 q: R+ G5 V9 x, U5 }7 kchatgpt也是这样的。: |! j3 A3 m; ~* C

    ! X0 D1 m6 P4 e) B: F7 k6 M1 c# E9 \* D; e1 z  l4 p& Z. m4 [! ?' ]

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-14 06:26 , Processed in 0.082806 second(s), 17 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表