设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2820|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
  @1 u! ^1 l9 h  p; m* t; I
! L4 R* I8 \3 s) C2 `2 C把PDF上传,然后让他抓取文字,并修改可能的错误。
( B! y2 [! F9 V  I/ v; `然后deepseek完美的完成了任务。. L. w& W: H1 \+ d  l! _* ]9 H3 e' v1 R
段落清楚,列清楚,页眉页脚全部去掉。
' y- q# o* ^2 a$ j4 p1 p我要疯掉了!2 f- {; m; X5 {/ H5 o
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
$ q0 @2 E& o* E' y, h====% C, \- _9 s, V4 ]1 u' s$ Z
中文也很完美。% }. B7 ~( O; w0 Z: @' J# ?
经验值,每次十页比较稳定。8 u) m/ s! S7 c! E: @$ U/ p, d# v
现在我这里API还不能用,等恢复了,全自动了。
! p7 y1 |, |3 G! b8 M====
7 r! Y. M7 S% T/ J) H第二次疯掉了!
1 p* h/ q3 n9 z/ d( u6 V5 F我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。) a- U6 C3 |2 T% d5 o) w
====1 u) `% V$ c* ]" L" P
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。% J6 s" X. R- j0 z+ r' R
但是任务多了后,每次翻译的页面数是减少的。2 M  e% y: i; L' r1 A& Z( F
好吧,我五体投地,继续探索。' a8 e0 |+ a8 [* ~4 `( o
====& v. d6 X" M& r3 W
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
1 A+ `( s" B& t' }8 e0 j; A: h====
8 G$ i+ j% [1 p+ G" J好吧,有些东西是不给翻译的,哈哈。* m4 o0 v' M) R+ B4 x
* H3 Z3 v. m+ P/ n' t+ X! N, R
Sorry, that's beyond my current scope. Let’s talk about something else.
- @/ o; h* U1 j. Y  y6 D====( r- P9 T. |& C% W# u: l- c  c
然后我的英文命令也让deepseek 帮我修改,呵呵。1 o' \9 u- L/ G+ A) `
====
0 e$ \% a8 \& x1 Q+ @* Z9 a  c日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
  t: B9 w* d; l# p5 @" ^' [; t: G9 o====
7 H+ V; u* \5 I% U6 h% u  R时间段的话,北京时间的下午和晚上用比较好。0 T$ e8 q5 U. T& m1 j
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
  W3 q, |# R# c' p8 Z7 k====% C5 J: I+ n" Z8 C$ Q# T
用千问吧,非常稳定,非常强大。6 u/ S9 K. A4 ?, `5 a8 S
https://chat.qwenlm.ai/
+ }% I  i6 [) E5 s6 w: [2 p$ x====
: [4 [- ^$ {5 @: CDeepseek,API 看上去可用了,但是不给充钱。
. K5 l/ L9 e0 M+ E
  J( e; \( j' x, D3 @
' d; L8 d  g& o$ d; ]3 j0 o/ o& O' p( S$ _9 a

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3734 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    4 [6 e* s% h! S% C; m. W这功能很赞呀

      h0 j3 T/ q' r5 f简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13, P9 Q9 i- E( _
    有没有上传整本书试试
    $ D7 P, Z2 r; Z/ `& Z5 O
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3734 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑   S' C1 k6 J6 a$ X7 Y* X$ w
      N3 M0 h0 D6 Q
    以后让deepseek 读出土的竹简
      w5 |; b7 C' v4 c, K; e) y  t+ }4 R9 M2 q# b
    还有把古文翻译成现代白话3 t( Q/ d! q3 P5 u
    7 s$ H" r) w, C; E3 L" Z
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    20 小时前
  • 签到天数: 2895 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    6 y1 T) e2 Q' K5 c- y4 ^- z
    ! i- L' ~* D0 R9 \. \/ k* _我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ' f6 J% J% d$ r8 d$ z7 K请教是如何实现的?2 Z& |/ E) y2 t& ]+ p7 n5 V4 M0 }
    . |& `& j) z! K0 }8 i
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    9 ]" r1 b3 p$ L9 t  s
    ; @) [% x6 z% p6 p$ q3 L' y
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。; k" u0 h1 R; X4 ?- p5 z
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    3 q0 O) C5 E9 S) {, t0 p; d- }美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。& d+ R( U6 y8 [

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    8 x: F, m7 t( n) v请教是如何实现的?
    . w& q# I- ?, u4 ]& o; f2 E& [$ d! h; A. w
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    5 U1 }- r; I5 f. \  G! R
    https://chat.qwenlm.ai/
    % x, p& a5 h: L  w试一下千问,估计美国人没有攻击他,所以资源敞开用。3 M, Z5 N7 G. x4 O& v
    很稳定,质量不错,好像最多一次处理15页。" z. @, G7 k7 U3 ~+ T
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3007 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    + h% h- f; x2 e2 N; Z2 M6 C, A处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    & w" J) n- `+ w. Y! K! T$ ?这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    & @) Q  L" C' o/ f4 B" j& n8 D; @3 L; A5 U4 O$ V5 E
    https://github.com/oomol-lab/pdf-craft# b9 Y  l! V* l4 Y

    1 U; P2 a+ A. `) _, |1 b4 t1. 这个工具要求装 python3.10( W0 D- a7 F2 i4 C1 t
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    % H8 G' k& s% y& @- {' }3. pip install pdf-craft, {! l- w5 A. [3 _1 ?3 V* t
    4. 把下面的内容写到一个文件里,例如 a.py; f+ n, e; v3 o# _' D  N" R0 [& ~/ l
    & u. f1 |* y3 i8 s5 d) O" K
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      ' u3 ?8 }1 Y' e: Q# q, e5 x3 p) Y

    2. ! W4 {9 m$ Y) u' V1 D0 C# H$ _
    3. extractor = PDFPageExtractor(8 f" D% f# v% E, I" z* R. z0 v
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      , X/ ]. T4 |1 j: z( g; J# U8 T
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed  e- N' ?0 I  x+ N- b
    6. )2 G7 T8 s  D6 L' Q
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:. ]! U8 _" h& R, [2 N& k$ D! K$ }
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      ; D: U4 T/ v0 k$ v  \" ~2 k
    9.     md.write(block)
    复制代码
    / a( q/ j" E  r- ?9 z( W: ^

    ! R' J7 Q, y) q7 z要修改的内容:
    " x0 |2 O5 p0 e/ k. r4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    % \2 E# U* W0 ^  Z" h4.2 markdown_path:输出的 markdown 路径文件名
    8 M: F% O: c( B4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    6 R8 }* E. X. W1 t; E6 _7 [4 E: k. s: |. K& i) x: \4 A$ g
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    ( s2 K2 S3 Z- |
    3 J2 T8 o7 N/ U" W! D: v目前为止PDF转纯文字的最佳办法。# n: |! Z: l0 B# ~3 K4 ~
    先写个小程序,把PDF按章节切成小的PDF。
    # `' p3 {% p! Q* ^: K" F# C3 D6 D然后,把PDF一个个传到deepseek,让她抓取,除错,输出。  D, g& N( A; H* _6 a
    效果非常好。( }/ b. h# ~" P% m4 K
    % K9 v4 h8 i# D# G4 h3 h
    deepseek,qwen,chatgpt 三个,deepseek是最好的。( }+ K0 D3 Z. e" |2 o

    " \5 y3 l/ M0 H* kdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。& E) J0 \) o" G$ Z6 }# h3 P
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    ! X. t+ \9 U- x2 Q# \# A2 k. Z8 u8 x我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    : s, J+ v2 @: b" z) r9 e- Z" j2 m$ w/ P: V5 S# ?
    API到目前为止,差强人意,不如网页版本修得干净。6 D9 L. N( w% D% T* Z1 s1 l7 _0 S

    + l+ W6 B! `( c5 l/ E7 _- K  Zdeepseek可以同时开四个。
      d' Y2 ~* [- R* I$ V3 Z

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 / A& S# Y' o  S* [1 K# ^. f

    # _' q( r: P7 \6 q5 ^% v, [5 q$ d让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26' Z7 c+ {5 L( C
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    " L0 l# \2 f% Q细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33" G0 {" S  c3 L$ g3 O2 f
    细说一下,听上去很不错,多谢。

    4 [. y2 i0 o$ d6 R  C直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 , ]- a* B  u. S' a

    . W% ^, E( ]/ N) V! c0 ^2 g* `' G2 V已经搞定.
    2 B9 ~& f9 u8 n& Z
    : U: K3 r3 w  `! d首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。! E% I! a3 Q+ m6 i  a
    , r; O) e$ K$ u+ m
    1, python + pypdf 按章节拆分小的PDF
    4 y2 u- ^- D2 I- n
    , F/ S, a  k7 b0 N% k& \( r' t2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 v/ L6 `6 n2 j. S. p

    ) m/ _0 r0 D4 @) g. m* k% q得到text file
    & Z# U% M! j( N2 j! C0 J5 I3 z, l" p% t' y6 _3 S3 j% @
    3, python 读取整个outputfile,丢给deepseek 矫正。
    3 r& l; j) Z  O2 d- f5 {/ \* a5 W8 r
    模型是 deepseek-chat
    + e: c4 y; Q9 b. U$ w4 b. f0 v1 I
    , }8 Y6 N# M0 C1 y: Lmax_tokens 最大是 8192,别的不用改。1 K6 k9 [3 p% h. e4 R" }, ]

    & t. @. m0 y! |& [5 `参考:
    $ `4 l3 V: C2 d, z/ H( Y1 Shttps://api-docs.deepseek.com/api/create-chat-completion" c' I4 k" Y( s) c" E  H4 n/ t
    0 h- E$ i5 b  }4 B9 _3 d6 F8 A
    4,费用:
    % J& E; q+ m9 F$ T9 a8 f. Y, _: ~0 P  D' d1 c3 i
    实测:
    1 y9 {5 j+ d1 T" n. {( X
    - O4 t2 }8 o9 ~; e( A7 N6 u& ^4 y( Z296K 字母,用了 9 美分。8 @; E2 y; d5 p+ |4 e( O
    7 a2 G; y5 [8 w0 _
    英文字母 到 token 用量大约 1/3) w$ D* h  U7 i9 p. Z+ D/ C
    # \) {/ C: r, E! b- g+ t
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328996 H' q/ Y% A$ u2 u; s) X/ K: R

    7 L- f0 x( Q3 O4 @9 Y. L32899 个字母花费 11782 tokens,包含输入输出的 tokens7 i" \5 v% z0 a  j0 K8 C
    ( A6 _9 u$ c# x. V
    价钱,非常非常便宜了。, R8 h3 D/ m+ x: l4 A2 p! m; x

    & k* S# U+ _8 X8 H+ H, r3 U参考如下可以计算,懒得算了。
    ) @+ B2 M+ E- F& k9 ^+ D/ m8 [2 O3 f5 _! `
    https://api-docs.deepseek.com/quick_start/pricing
    / B; H6 ]1 l6 [1 ]
    ) f1 X2 |! V6 m% E" w, N1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.149 r* A1 Z2 {0 s5 l5 E6 {$ G
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    , v* B! [0 c3 G" ~! B1M TOKENS OUTPUT(5)                                              $1.10                $2.197 k! i- X& y$ s# B- T
    . E8 i6 O/ D9 k7 E& O, ?7 s+ R
    5, Balance
    7 L8 o  s7 n% b- F' F9 s
    9 M' k( L# C0 u可以在程序里调用,知道每次运行结束后,balance还剩多少。
    ; y0 L2 p, Z. v4 C, d! o% W5 F参考:8 \. Q: d( l( @* w( _6 M% G  k. G
    https://api-docs.deepseek.com/api/get-user-balance9 z- i& K* M4 @3 b/ C( [; K" A
    9 H2 h/ o1 B! |; ]) n. j
    6, Models" c; t5 H, V. ?. z( z8 }) z

    3 V: M" O* _! K% k( H( I5 t目前就两个
    0 v% Y' E8 t# s4 T# deepseek-chat+ t& c. f3 U" H1 m/ K5 ~3 ^5 q
    # deepseek-reasoner
    3 s$ t9 q! k: P9 I2 g( p
    - E& A( _) K# o0 T  l. P/ j% p参考:
    8 r# D4 R$ `! F( t. Z: l6 s7 Uhttps://api-docs.deepseek.com/api/list-models
    ; K% A3 W' {8 h! R- J+ W1 K, L
    . h( N/ |" ^" W# V) F) z
    4 b8 {5 Q6 U. K: O7, 问题
    ! V, K# Y9 L4 N3 A- d( V- U7 r( L
    deepseek 会将前后两段合成一段。
    ) n9 k0 z6 ]) L: x9 W& f特别是那种大量的对话的段落,deepseek会给你合成一大段。6 s. [" z2 j# f$ z& Z) F* z
    6 H* U! @; i! M* j6 J
    8, 钱说了算。
    # ^. v; H" i/ y# \9 ^* @% u
    - h" G1 A/ Y: y( g, }deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    0 H/ g* U% M4 g' X) _; m1 E) Q7 o但是API就不会出现这种情况,毕竟我们给钱了。4 z) F# F) r/ n" s, _' G/ u9 R, n* C
    chatgpt也是这样的。
    8 a, H) Q# Y4 @' b
    ' a0 r0 ?/ P* F
    , x- x) P: v: s" J- W( _

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-25 22:18 , Processed in 0.063191 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表