设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1069|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
6 G2 d5 j( r7 I2 M
2 V3 h7 A+ o: \$ |把PDF上传,然后让他抓取文字,并修改可能的错误。
4 u+ k. a) q1 ?: `$ r  Y然后deepseek完美的完成了任务。
0 d' g" k4 m- p# K2 G3 x1 b7 s; w段落清楚,列清楚,页眉页脚全部去掉。. S1 w- s% [; B; @5 P
我要疯掉了!' t5 J; Y9 P+ I; z5 x# }4 \! q
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!. M* _- E0 @& d
====
0 n4 N# l8 E: \中文也很完美。
6 X9 f6 g; \+ {; c( k经验值,每次十页比较稳定。- [6 {, c; N  ?# F4 C" S, M; ?& E
现在我这里API还不能用,等恢复了,全自动了。
6 Z/ ?. q* b# E====& s5 k8 Y+ @) Z9 y; J$ J
第二次疯掉了!& y; T# X+ A, H4 |! e: `7 `
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。: e" j+ Q1 r" T  ^" n+ s0 x1 f' g
====
6 f6 K9 q4 W# T; A  [现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
: `1 F$ d/ d0 s# z3 S- c但是任务多了后,每次翻译的页面数是减少的。2 t1 U$ V4 t- n- W& i# V0 G
好吧,我五体投地,继续探索。
; V, m  A7 {8 k2 o====
' J. N, P0 ?2 y( f0 ~$ u+ w# X5 N7 C" l1 F为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
2 b$ U  {8 p: q6 K  T$ G9 Z, E====
; ?0 D9 u, _9 }; a6 e8 {好吧,有些东西是不给翻译的,哈哈。
. q3 g" n  h4 g0 w+ S0 N. s, O, H" ^* d
Sorry, that's beyond my current scope. Let’s talk about something else.
, q/ i( T& Q. K4 x. _: O) U1 ~====/ O: g6 a- R; ?# k$ ?2 E
然后我的英文命令也让deepseek 帮我修改,呵呵。
8 @2 t! N7 U3 b====! p; M, v+ J4 Y! m7 d
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
+ Q8 q3 ]9 I% N$ ?; p' p% ]====" o& @5 ?# g) T' J) I5 f1 R+ y+ U
时间段的话,北京时间的下午和晚上用比较好。$ {0 T8 p5 D7 J- H# R
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。6 O# p7 N" Z7 |6 M( m* |& ^
====
- c, T: r8 D. `用千问吧,非常稳定,非常强大。5 v# D$ @; C) W& h
https://chat.qwenlm.ai/
+ n1 f; R0 ?" N, d* S; y" r====
1 Q, _# F/ B1 J: s. f1 I4 C: h7 SDeepseek,API 看上去可用了,但是不给充钱。
; X5 e, W! e9 y) z" y' f  H
; G# C4 T3 V0 d, q: x2 L0 i+ v6 R

! r7 G3 K4 |6 i5 c) K3 E" a8 o4 h

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3437 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    * j, t: t0 F% \3 W( m; C! S5 @, i这功能很赞呀

    2 U9 P7 n9 _( e' G* q3 B简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13  C2 l) K/ q- A7 Z. ~
    有没有上传整本书试试
    3 M: U. ~. U! b6 q/ q8 f
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3437 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    4 I0 \( t* l/ x9 `0 \: }; `% h9 Z# }: j
    以后让deepseek 读出土的竹简
    # G& D- E: C# _- ~$ G3 Q9 ?9 R, y' U* k% ]8 o5 O
    还有把古文翻译成现代白话, O- Z; E& E2 K# s% H% W9 K
    % S! h% X2 e5 O- Q& i
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    17 分钟前
  • 签到天数: 2590 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?# O% }* V; i/ B; t/ g* k0 q

    & B/ z7 ^6 a5 J  o我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    / ~1 E! S3 o& n& P请教是如何实现的?8 ^+ ^. {( `, e" d
      R$ I# k0 H, o  x0 z' d
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ! v8 M  b1 z0 i6 E- X" M. Y
    ( r. J1 m$ m2 V7 A& c; }) c; L我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    1 h  s0 [- I2 M0 h4 h9 \. ?文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    " `! s& f3 I) X! o8 x/ y: l美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。4 S# p1 k5 G; @- p9 l

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    / _5 T7 f  K, A( [7 d请教是如何实现的?
    1 ]6 b, A3 G: Y6 `% g, b# n; ?: B  A& }/ G
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    $ X8 \8 s+ H! y
    https://chat.qwenlm.ai/
    / N. Z0 O( b8 e; F试一下千问,估计美国人没有攻击他,所以资源敞开用。3 `2 P+ Y7 U3 o3 C, B9 C9 t- E
    很稳定,质量不错,好像最多一次处理15页。& D9 `3 w7 I. V" W
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 分钟前
  • 签到天数: 2730 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    - @. |, U/ h; y0 E3 R; t处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    ( F! U  x( ^6 g, d6 X/ Q这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。9 D, F  A- j# k0 t& }5 s2 ^

    ; G! N1 }& a) Yhttps://github.com/oomol-lab/pdf-craft! }1 \; I2 U, [1 c

    3 g3 t  I2 R' u# {( ]4 {1. 这个工具要求装 python3.10
    / e) v1 U8 k$ M2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.07 A' f+ A: p6 [" n) s" h) A2 ]- |' t
    3. pip install pdf-craft3 e8 J% R% h) c3 k7 C" k
    4. 把下面的内容写到一个文件里,例如 a.py  j- q) }9 z$ D$ }5 v9 t
    2 P5 G! X3 ^+ l* Z" k
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      5 y! _5 r* Q) T! e" N

    2. 3 B- ^! C- ?3 b: E( l: O) y
    3. extractor = PDFPageExtractor(; d4 T" M9 o9 H
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      , T( t% R7 m2 G' s# {. Z( D% F: `0 H
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      6 t/ F9 I0 T) p8 p
    6. )
      : M! S" }9 N& u$ u# {
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:* z7 [- W8 `- Z) }2 x' Z& z: z9 W
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      / r# O' o) t, ~5 {8 s3 S7 ~4 v
    9.     md.write(block)
    复制代码

    3 R9 S0 |+ X# Y/ s: D& R/ z) t; w# S* b' t) E) l- }4 m
    要修改的内容:4 H: q" Z9 d3 E8 I
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型) a! a: H5 B  T, C/ }& F
    4.2 markdown_path:输出的 markdown 路径文件名
    5 x* Y; G& s% X7 D4.3 /path/to/pdf/file: 输入的源PDF路径文件名& g9 w0 Z* o4 j8 N

      C: g, G7 Z  S- p* T3 A& T! g3 Y' E5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 5 D; ?! m8 G* L- U6 A9 H
    % T5 f/ }2 i0 Z3 x
    目前为止PDF转纯文字的最佳办法。6 |9 e) d' @8 Y' z5 A3 V
    先写个小程序,把PDF按章节切成小的PDF。
    ! u) j2 ^  P. L$ w然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    * u! M: g# Y! M& H" X) E效果非常好。4 Q( Z$ ?+ |! f8 C7 X8 O

    . ], v5 k; }' E  p% Gdeepseek,qwen,chatgpt 三个,deepseek是最好的。
    ) f  U' D  f& F7 Q9 V( w9 T- w3 d0 l" M; O0 a
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    9 N* }( _  ]( W而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    7 ?( _' g4 g( ]$ G* _& {. \2 `6 D6 z0 n我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ' A( e! Z3 s4 A3 |4 R) `" d" ?/ c, b; U- ^
    API到目前为止,差强人意,不如网页版本修得干净。; M$ q. H2 S  v! W9 n# B
    1 i/ N* E" W" I% ~  `5 W3 h- G
    deepseek可以同时开四个。! X+ M/ E# W; A: h

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    & R  L, h! J, e+ M
    6 e7 q+ W& c% [1 l! s* f: y8 x  s- V  r让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    7 A! s7 M7 o8 z. I" Y$ ^- u让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    & W! s5 z( W- E9 t2 C) z3 b
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:330 b' K9 I6 M. M( p3 q( x0 z
    细说一下,听上去很不错,多谢。

    1 E5 C' Y! @/ k$ A1 R( G; R* A直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 - s  Z$ o9 E' k7 {) Q1 B
    9 i4 |8 w1 C, S' q
    已经搞定.  K* {; l% ]5 l8 ?) ]7 F, w
    - x; b8 L; u, Z# R- }
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    ' E, G! @" C& X- p% L- V) I$ T1 w1 i/ L, h- c, Z
    1, python + pypdf 按章节拆分小的PDF
    + V+ p; A& e' k& r5 G! X9 u" s6 `: v- C
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile9 K" J4 Z. ?7 {/ ?- }0 Y' d
    4 [$ ]4 P$ M! D- j1 \% A& q4 m
    得到text file9 \/ h7 }$ n& J
    ' j9 h/ J6 p4 a5 {: q& P: x
    3, python 读取整个outputfile,丢给deepseek 矫正。
    1 C4 O$ _0 W) S. [: N3 T. d5 q! S( Q+ Z( ^. E1 C* o* X9 g: s
    模型是 deepseek-chat
    2 L; i5 g% P- h  C8 X' Q% V0 o# u  ~& d, K
    max_tokens 最大是 8192,别的不用改。
    ; E7 P1 k, r9 x2 \, y
      V- q: J$ N6 O$ z6 R" I  `参考:, r1 Q3 E5 s; s0 \+ ^
    https://api-docs.deepseek.com/api/create-chat-completion5 g# ]% Z) I' @9 `* r
    : ]- y% T: R4 m) L9 f  T2 k) q
    4,费用:
    $ L' K: {" i! V/ |* b; D) G0 I- S( S6 ~% ?3 e
    实测:
    . J0 X( Y! t8 L( p8 P1 ?$ `- B+ h
    296K 字母,用了 9 美分。+ d- n, P1 A4 I; N' P. {' _

    1 S9 r/ N4 g. ^' o% {0 M英文字母 到 token 用量大约 1/3: I3 O5 q! g9 |) M! x$ O. i$ j

    5 Z7 `  s* P3 I# htokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    * j  O0 u& m! u' g3 V! q' a7 ?; O! W" R/ ?$ z$ i
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    9 ]$ A, j8 b' C3 W3 n3 H/ B* ~) u$ g5 d" V, ?4 W- `/ m
    价钱,非常非常便宜了。
    ( B3 m3 S( ^- n, z( g4 D
    1 E) c9 `$ B- |* u* [$ c参考如下可以计算,懒得算了。$ b6 F5 v- |% `, {6 B

    ! z8 v- }" b: N" U9 Uhttps://api-docs.deepseek.com/quick_start/pricing
    , r0 k% f$ b' x5 ~+ B' K4 R! F
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14" G( c" p: X! t' h9 f5 t8 c
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55+ q. x. R8 E/ p
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19, }; D+ l1 P9 E6 s6 u

    8 k" q' m. l! k2 M5 a; A2 t5, Balance
    ) K" p( N! _  ]# T# f
    5 V4 M8 ?" m( x6 Q可以在程序里调用,知道每次运行结束后,balance还剩多少。& S; \' Z8 g# d. T. I" `
    参考:
    + y7 D7 e0 V$ n1 ohttps://api-docs.deepseek.com/api/get-user-balance# P9 H. l3 y  Z  x! r1 k4 M
    " r& k5 ]0 M' F
    6, Models# J- Y/ Q1 D5 B" E6 @

    ' G# J3 \% J6 p8 c# P+ \目前就两个9 l7 W# x$ t- l2 ]9 h
    # deepseek-chat
    ' M# H; L+ L! ^% J7 L0 v# deepseek-reasoner8 i! b7 t  l$ i8 ?; [& g3 ^  q
    - q, J5 M5 U# R2 x
    参考:' f+ {7 e+ U5 V+ O  r+ T. @$ Q# {
    https://api-docs.deepseek.com/api/list-models$ E3 V, v% G$ X) y
      J, Y! z2 F( s

    ( a! R6 |9 R# F7, 问题
    4 ?/ D* f9 s' j  ?9 X; S6 u: Q( k
    deepseek 会将前后两段合成一段。, E$ w4 J# w, _) ?! x7 O$ O
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ( y2 Q2 O0 m! o; N$ F4 B* H# V# g3 _* \, c1 T" t1 P
    8, 钱说了算。1 h" T+ q, k, h- U9 \

    ! }7 w0 {, y1 G+ p, Z2 P, tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。1 J* G1 F3 j% W) \3 s- z# N. y" I
    但是API就不会出现这种情况,毕竟我们给钱了。9 q) \3 x# O$ d7 ]
    chatgpt也是这样的。
    ; |3 k7 c1 g; V/ G! ^( C, n+ u) A; W1 f" W" x' n) n
    4 U& m7 c/ z4 S$ f, E! u; E; {  f

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-2 01:03 , Processed in 0.043526 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表