设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1056|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
$ K7 u& ^! q% k9 `
- J4 K8 X- J5 N7 \3 p4 d把PDF上传,然后让他抓取文字,并修改可能的错误。2 v% V+ i2 v7 P
然后deepseek完美的完成了任务。
  i+ K6 k# @2 S6 L- L( ~( l5 _段落清楚,列清楚,页眉页脚全部去掉。1 }: c" J( [$ B+ d- ^
我要疯掉了!7 ^+ W8 Q& k) n- _$ w  I
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
  V3 G9 [! l! V$ d====! }2 Y' G! }' c$ W4 |% h
中文也很完美。
* T' H+ P; L- d  W4 o& z) l3 B经验值,每次十页比较稳定。
( w0 O" v4 n! t' z  j现在我这里API还不能用,等恢复了,全自动了。% s. h' \" e, E% A1 k2 O# z
====
6 K) S! C# b- A) s第二次疯掉了!, k8 p: I" z- p" d
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
6 o9 Z, I& h: |* u; H====( F6 N9 v+ T1 I# A
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。: X& l$ S" u( z6 p( b: ~
但是任务多了后,每次翻译的页面数是减少的。' D% N5 Z3 W) d# M$ @  m2 p
好吧,我五体投地,继续探索。
' q; z; O; h( H9 y====% h8 Q% S8 ]! S& P5 i: q. O6 t
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。( P' a) I3 H6 d: v. u. O# o) y
====% X$ q9 I' u, K& N
好吧,有些东西是不给翻译的,哈哈。
2 C/ t7 I; S* N; a" }& D* _% Z/ a' n  p
Sorry, that's beyond my current scope. Let’s talk about something else.8 }. v3 m1 M; f/ J9 ]; n" B
====
1 P7 @  }- {- D/ R5 z( l然后我的英文命令也让deepseek 帮我修改,呵呵。
( f- C0 k- f+ l% T3 ^* R====) Z) B; {4 v5 y( q# z: P+ a
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
% G8 l/ L0 l$ W6 C# W7 z( H+ D====
1 u" e" ]0 A9 k时间段的话,北京时间的下午和晚上用比较好。
# M; G9 |0 {  q3 t, o' B/ n后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。4 U# J$ g) m9 u. E7 \" ?5 q1 \
====
/ I" y5 R0 q  u3 Z* ?用千问吧,非常稳定,非常强大。
# M. ?3 U& H* c! T( K* vhttps://chat.qwenlm.ai/2 }. a' R6 Z/ n4 `! j8 x. v
====
5 H  ^) b. G: Q5 }! mDeepseek,API 看上去可用了,但是不给充钱。
  z2 ~6 m; W8 L% p' v0 _* G% M$ V, b" }$ \! m) w% a
& I& Q5 K) K) E
* ~3 H8 f3 Z- `4 Q& }

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3436 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:530 M% @2 C+ `* U
    这功能很赞呀

    2 _  k& ^; u) N/ \0 o简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    1 p2 P+ J! M5 E6 x0 I: O有没有上传整本书试试

    # I1 ~2 i, p2 @目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3436 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 + V5 i; {4 s1 j" A! z7 i! s# W

    + \$ Q6 K2 @" i, c$ x1 V9 J" S以后让deepseek 读出土的竹简+ H6 c: }, b( p6 B- U
    " a6 v. H; w' X2 Z
    还有把古文翻译成现代白话# Q- `5 Z6 `4 \  F! j* m+ z

    - P& c8 w3 u- ?8 v6 A以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    1 小时前
  • 签到天数: 2589 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?2 S$ Q4 i8 v/ J" w. x1 E0 L0 d
    / u# m# [( |0 u+ G0 k! E, c
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:239 t. A' S0 \6 G3 V7 V& r1 q5 d
    请教是如何实现的?
    ( b7 p5 a' ]" F! r- N) g, e+ u0 {1 o8 R8 q/ P/ ^/ {1 p
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    1 [1 V/ |% P+ d9 e: o! F( ~. m! ?2 L" |1 B
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    6 n; @! p# s2 v6 j9 z; v( x文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    9 V5 k# @, [( T/ ~+ l" H美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。7 o9 N/ b- r5 N

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    8 o7 d6 ?/ X6 D- u8 s( |请教是如何实现的?
    9 |. A+ x) S6 Z
    1 e5 s' ^: y7 S2 w- P9 k我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    7 m& q* j/ g" ^( e- {1 lhttps://chat.qwenlm.ai/" `' @) S$ T$ o
    试一下千问,估计美国人没有攻击他,所以资源敞开用。8 j, h( x9 p4 X# n) b, r6 h( b
    很稳定,质量不错,好像最多一次处理15页。/ `. ~& _( [; f0 w( o/ i
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 2729 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ' L1 {, M, Y" m3 v6 v; f& x处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    % _9 o  L$ f) D2 b% F! E这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。+ s. b. ~9 K$ L
    ) y( C. g$ e* F: J9 q+ }5 V
    https://github.com/oomol-lab/pdf-craft: ]8 {- M$ Z+ r8 v

    : _) ^2 A) d9 n% c" c8 X1 D1. 这个工具要求装 python3.10. F, Q# h' y, L. N+ I4 V$ t
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.04 X9 l$ C8 S2 i  _& B9 E2 w5 g
    3. pip install pdf-craft6 R3 W* K  e7 W$ Y
    4. 把下面的内容写到一个文件里,例如 a.py# C( |4 J" D! J) n
    , Q- C1 v2 B- v+ ^
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter! ~! l6 D3 t4 b/ a7 G' p  {( F

    2. 3 S5 K  m" B; N  x0 o  h* W3 A! r
    3. extractor = PDFPageExtractor(
      6 a% H# |7 K9 @- W% g$ E- H
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      ; `% D( Y2 l9 O& q5 B! ~
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed3 A8 c" N3 r8 t0 G% m; |
    6. )
      0 I2 ~) y/ A7 K& ]' o& x! Y
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:7 T/ H2 u( b- @/ `" H( g" U
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      2 _0 ]2 z% D8 \
    9.     md.write(block)
    复制代码

    ! G6 j7 U# J9 _4 h5 r! R
    " B6 c/ c' A. w: ]要修改的内容:! U2 Q2 W( h/ O0 Z/ ^
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型7 `8 Y8 c! S. f+ |3 G. a+ G) N* h
    4.2 markdown_path:输出的 markdown 路径文件名
    9 J+ J2 o2 q% I: ]9 h4.3 /path/to/pdf/file: 输入的源PDF路径文件名0 {( }9 p" W3 |. l0 w* u) q
    : c; ~9 H6 ?! P2 E
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ! B+ X4 R, t4 f+ r" C

    6 ~- H0 K/ q4 F7 }目前为止PDF转纯文字的最佳办法。7 {+ Q2 a4 @4 n4 ?
    先写个小程序,把PDF按章节切成小的PDF。
    ) J' P  p6 N/ w, a) x8 c5 O" T: i然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    2 g9 @" X* r! w/ z: D0 Q  m- x效果非常好。  i" w, Y& f* w/ e
    1 ]3 K$ z1 g5 D" r0 L
    deepseek,qwen,chatgpt 三个,deepseek是最好的。* _$ O9 Z) [$ v9 [3 L6 _
    8 K2 i" F! U# T1 O) l) p
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    6 R2 q; N. p4 g6 g6 N2 _# X而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。% R% `! w& u% @0 m5 S
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    , K" J: E% \9 [; X, B6 J8 \- K7 [- ^% p
    API到目前为止,差强人意,不如网页版本修得干净。4 F8 T7 D$ z+ F6 s. C+ w
    0 X( e- Z5 K3 Z" {$ V8 k0 l
    deepseek可以同时开四个。# ?+ U' \& W2 q9 D

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    ; ^, t4 E, g9 X& \: z' v; P
    4 U- D7 w* q$ ?7 l. l/ k让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    9 r1 y; J# b1 t让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    ! w' G2 s/ D$ \3 i1 F
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:337 v5 u7 m7 `2 p% @; ~: h
    细说一下,听上去很不错,多谢。
    - C8 \7 C0 q! U
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    + c( X2 v# E, o
    1 r: z0 Z- P( N' l9 F/ i. p, f0 w& F1 f已经搞定.
    " h0 c/ ^. E1 Q0 L7 e8 N4 X: K( ]6 C7 ]# J7 w( O
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( _: E& {* p: [3 v
    " A% o7 a4 R+ i. J4 c
    1, python + pypdf 按章节拆分小的PDF1 I# y( ^7 m: }

    # N& ~$ h" a: s5 M, t6 C5 ]- R; [7 o2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    6 j% D/ }3 I4 m- p- n2 d1 }1 j' q( {5 l* W+ O  }' J! T! z
    得到text file
    ' P, x, _. ^( D8 ~" ~( i2 ^2 k0 w8 B' X$ _' j' }. W
    3, python 读取整个outputfile,丢给deepseek 矫正。1 B2 X( N6 F- X) L4 @" l

    ( [. u2 k3 N* S( j4 G模型是 deepseek-chat" S' G8 w; h3 |+ |3 E* G

    $ W& ?% z2 f; b6 |! dmax_tokens 最大是 8192,别的不用改。
    ' H+ ?; v- [% n) b5 a
    : M! q- j* Y8 F  ]; I参考:/ `& G4 a( c% ?/ ~" _8 [/ h; P
    https://api-docs.deepseek.com/api/create-chat-completion
    / x; y1 [" P0 p# |
    ( o% Q+ q! n( \3 `" r( `4,费用:
    . |0 D4 C* G, y/ U4 P5 J$ }
    ( K4 s" b# h  @: C! p实测:
    ) I# [: |" j' M4 B( L7 e, W7 _% b3 \6 A! J
    296K 字母,用了 9 美分。' v  K5 U3 z+ @7 I7 n

    7 M7 K: B- o; z; Y4 L5 U英文字母 到 token 用量大约 1/3
    - a/ X; s( K# Q( b" Q
      \; m( L- P6 B6 u! b8 f2 b  Xtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899* d5 Y' s' e- q7 v

    - ?) Y" ^. l, v+ h32899 个字母花费 11782 tokens,包含输入输出的 tokens
    . X4 V4 @8 w8 n; T. F2 I5 K7 C5 G" `7 C
    价钱,非常非常便宜了。
    9 |+ a$ H6 Q2 P* ~# I( w) o9 m4 ?4 S7 [7 w- m* @% {
    参考如下可以计算,懒得算了。4 m& q0 f- |( B4 r& M3 O
    ' ~5 c* z. _( `0 O  o, W  K7 n0 j7 H
    https://api-docs.deepseek.com/quick_start/pricing
    ' ^8 J. K! \1 f4 E
    $ y0 g- m* S, U( u8 k1 C- }1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14' S7 n  V7 t* P6 b
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55& a. K9 C, z7 l7 J8 l2 g( _
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ' B, `7 B9 F5 n9 J: A
    9 s3 b- @% r: b0 s2 @5, Balance2 P* C/ u* j6 x: K) D) y1 p

    , v& m  o, O. z8 |1 s' b可以在程序里调用,知道每次运行结束后,balance还剩多少。5 Q9 q* q0 ?( ]" L+ I$ S5 m5 n1 Y
    参考:
    : c$ X  x4 G+ L% i) B5 Hhttps://api-docs.deepseek.com/api/get-user-balance
    9 j. l: ?+ \4 g- ^8 l
    2 f2 C: Q7 U  [6, Models4 B3 j; W9 [3 V5 J! O6 @% V, ]

    6 m- r. Y8 i, ^" K5 z& h目前就两个7 a, [# M- K- W
    # deepseek-chat( l( ~& n$ a8 Y- f8 t& Y; k
    # deepseek-reasoner' F9 C: Q% m7 d, [

    3 ]! l) Z: [& o4 e9 d0 M, v$ g参考:
    ' e: }* Y- E4 t' O& R" Ehttps://api-docs.deepseek.com/api/list-models+ p+ }6 k3 O% |& `: c# ?6 ]

    5 F# Z2 X" E! Z3 ^* q7 V# @, o4 o: W! g) n
    7, 问题
    # X; d: h& U: F* o8 G/ O3 c" c
    8 V6 |1 e( ~! _1 p. S, S+ rdeepseek 会将前后两段合成一段。( c" C% e( L3 c' l7 q: Z
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    # W( p3 u0 v' m7 N, e; }9 |' g% W- Y2 h0 Z
    8, 钱说了算。
    5 J" B' q- O$ K" Q4 K2 o/ m) f$ I$ Z
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    5 W1 \$ b5 x/ N但是API就不会出现这种情况,毕竟我们给钱了。. |) m2 S& R8 h% I  z: J
    chatgpt也是这样的。/ G6 r3 H" [7 ~& k. R0 h- \
    1 S6 I  G* ~" R1 a2 s

    & G# `, p) T7 }7 D! e9 P

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-1 07:47 , Processed in 0.053298 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表