设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2175|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
5 `1 H/ b* b$ s5 }8 _, l7 N2 ]
4 `; B8 h8 }, Y把PDF上传,然后让他抓取文字,并修改可能的错误。
8 d! q8 T' r; A! s0 k! i# w! Q然后deepseek完美的完成了任务。+ g: g! \  T5 B% s0 p$ [1 ^- P
段落清楚,列清楚,页眉页脚全部去掉。
( c& ^6 o" x2 L/ }0 H我要疯掉了!
; t% \5 {" {. \1 }# X赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
3 @2 \% c2 V1 ^% W- W====
( z& ~) x) V% j# M& B( Q中文也很完美。
  ?- {$ ?2 Y, x" U# P' |; E经验值,每次十页比较稳定。3 _) @$ H. W5 z( D3 A# a
现在我这里API还不能用,等恢复了,全自动了。' b- m/ B2 m, z% x* b
====
* |2 R; }( H1 S! [第二次疯掉了!  \# q# F! ^0 \( R* q) L
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。; X' ]/ g/ K" `+ o' K& V
====
/ D3 z$ V; F, T* `+ S5 T现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。1 {2 I' k  {" N! m; \
但是任务多了后,每次翻译的页面数是减少的。8 ]6 a4 K/ {, L! C$ E0 |
好吧,我五体投地,继续探索。
9 p! e& H. n$ z: C* X  l====" ~0 S, V+ F# P- S$ o; K8 s
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
* w" g$ G' ~0 F9 u" Q7 u1 ]/ z====
; e2 w% v+ e6 u, s9 J" Q好吧,有些东西是不给翻译的,哈哈。% M( Y9 m& S" F0 q
- o( K* b6 x- ?# X  N
Sorry, that's beyond my current scope. Let’s talk about something else.
0 Q. I+ O6 ?$ N4 Y: S====
; l$ Y8 }( a* K& v1 S然后我的英文命令也让deepseek 帮我修改,呵呵。
  K; |. O' K) _====: U8 X% _; d1 w; |! f) W8 H! }
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。8 [& I( l* T) z0 d- V
====4 {, a- i( o8 J7 C
时间段的话,北京时间的下午和晚上用比较好。, p7 I5 |8 c8 V0 O0 i4 [. E
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
! S) `; r( F: X====6 k3 J0 F, w+ {. {0 Z8 f
用千问吧,非常稳定,非常强大。
' z+ W2 V4 m% jhttps://chat.qwenlm.ai/
3 x4 d$ V1 {* ~' {" g4 q/ z====2 ~8 U$ P, C) ^- J
Deepseek,API 看上去可用了,但是不给充钱。
0 l' G. ?" f9 }; d+ G7 A3 a$ _' v+ a. P# J, y$ @0 x5 \  \
8 {4 n- R. O7 D# s# @6 u

% t7 a" K9 k0 S

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3594 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53: b# T8 L# n  U9 O9 [
    这功能很赞呀
    " J6 K: q% s& D! b/ p3 |( s0 I# b# D
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:139 f1 t2 B' G: F) j
    有没有上传整本书试试
    ; q; M9 u% A% R& M8 y3 r6 I
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3594 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    1 J  {! D& b+ F- N" c
    " N% I% l& k) d: f  \) u以后让deepseek 读出土的竹简
    + j4 \! P6 |5 L3 R( e) q' T
    . t4 O' ^- o9 i( |  N还有把古文翻译成现代白话2 |, p+ k7 M# H# C$ S" a1 T% p3 l5 t
    ! [' K0 W& p5 O) W+ q4 c3 ]
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2 小时前
  • 签到天数: 2758 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    / S9 t6 g; z+ J2 L: f! D' }7 ^, I; E) S7 p, w
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    9 [  V/ Z  a5 H5 v7 A3 f请教是如何实现的?* f  N$ V+ V- v0 i
    ' G& v3 Y& I; `7 |4 {3 c
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    3 e: B' y5 a/ F. c1 H& ]' _; Y, U0 P% m( _$ c
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ( D+ j" s9 F5 w  O# ]6 G+ y文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    2 p4 I/ E: m- N( y7 Y' P! G9 ]6 [美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。9 W- A( Q  ]* h8 {0 N

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    % s# t6 ?0 [& o请教是如何实现的?. x2 ~3 v( U9 J
    , D: z# y2 S( O. c  |1 m3 m, s$ |
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    6 d, X6 i8 I5 l. l* j; Ghttps://chat.qwenlm.ai/
    / R& K' Q* g& N& j, p3 T! {试一下千问,估计美国人没有攻击他,所以资源敞开用。, e  M1 m9 Z3 l% i4 Q& h% Y& U
    很稳定,质量不错,好像最多一次处理15页。; d* B4 g1 l% u7 D3 I( [5 B3 w
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 2874 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。3 b/ }& N# |/ s4 g
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。/ I2 b& c! q+ [: T5 B$ j+ U+ p
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。% k( |5 h4 |$ }5 G0 ?: E* Y/ _- L

    , n- i- L% c* [- ^: Z8 `https://github.com/oomol-lab/pdf-craft3 c% A5 ^& G2 b$ E) N. t

    5 _5 B! _7 a2 ~* T1. 这个工具要求装 python3.10
      h5 Y* Q. X  B9 H2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    1 j  i* }$ w, M9 x- S. z3. pip install pdf-craft
    , ]) o" G" J3 E4 E" P" k6 [4 C4. 把下面的内容写到一个文件里,例如 a.py3 ?5 M$ ]' @/ d' R
    9 j+ G3 ~. X! j+ Z
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      6 L  y! g$ T$ n7 T; w4 p9 Q$ `
    2. 7 k1 @5 w8 x1 M  \& k
    3. extractor = PDFPageExtractor(0 K$ X1 V% [# b( m' I$ ^; R# O
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      : \4 A" x5 k4 k9 D
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed* c) r) R8 [0 n; P: O' D  z
    6. )
      3 F8 w% T, v6 i4 _% Q7 `
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
        w4 h% n! B! }
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      8 Y; C$ F$ }- N& a. U9 }  n8 u3 R: V7 Z1 n
    9.     md.write(block)
    复制代码

    ' x. L2 Y& S) [; \4 l$ n3 x  h( z- T; V' U
    要修改的内容:
    ( G9 o( j+ ~( _3 E: l8 m0 M* b4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    ' a' h; r4 a) m5 ]5 A* f/ t- l/ c) ^4.2 markdown_path:输出的 markdown 路径文件名- e" m- w6 x8 H  }
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名8 D  ]# c# U- z7 T* {
    ! S4 ^# K3 Y% X* }" ]' n
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    . O1 |3 N" l2 }, W! F- l$ p: C  ^  I1 p5 e$ w$ j9 f/ ?% C
    目前为止PDF转纯文字的最佳办法。
    1 A4 T$ a7 q$ P' r$ |先写个小程序,把PDF按章节切成小的PDF。
    5 d- m; U$ b4 h) U# ]然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    & M5 x% \% t5 d效果非常好。
    # e0 ?% g7 H. w- O9 R3 s# L) n- Z) u' ]* C; |
    deepseek,qwen,chatgpt 三个,deepseek是最好的。' q" Y8 e4 M- P+ q5 _; W

    ' c# P& W2 l# K0 H7 U' _8 ]deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    & X6 R1 g, Q1 M& M; y而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    " |( A+ J* ^% t+ ?* o: \6 V% M我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    . V' x3 D+ `3 x7 L6 ~( c$ a5 m4 u! E& d* Z4 v
    API到目前为止,差强人意,不如网页版本修得干净。/ t; X0 S+ H. U+ B1 K5 G, T9 e
    ! ~- A/ j5 H0 ?6 B8 O1 [8 |
    deepseek可以同时开四个。3 D; X1 p% A. V. o. x2 N* u

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    4 y: J. {0 `& j* A' P9 X! [# M( m* |. y4 }9 G
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:261 J$ Y# |+ ^1 e4 F9 Q' Z
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    % M# X; N$ B* n2 }+ E细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33% H" u1 U% A" m2 o4 X
    细说一下,听上去很不错,多谢。
    ; p  i1 [3 P" R( q+ e. P
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 T3 Z* h- J) f9 ?

    / q1 u! U. ^' \' e- G" ?已经搞定.
    2 o' h3 O) R; G* G- g  r/ F0 F% z& m
    ' L; ~& W% ]) W/ B0 U首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
      s$ u( i; j0 v+ G; P4 X3 ?) x, m
    1, python + pypdf 按章节拆分小的PDF9 J- X  ]# f6 \9 m0 H
    2 _9 J& W1 o$ U
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile) Z. I4 P; O3 _& m4 w* ~
    % s2 ^+ |. \3 V' f2 A  _& I
    得到text file6 i! S, `1 o. e* s$ f3 }

    ; E* z5 `8 x8 u/ d7 `  v0 t3, python 读取整个outputfile,丢给deepseek 矫正。' M/ Y1 C: H6 ]! Y
    * O9 r4 @2 H" J1 z4 Q, v; [
    模型是 deepseek-chat9 B+ \- G) f# r7 |; u; ^6 O) a. `
    1 A9 b8 k# Y+ d& b3 X
    max_tokens 最大是 8192,别的不用改。1 R+ H- r7 z9 Q! |  P

    ; a8 b# o- v. j" b6 X参考:
    $ T. I: c# |3 t# ?https://api-docs.deepseek.com/api/create-chat-completion
    . b; F5 K1 y: N# ]+ c6 b8 y  j+ P
    8 W1 l* ?7 i$ j- r4,费用:/ s; X' f" ~7 G

    ' q1 J0 E8 C9 C实测:
    + x3 R5 \  B  ~8 W6 U' u/ l$ a! E. p# d' e1 c" n& Z! b
    296K 字母,用了 9 美分。' O4 _' B' K' k) {% ^
    7 L( B. U( k  D1 Y8 W6 Y# I. v
    英文字母 到 token 用量大约 1/3
      ]2 j! S, l$ Q1 ^/ l* c
    3 g+ [. e3 [3 G& M3 j8 |  Etokens: total, 11782 completion,  3729 prompt,  8053 | s:  328990 q5 e" u. `  z, u9 b1 C7 w

    ' U, j, O$ `) D6 @32899 个字母花费 11782 tokens,包含输入输出的 tokens2 a/ g. O) k) t; @/ Y
    0 `; x8 l' z7 I/ q9 @2 V, v4 D
    价钱,非常非常便宜了。
    3 p7 A3 X; g7 b; E/ \+ D% _+ L; K( T  ^  i7 E( Q" c6 E- h
    参考如下可以计算,懒得算了。
    / c/ N" X- F' n3 M+ x# m) n# Q2 E6 L5 N
    https://api-docs.deepseek.com/quick_start/pricing. J+ s7 |) b1 q) Y9 p

    ' l7 q: x; @9 f0 {2 A1 \1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ( `, S* C- W1 h7 U/ z' V: ?/ t1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    8 G" B) n8 r5 A6 c5 |- {4 ~, ?; Y7 `8 E1M TOKENS OUTPUT(5)                                              $1.10                $2.192 ~/ p' @7 \' y3 m

    0 E" g% c# {: {7 ~! w5, Balance
    , L% C/ g, B4 H: F, K2 z5 R
    - t. x! ]+ v0 t+ S, _; i5 k- y/ d1 S) B. X可以在程序里调用,知道每次运行结束后,balance还剩多少。9 ?* \9 w8 f3 \
    参考:# }" A' ^! _' j$ b" W3 Z2 {, Y( E$ s
    https://api-docs.deepseek.com/api/get-user-balance, [: `' X$ z# ]+ R
    ) g( O/ v- a9 v
    6, Models
      x& Q9 q. I9 I. Q
    ) F5 ]3 H' {8 u' S4 Z6 Z目前就两个, ]6 b/ Q& F2 l' R+ c8 q$ |" l8 m
    # deepseek-chat
    7 F5 c; m/ A' `/ b# deepseek-reasoner
    & y( o/ b5 T3 \5 x
    7 E! {  F, U; b! ~) Q参考:
    : V$ H& ?* j- p! Whttps://api-docs.deepseek.com/api/list-models! X% v, }3 a) [: v8 x: I, G; K6 Q
    . d. K  M% n2 ?+ [8 J% }2 {4 z

    1 q- \2 W$ J) \1 l7, 问题9 x( _$ E* c0 W+ X

    ; Z* h5 \2 s6 b7 a& J1 e; o/ Tdeepseek 会将前后两段合成一段。
    ! `6 ]. I" `. O+ u/ H特别是那种大量的对话的段落,deepseek会给你合成一大段。6 a0 G3 ^+ g: m4 B# {1 Q
    , D6 S5 [2 Y/ d2 O4 Q
    8, 钱说了算。
    ( |- D# m+ H. I, _$ K! Z) c' A+ R" F: t8 A4 {; c" u6 V
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。- Q2 ]) O9 f  j- \+ V( R* X  v! s
    但是API就不会出现这种情况,毕竟我们给钱了。
    " V" L' `# a- H% i$ g; P' `7 Dchatgpt也是这样的。3 a% O8 @$ }$ R' f' W
    0 D, H8 }& V9 n0 I) R  I8 ?3 B% U  G) `
    & A5 i" a" h* X& G1 d) O

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-3 03:36 , Processed in 0.036492 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表