设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2449|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
  d- I" a1 c9 s: z7 b7 ~
5 h) i) S' c2 s) j" f把PDF上传,然后让他抓取文字,并修改可能的错误。
! e2 A) s) x9 G7 U* Y然后deepseek完美的完成了任务。& P; e# c" V2 d1 Q! i7 r* Q
段落清楚,列清楚,页眉页脚全部去掉。
( j/ k/ [( A4 p& T' `0 `我要疯掉了!
& |7 @7 c3 G) q# l4 y赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!/ n6 O" C) |+ R, ~7 h( }
====
, G4 _, }+ u- Y8 t! ?( o$ n中文也很完美。! l! o3 M: z2 k& H- ~  s
经验值,每次十页比较稳定。
( G. Q/ T, C9 ]$ r现在我这里API还不能用,等恢复了,全自动了。( X& m4 A( C& u, [8 `$ Y+ s
====1 X( A/ ^: H8 I. o! s3 P0 G
第二次疯掉了!
3 d* i; L5 n4 T5 i/ _我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
& r1 @% ^( L* {- A====
4 i/ D8 U! o5 w8 f; l现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。$ i0 {7 ~  ~& I- T6 }" y; f3 e, p+ {
但是任务多了后,每次翻译的页面数是减少的。6 g& p, g) B" Q! Z% D' W
好吧,我五体投地,继续探索。
8 A  Z# d# }& R% l* s- O====, _  W5 j$ n, D
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。6 g; Z: f' R( O7 ]; @" y' R
====
) q7 U: s) ?5 M: }好吧,有些东西是不给翻译的,哈哈。
( i; ~1 O9 v- H7 f! G" K! L/ n7 i3 H8 c& q
Sorry, that's beyond my current scope. Let’s talk about something else.
6 Z% o% j5 T7 t====
; m# i0 b/ w, m然后我的英文命令也让deepseek 帮我修改,呵呵。
+ n$ H4 i7 w3 s5 M4 v. B+ O7 k====
' |9 R- M) V: V7 ^! e0 Z日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
( k9 x# Z8 ^. N; \& c% [* y====" |! Q% M1 q  ^3 {0 D
时间段的话,北京时间的下午和晚上用比较好。
( x1 ^9 S' |" t: l4 d后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
" F# i! Y  S5 p3 k* R====
: B9 e- p. R% n" P/ I9 t用千问吧,非常稳定,非常强大。$ m6 N- T! o% v5 u1 J
https://chat.qwenlm.ai/
- Y+ Q2 F% X; h* g! v. f+ z====+ n7 S' J2 e9 @7 B
Deepseek,API 看上去可用了,但是不给充钱。
9 c7 K) N" Y# p; e% h1 s  @7 _2 h: r5 t$ D# z
% ], Y+ D! Z6 p4 G# w

0 [! J% x2 @# Y4 Y5 C+ L. F

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3640 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    ( B/ ^+ |! O. a+ m# O; m这功能很赞呀

    . o% O- t- A7 m, c/ z$ q6 e. \. o简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13: D' g! f( i/ \, C. F* F
    有没有上传整本书试试

    ! z3 ~% ^- X' X: m目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3640 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 ( {; i5 f: _. Z

    * A% |2 ^$ f6 \5 C6 A! a以后让deepseek 读出土的竹简% M3 S6 E4 K# o6 c- ^

    , K3 \% s: @0 `8 l/ ]+ E还有把古文翻译成现代白话
    $ o0 c" Y1 a& R1 `3 z% _1 n
    9 q% N! U1 k3 n) p; w以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2802 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?2 X6 _6 @( o1 B/ B7 M6 D7 ~
    1 m+ v2 d( M, ]" u* z% q5 f
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23* U: N% _6 X0 E8 i( z/ H5 t! @1 Q
    请教是如何实现的?# A/ m3 f/ G" x

    " p* g$ t& ^) ?, x- V1 I  b0 D+ A我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    1 m) A' h8 c, Y. [0 J3 Z1 Q
    6 j7 `6 K( q* E2 M8 b6 F# L) B我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。" `% `: V' w6 k1 G/ ^( \- R1 O# g
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    7 D* E1 h& Q7 g1 R美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    " E( p' z  C7 Y( r

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23; T5 ^2 F: n! K6 E: N# R, \
    请教是如何实现的?% f# A5 q: N% t8 s' E/ Q) p
    3 L* z5 @4 Q. t# N1 O
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    / p6 ^, V# y8 S9 T
    https://chat.qwenlm.ai/* W& M) i( {- {& K- w/ t
    试一下千问,估计美国人没有攻击他,所以资源敞开用。9 B; Q  b& _7 R
    很稳定,质量不错,好像最多一次处理15页。
    ) f; `7 P% R, [/ M( g我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 2918 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    0 Y8 F2 a2 }7 }" _1 q0 ~$ L处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    4 [" b' l" ^: A7 z8 x5 v& k0 m/ o5 L这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    9 E& O: H7 u( k- J" b  Y
    ( i4 j: L. p0 g* N5 P  J% Zhttps://github.com/oomol-lab/pdf-craft" h; m/ N9 O! G( ~  V6 N0 C' n9 _& v/ C
    & J* a& {, ?& m& X7 \; F0 D7 D( p
    1. 这个工具要求装 python3.10/ q( p9 a; F6 d+ o8 z& q
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    $ j* _' F; z) _1 a- }' b3. pip install pdf-craft
    8 O+ l& U$ `8 [/ @5 E- ^2 c4. 把下面的内容写到一个文件里,例如 a.py; H% A! }& \8 Z7 o$ ]

    5 n* C3 B/ ^" c( s$ D! v/ m
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter! v  [. v9 P( _/ P6 y7 |& R
    2. * K8 C: q1 D% c: H+ R
    3. extractor = PDFPageExtractor(
      , Q5 Z8 {/ o7 U' E$ R
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.9 ?' f- }5 |, a
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      ' U( b) B6 k- k3 T
    6. )* Z8 O0 A9 L2 s6 e( H
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      ! f* ^; T+ }! C8 a" M% v6 d
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):% q1 I; Y* {% ~7 v' Q- h
    9.     md.write(block)
    复制代码

    - Z! A" e8 z" e" m- S4 K8 h4 b; d
    2 g8 K9 y9 h3 v% R0 h要修改的内容:
    # x( f7 r1 v$ O. v$ x# u4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    , ~* }' m! A7 R5 e: x4 G4.2 markdown_path:输出的 markdown 路径文件名
    9 e$ y7 f4 n+ ^6 l2 y* ~4.3 /path/to/pdf/file: 输入的源PDF路径文件名; c) M8 Z. J2 F6 }' o

    % m" F+ k. n* d& m3 R- Z5 @- U. ]5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    ) @1 w, y$ O& R$ h
    ! Z1 }: u" r$ s3 _目前为止PDF转纯文字的最佳办法。. ?8 Y! \  i- m( @7 M  X
    先写个小程序,把PDF按章节切成小的PDF。6 i: i& ?/ g) U. n" e  `7 A; X' Y- g
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。' ]) S; ^+ C8 u) F/ l$ a
    效果非常好。) I* ]* g1 U9 X7 u- }5 d3 G6 \

    , G$ `1 W5 i/ ?3 ~4 odeepseek,qwen,chatgpt 三个,deepseek是最好的。
    , k0 ~; P% }  H4 n1 p7 j8 H
    ; B. `% B5 }! B; Qdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    3 V7 ?6 X, x1 X( t( t3 K而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。6 m, X9 U4 Z1 K0 C/ e( g
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    4 D( `7 X1 Z6 d2 o7 }5 D7 \
    ; E7 ?4 [2 q/ m; i/ N, BAPI到目前为止,差强人意,不如网页版本修得干净。& I/ E& Z. k  n

    ! D, r- `, Z8 y9 b& U$ Ldeepseek可以同时开四个。* X% B4 L/ K  S

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 # g9 S" H, D* q3 q* s) R, u, X

    ( g/ G1 b1 `: Z( Y  c; \' c# O+ Z: P让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:269 _# {- `/ O1 s1 |  k
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    & w2 |3 g1 n) i: y- M2 ?细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ) I% J5 w  R+ E细说一下,听上去很不错,多谢。
    - f! Z; C( u/ F' _
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    , Z7 p2 r# t6 `# K" O' @
    0 X0 |/ U- U; N% N: ~已经搞定.$ X8 S0 v3 Z- z/ K/ ^

    # H# j3 E" H( R: F: g% Q首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    7 X# g5 H# p9 s: M1 z% ]2 B+ u7 R# K: M* Z9 H
    1, python + pypdf 按章节拆分小的PDF
    % g' Y( P0 G: f, `, h# j
    : ^% W0 _, A$ l: x2 T5 N# i2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    * r* W6 g! P* D& K# |& M( p% i3 y$ Q5 z( `: ^  V
    得到text file
    ' s/ z( k- m/ o0 n  Q: v, ?1 f$ h' B6 S) Q9 G% y9 e( C
    3, python 读取整个outputfile,丢给deepseek 矫正。
    6 E4 N, K/ O0 I; d$ y* n3 [- {+ z+ h- B  ~8 L1 z: N# X
    模型是 deepseek-chat( \: f8 o% `  b; |! J  t. X% N1 g
    7 A' a5 J/ _" A6 i* ?# K: U
    max_tokens 最大是 8192,别的不用改。
    * m# W3 ^( m" ?9 a
    0 ~8 C3 b2 ^/ u4 E  y9 J参考:' O7 W% {. ~$ }: N" w
    https://api-docs.deepseek.com/api/create-chat-completion+ [4 _2 _& `2 H. E

    , t( f5 E- K2 d% w; g9 k" U4,费用:
    / Z8 L& g& F' t8 }  G6 l9 l- x- S, X0 _8 Q
    实测:5 G8 R2 Y3 L8 R/ ~2 n; ^( h
    . ^; _3 G5 L. f0 v- k. u& y0 |
    296K 字母,用了 9 美分。
    ( C9 s3 L  e& b  R5 |) F' ~  b0 A. \+ j7 t9 I2 c6 J
    英文字母 到 token 用量大约 1/3# S& \* j; M6 R2 ]+ s5 e
    * m% G4 A# z5 |: o( B! W
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    3 h- ^8 |. m9 }0 t1 q0 }0 U; [. N; ]
    32899 个字母花费 11782 tokens,包含输入输出的 tokens: ^/ r+ F9 Q5 m  @. n$ ^# |! T$ n
    / n5 }! Q3 a! _' V5 O! |. l
    价钱,非常非常便宜了。
    / v  O" k, W' g6 M1 e  {' D7 T4 R
    % ~8 ~: \" z# t8 v参考如下可以计算,懒得算了。6 \7 C# @0 V" J8 M" O7 A, D
    9 n  u- O3 Q9 @1 q: V
    https://api-docs.deepseek.com/quick_start/pricing
    " E  e# T7 G$ S! @% F' k: x0 L7 j+ S5 k! k% c. E  Z' X
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14; x: _8 c& h+ ~( [4 O& h: L  l
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.558 M/ I. Z- }8 V/ [0 |5 Z
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19% ^, V* m: L  [2 O2 J9 x

    + E1 B5 P  E7 t: E5, Balance/ L/ R4 H2 o- L; D

    ) h: d# l9 ]# j' A+ b2 s$ C可以在程序里调用,知道每次运行结束后,balance还剩多少。' q3 w' _! b6 R( d; I
    参考:
    1 T% S* K( z6 S6 B7 A* |https://api-docs.deepseek.com/api/get-user-balance
    4 P3 U3 _$ v' f' Q% Y
    5 C( @: ?7 O/ i* m2 _6, Models
    $ u! S) V, ^4 |2 q  @' N
    . N4 R/ ~' b  k$ W目前就两个" B. l: G! M7 Z" }! F  h) L: I3 M
    # deepseek-chat
    0 A2 A7 ]1 A$ c/ ?# {. L2 r# deepseek-reasoner
    : v: ]% i1 ?, Y0 L# B' v: a( V5 {& H- U0 r, \1 f$ c5 f
    参考:1 L; E7 J5 u. z) S) O
    https://api-docs.deepseek.com/api/list-models) Z, [& }* Q! z3 f: m

    4 x! F8 X8 n2 r# Q8 E0 x) P. b" D7 ~; f# d, v
    7, 问题
    5 w, ^  P: m/ s: S9 Y2 a' Z/ I- F3 Q& O# A5 d
    deepseek 会将前后两段合成一段。) v  e& {0 d) P" R; m
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    : [4 K/ a6 a6 }( u' Q: \
    8 b) a/ M( {$ f3 G8, 钱说了算。( _( L) ~! U! G! J( j3 f

    8 O0 f5 B( p3 Odeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    , `6 B7 Q. z9 s+ m4 P5 [但是API就不会出现这种情况,毕竟我们给钱了。) K2 `1 A& p. `+ G/ Z
    chatgpt也是这样的。7 L6 _& g5 x* a0 R

    % M. b* T, b" }1 N; [6 q% j3 g& r9 D0 B, Q8 z7 `, G$ L

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-20 15:24 , Processed in 0.039009 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表