设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1502|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑   X' s% e3 u$ h: d. J) K, i3 X

6 o% E# D* R4 U, F) n9 ], C7 r把PDF上传,然后让他抓取文字,并修改可能的错误。
- U8 X2 @0 [% @& e. i# F6 N然后deepseek完美的完成了任务。
2 d( D& J/ S2 L/ Y; t' s2 u' S段落清楚,列清楚,页眉页脚全部去掉。, d4 V, v* i% z  @2 _: ]. w% }
我要疯掉了!0 w0 i* c9 R  h$ T; l1 o1 W
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
0 S. {$ k. x& [3 Z' C====
7 @& w- }0 v1 Z/ K" c中文也很完美。+ f- j" j) S0 n3 ]
经验值,每次十页比较稳定。
( p4 k9 ^, d# h# e; O2 k& R现在我这里API还不能用,等恢复了,全自动了。
# z% K9 U8 J9 x, d* A1 L+ X====7 N7 w& z% B; P1 Z
第二次疯掉了!* s- ^; t. ]0 b9 ^5 L' x, _
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。* U! X2 P7 E2 S4 q" `
====
$ w0 G7 X) q+ i现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。+ l% |3 m& I2 }
但是任务多了后,每次翻译的页面数是减少的。  X+ w& H- Y1 F" z! J
好吧,我五体投地,继续探索。
( M; ~/ P4 O2 k; l$ N5 h. ]====3 U& D7 V. V# L$ p, f, Y0 n  V: u
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
4 _& G# p6 ^# R6 l  D: ]& D& P====
# u- A, m& m1 l  d% t6 G, ]好吧,有些东西是不给翻译的,哈哈。  u+ E  X/ M5 m" I5 R

& J7 N* Q+ r. E$ ~Sorry, that's beyond my current scope. Let’s talk about something else.
. v7 q, F0 O3 S  Y3 ~, I====. C$ I$ U* L7 I& B) v) x  K  p* _
然后我的英文命令也让deepseek 帮我修改,呵呵。% Q4 s' r" d& i" b( Y: S
====
$ W$ M  a2 Z; d! u' [8 C5 b日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
, u7 F! t' u0 h- e* [# w* |====+ L  z+ d; Y7 q
时间段的话,北京时间的下午和晚上用比较好。
  _; x! D6 V  o8 i% s# x后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
  U; p# U: k# z& O) Q$ }====
/ d) B% C5 p. `  R) d$ N用千问吧,非常稳定,非常强大。% k6 ~# x3 p# q( W6 G
https://chat.qwenlm.ai/% k; c% M, P' w2 F" a
====( ~5 \) |" B2 j6 V# R4 K" d; R* V
Deepseek,API 看上去可用了,但是不给充钱。9 J! _: K3 x3 e( D# C# S$ r' h4 V
, S# ~) |( X" N2 {4 \2 s
7 Z) x- e6 F9 X  I" E/ P
6 Y) E& h6 |  q6 g

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3484 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    / K8 H3 h: `" A! w8 `这功能很赞呀
    8 x0 H% E# t1 u# ~# G6 d2 U
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    + s# A. ^6 f3 F1 L有没有上传整本书试试
    / l. ~/ j7 C9 y( q: N: J1 ^
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3484 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 3 B# s; r1 h3 h- Y

    & X& S2 j/ Z% E& O( e' M+ y# I5 b2 p以后让deepseek 读出土的竹简
    $ J& F" S4 c6 I) e
    9 _3 b- M' u0 \+ Y  d- D还有把古文翻译成现代白话
    ) L1 ~9 k: }% N1 g- G$ T) K) [* U" a% T  A7 S0 O0 U
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    14 小时前
  • 签到天数: 2635 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    6 k2 C7 C7 E. V1 A' t5 A" T6 ]
    ) H+ Z" ~% N, d! m4 Q, @我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23; o+ g$ b5 Q( d% {' t+ R7 u
    请教是如何实现的?# h3 q, K, U4 m& G# w# ^

    . q) {( f3 |! E  K+ F4 T) q4 [8 ^$ ^我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    + m& d% s, ?% x

    6 ]; ^/ C8 r, `我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    1 w! @8 S( Q8 T1 ]0 ~文字之类的没问题。估计deepseek现在暂时只保证主要功能。
      `% M4 b. R% Y美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。$ z; Y5 c" {6 K9 S+ C  K

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    5 V; Q4 V9 J+ s' z  n$ U请教是如何实现的?
    5 M8 ?( V% ^0 D3 m$ W) I
    0 @  c7 D9 h, }我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    $ F+ F% W. x# ]% ahttps://chat.qwenlm.ai/
    3 q' ]2 S9 ?, _( G0 l! c3 |# }试一下千问,估计美国人没有攻击他,所以资源敞开用。# B; C1 k* q& s+ ^* n( v1 T
    很稳定,质量不错,好像最多一次处理15页。* C+ a- {' U, @( E
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 2776 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。6 x( ?" J/ S+ ]1 K9 K7 L
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    # A1 ?/ {4 O- l" r这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    7 H( {- s6 B4 t" U' k& D/ s( T' {' |
    https://github.com/oomol-lab/pdf-craft
    - N3 m1 ~3 H/ z- L$ N7 ~* V6 ?# C3 Y
    1. 这个工具要求装 python3.10
    % u+ b4 w/ W& f% j& S2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    1 s" ?3 s! q8 k8 x( Z" r3. pip install pdf-craft2 Q8 a9 {% V/ c" q+ j3 i1 g
    4. 把下面的内容写到一个文件里,例如 a.py5 t: M* s$ J# r* C& h
    0 }  X( A8 @4 K4 Q
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      9 e7 l; ^' L3 @7 U. n: r

    2. . u- W, w# Q9 C" n' w7 ^1 w
    3. extractor = PDFPageExtractor(
      7 i; x/ [4 K; x' y- e0 @
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      3 P# K, l3 [( ^( j6 \
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      4 c1 U7 D$ j8 W/ o3 m" L" ~+ h
    6. )
      ' U( }4 b' }! x4 }
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:7 q* {" |, A* F/ @0 Y
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):9 d5 C" f8 t0 x* b, r
    9.     md.write(block)
    复制代码
    5 z9 R4 g( _/ s" Z' b) a7 K- ^
    6 A, \- O& K+ b. w4 z
    要修改的内容:
    0 i/ B1 U- Q0 A" _9 b  f! K4 E, U4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    7 M# \. V3 S# R0 Z  [4 Z4.2 markdown_path:输出的 markdown 路径文件名
    # j2 N8 X8 d* C. o6 y- C4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    4 A5 @$ Y* A2 E2 ]- y" F+ b! J9 N
    # a) i) ~! Z8 ?% n- N6 h7 p7 M5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    3 i. Y4 r5 R7 ?) G8 M7 h9 u8 y  ^; h5 o& `9 t' z: P
    目前为止PDF转纯文字的最佳办法。4 E& \- F4 w$ y  G* U
    先写个小程序,把PDF按章节切成小的PDF。
    ; X) w0 K! `# B' t) P" a然后,把PDF一个个传到deepseek,让她抓取,除错,输出。5 |$ }( C& v# h& l6 _
    效果非常好。
    ' T/ z! U1 Q. C) G  W/ B% U$ H: P2 J/ A/ S+ O9 ]
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    : ~6 w( w2 C; r  U
    3 j6 i1 V1 H+ N) vdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。. a/ |( r# k% D6 f
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    4 J, o: L6 L4 Z) m5 S我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。4 v  l( Y  A& F

    + k- y( w5 y" \/ m! OAPI到目前为止,差强人意,不如网页版本修得干净。9 k) L# h, [  t, r
    " j+ @* B6 P* Q+ v8 n; r3 S
    deepseek可以同时开四个。
    ; q  ~% ~) `0 C7 [' l

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ) w! h1 A4 R! f! j7 b
    4 E5 {, r3 M. x, d
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    , z' \3 f2 R9 v3 X" K, R让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    , U# l/ e7 l1 S" P
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    & j4 B1 m$ N: N细说一下,听上去很不错,多谢。

    " R) {' O3 j* i+ p3 X2 ~8 p! [& _  x5 n直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 ^- T+ s% a; c! m. ~
    3 A& f) o4 `1 J! p8 T  Z! @) l$ i2 C
    已经搞定.
    1 }' ~" v1 v+ W0 n
    : Q( O' e& |- f1 H, w# D5 H首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    7 E9 a: S2 ~2 i3 C, _+ q
    2 b, @# N/ Y4 X2 o7 s1, python + pypdf 按章节拆分小的PDF; M* }* Q- ]4 ~/ ~

    . Y$ L; O# W0 ?9 M/ w+ {; L2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ( U' ~+ r: Q6 y* F4 O* b! L: i  a9 F
    % k2 k+ M; `4 s2 W4 v4 A得到text file9 @$ H& y2 @. ~
    & {* `7 w8 E7 t; e( b4 V7 `5 k
    3, python 读取整个outputfile,丢给deepseek 矫正。2 C. t8 g1 @6 K+ _
    6 l5 H' J# Q/ ^+ i5 F5 X
    模型是 deepseek-chat
    - S9 y0 ?' l& f' u9 d9 u6 Z7 C2 u  \% n( B" \: M
    max_tokens 最大是 8192,别的不用改。4 H0 e" f7 e2 g3 X6 q
    ! N% g$ A/ |0 t/ }4 ?% j' G
    参考:+ F' o$ g) l$ Q" }8 ^# [
    https://api-docs.deepseek.com/api/create-chat-completion
    : N# [3 k- P2 j% d0 C
    8 a' P0 x2 j1 U& R( Z1 @- p8 p  @* t4,费用:1 b, j% q) M) i/ u
    7 \2 |  a. Q1 f" h9 Z% C
    实测:
    ' b4 _, v( E- z2 M7 U% c% h* F: B+ u2 ^
    296K 字母,用了 9 美分。, U5 U) }. q; w9 X
    ( _5 y( @; m) z; k' [- E, F& Z
    英文字母 到 token 用量大约 1/38 Q' c* D( i- r$ Y# l
    1 u. u* Q; y3 e" _. O4 j6 l
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899' H+ x( o* _1 G5 y  I, e6 l( q0 _5 T

    2 }( z; [* a) @9 _2 w9 v: q32899 个字母花费 11782 tokens,包含输入输出的 tokens- n" P+ j1 M# J1 Q
    ) _# d) g. q0 ~: i) @- U  N1 T
    价钱,非常非常便宜了。
    4 ?; X9 H; B: }+ S
    1 Z1 W# n) S1 t3 p9 v参考如下可以计算,懒得算了。
    . p5 |; ?+ r- o6 ?- y% q$ m0 n- p0 [2 g
    https://api-docs.deepseek.com/quick_start/pricing/ P+ _, E, D. k4 v$ Y
    ; X+ J9 y" f4 }! n+ d- v
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14  v; O; ^5 S2 K' X
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    1 B, [8 m/ \9 j: e: e- y8 z1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    , ~2 G. [6 E& E% I1 k  [# A. O9 m  ~# ~2 \& J0 H. R! l) f5 q
    5, Balance, X$ G6 [9 u0 W" g: c6 E

    ! Z( v* F( U6 W! O可以在程序里调用,知道每次运行结束后,balance还剩多少。! H9 `/ ~( v6 C2 C. @7 S
    参考:6 h2 U5 u% L9 k
    https://api-docs.deepseek.com/api/get-user-balance
    0 Q3 K, v* ?* x& [1 x5 H3 }. |
    2 I$ d% T. a3 A  I6, Models
    4 i: c/ b2 O2 ]5 F2 V6 q7 J, G3 j4 z" c4 ~/ [
    目前就两个3 G- G) ~! T" O8 P+ [
    # deepseek-chat
    7 H4 d9 m& S4 I, G) g$ M# deepseek-reasoner
    ! }5 Y8 [- ~4 i: }9 W5 a2 V+ L; j
    ! s# \! i! }9 B参考:
    1 ]5 x4 U7 K) t3 l8 y8 T3 }  Ehttps://api-docs.deepseek.com/api/list-models) g) ]3 z5 O" i) i% @
    2 I9 z. K+ A) Q+ y9 H. @
    . d, k' R6 E* e7 u+ B  t; Q+ c
    7, 问题2 y! C/ D5 P7 Z9 J) G: Q
    . r7 |- ]6 k8 {7 z+ j# V
    deepseek 会将前后两段合成一段。1 P3 J5 S6 y  K+ M0 ^* H& k. E* q# q
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    0 r, A4 T7 q3 f0 m- o: E( U0 f) Q+ v7 w6 I5 m) {7 u
    8, 钱说了算。
    , N) D$ ?. y+ E: n  a. f( Q7 u5 R! ^
    7 v6 ]$ C; U( N4 y9 j5 _deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ! E  n2 `4 F0 j/ x. f但是API就不会出现这种情况,毕竟我们给钱了。; a; \: v0 c2 O* {6 R
    chatgpt也是这样的。
    # D, U6 w. _7 J1 c% Y
    ! O8 F3 B7 B2 c* t2 g9 \" |( x( ?- i0 _  O# L3 y% c2 X5 o

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-6-18 15:01 , Processed in 0.053710 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表