设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2435|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 ' b8 g3 f4 D' v2 `% Z. S0 y+ P% Z6 J+ F

  L: [; u2 o0 T7 l5 _) D& X把PDF上传,然后让他抓取文字,并修改可能的错误。
) o& Z  e  F5 b& v然后deepseek完美的完成了任务。
! J! S) B: o8 d/ X0 T. A: t段落清楚,列清楚,页眉页脚全部去掉。
' C: f. f& G  \  _我要疯掉了!5 c* {4 V, k, C
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!1 I& w  Q6 |5 g1 s# }* s" W' z
====9 Y8 q8 I2 W; n: }9 c7 M
中文也很完美。4 g3 Z$ `( h, {8 u7 l; z+ S0 y
经验值,每次十页比较稳定。
3 N& z8 u$ }4 g( w3 {: ?7 t  r2 @现在我这里API还不能用,等恢复了,全自动了。/ b* I) x0 q) P. _0 ^% I* ^% w
====
) c8 q5 q% @% U) o第二次疯掉了!
) a! D9 ?9 o4 ~6 j我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。2 P/ j! e" _5 U$ m6 m
====& l/ z3 _; y8 ^, f
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。6 q9 y# a& r# ?( _
但是任务多了后,每次翻译的页面数是减少的。; g# i4 c+ |, @$ j
好吧,我五体投地,继续探索。! m& b. M% z% M. R+ X
====
4 [5 \$ g% [3 m8 C为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。% [/ n$ [, E+ a5 `
====) z1 V1 i9 v2 A; c: M
好吧,有些东西是不给翻译的,哈哈。
& J, b: P$ j6 B6 T" u/ ^. F& e+ j  ^( H8 x% J8 b+ @# ~* c3 s
Sorry, that's beyond my current scope. Let’s talk about something else.0 L$ K4 b5 j, x; J9 I, R
====* {  H/ @9 }( ?3 F% Q
然后我的英文命令也让deepseek 帮我修改,呵呵。( G0 w; O+ u- J
====6 T3 d. V7 ~$ M7 ^* k4 p3 |4 b
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
8 {# Z9 M6 Q; t3 M====3 i: ?2 S4 w9 g% z* u; A
时间段的话,北京时间的下午和晚上用比较好。
3 j2 l  H8 q5 }' C后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
. L5 d) I/ [9 u% E. E* d====
4 X8 ~8 ?, W* w用千问吧,非常稳定,非常强大。( o: `6 w7 U5 V1 h
https://chat.qwenlm.ai/
0 }  |6 ^, Q1 Y  r====# {7 U! H" F  B4 \( U2 L
Deepseek,API 看上去可用了,但是不给充钱。
1 i" p- `7 |8 v8 R" W- B0 ]# G
& H- Y0 @8 g" E
' r/ Y# |6 p4 F: ?1 {. n2 L& I) q; F8 O& O6 a3 w

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3638 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53$ A5 G6 f" y* \* D( [
    这功能很赞呀
    ( ~2 A! v8 R$ W
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13- B$ [1 J! v2 ~/ M3 E4 F2 ~. Y
    有没有上传整本书试试
    & S& F8 ~- R5 U/ ]
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3638 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    : r$ D5 v4 p; b2 K( @) T% @& o# t3 K, s/ z/ R. H7 @
    以后让deepseek 读出土的竹简
    & e6 [- x/ u9 S) h! P: y( d
    * r/ r5 ]" U: c还有把古文翻译成现代白话
    . k5 P) Z6 E* R4 U1 C" R% Z3 n8 n; ]# l* }6 D
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2800 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?3 O. G& h4 z' s

    ! m! B2 r& y4 H$ y我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    + `2 i, ^+ j+ G& B3 Z, `请教是如何实现的?
    2 e9 Z- |7 v7 X; ^8 {* W
    # l8 n4 y7 m9 i我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    4 x; j, y) F+ }1 m* P. d/ R$ ^# j+ X" `; }. h
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。1 v9 i8 e  |, {
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。; @2 X  M4 ~4 J
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    0 a1 P& M8 H1 w! }

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:236 y$ ]8 @* Q$ M% m. U* }/ |
    请教是如何实现的?
    0 j' f$ k8 r5 J$ J0 B, _! l" {" D2 h$ x/ b7 W
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    2 ^8 @* a1 q. x# ^$ Q3 R" K! |https://chat.qwenlm.ai/0 \4 t5 R/ B' V" A  n
    试一下千问,估计美国人没有攻击他,所以资源敞开用。' y8 g9 ?7 [: K/ H% _" [6 v% |
    很稳定,质量不错,好像最多一次处理15页。, p0 P; q/ a/ p% u7 N5 c
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 2916 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ! Q9 O+ [3 a* Y+ K; m: Z" j$ {处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。6 |* ?% ?) k. b( a
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。! B: [$ `: D+ u; B; K7 Q
    1 W6 R) X% ?. x; L+ u
    https://github.com/oomol-lab/pdf-craft# _& J! u2 e3 P4 n9 I/ s1 g

    0 G9 T* d1 B, l: o4 C6 b* I* E1. 这个工具要求装 python3.10
    # y5 z0 ?+ o) q2 r! ^2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    : O! U  j) P, ~- }4 Q5 r- w- ?3. pip install pdf-craft
    2 a) ?/ C) y2 b9 K  j3 x4. 把下面的内容写到一个文件里,例如 a.py
    - l5 |) f" p7 x0 N5 t0 A. g* I" i2 }- ?1 W6 P
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter, u' K6 J- e2 @8 K7 t/ `

    2. " L) q* T9 c5 E- O. @
    3. extractor = PDFPageExtractor(, g. X( ~$ G+ ?+ N2 e. W# k
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.  w  f' n2 B+ P* A: H; C- P" i8 D2 q
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      0 O3 C3 A8 F+ c, K4 A: b
    6. )% ?" [8 H* M* b3 B$ B3 j# J
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:, ^% H) u- n7 I
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):, m9 z- l3 G8 Y- W1 ^
    9.     md.write(block)
    复制代码

    0 e7 o4 S4 n! {- E( Z" F+ ]7 i* x  n: A$ o
    要修改的内容:$ U1 ?$ D( @6 [  p6 _* S6 W  o
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
      W6 x; x& i6 o- J8 w. K6 Q4.2 markdown_path:输出的 markdown 路径文件名
    % y9 a$ [% N' i/ Z& @: R; U2 ?4 s: ]  f4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    + t! r% O& |9 D0 n5 q) o- C! z# m. q
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 . G  D& _' s/ f- I

    1 b1 o% V3 C$ v) m  O  j" i目前为止PDF转纯文字的最佳办法。2 S! c! O2 s. o8 h( r9 Y4 \
    先写个小程序,把PDF按章节切成小的PDF。
    , c  G1 n  T1 z' p然后,把PDF一个个传到deepseek,让她抓取,除错,输出。2 Y/ t1 a+ Z; P; x* T+ S
    效果非常好。
    & D! \  |$ H! B* O+ f3 g7 x- E5 I9 @0 h1 B0 h
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    / f2 y. X% D3 F# ^% K' z
    6 z# J6 t( `* {* G9 T) Ndeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。1 ~/ r0 V  O6 H* X: m  u+ W: W! _- W, Y
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    / N# j0 z6 I- n我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。# n" N+ D7 x0 p1 Y$ U0 K
    1 L$ g( A- M! K
    API到目前为止,差强人意,不如网页版本修得干净。
    , i+ ?: M3 ?. m+ R* B" J( j
    , d9 A# }7 [5 Ydeepseek可以同时开四个。/ t0 {9 z( S6 A2 i' t+ [4 T

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    ) Y& o$ J- i7 p# e, L% ^% |
    1 B' u) H# N& M5 e: b让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:265 m5 n4 Y3 m( s# j
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    . ?* z* j6 Q5 S3 c5 z7 \$ q
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    : v! ?6 Q  g2 i+ t  p( j) D2 X" b7 Z细说一下,听上去很不错,多谢。
    8 X+ X# ~( b+ e$ z+ w- M
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 h2 @- f' Z& d% s( l: c

      |8 \+ i( K& k6 ^1 R# p' v3 f已经搞定.) R' x* X) w2 ^8 b
    : z6 Z& L+ j! R4 P2 w* _4 _/ X
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    $ C8 L/ o# F; J% A& h, ]6 r/ n
    ' O7 d5 Z8 b. G" `% b1, python + pypdf 按章节拆分小的PDF3 J1 D$ r" D8 ]- ~8 }; {5 p

    . m' h, Y7 x+ P' W# [7 X2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    7 Q8 S% R+ B' D7 E  e% m, }
    9 ^, ]; Y; U4 M0 z# }  b得到text file8 z- U- k/ m: _$ N) U% t
    ! Q! m3 M: X5 S8 a5 l" x
    3, python 读取整个outputfile,丢给deepseek 矫正。8 l$ _* m4 F" V% H4 j
    ; {; ?. f$ v, y* h
    模型是 deepseek-chat0 M2 t/ l/ A6 F0 h) W
    . M% h# i+ p$ ~7 [6 H) p. h; E! b  }
    max_tokens 最大是 8192,别的不用改。
    4 e- m- j; z3 {& u0 _0 o, B, x9 E, O2 ^" M' O  S( e
    参考:6 k8 g; ]/ u+ I2 J" B, x/ H# @& v3 D
    https://api-docs.deepseek.com/api/create-chat-completion* t& I- ~+ Y' r0 I
    7 j1 r- n/ q7 \6 D; f) n
    4,费用:0 f# Q6 S  g4 z- `/ Y6 L

    4 P' }' j2 l; @* o: e, g% g实测:
    ! y! z8 U0 }) e  ]+ g; i; t
    3 \3 e" o( o  O. g1 T; u+ Z296K 字母,用了 9 美分。
    + }. X1 J  N+ l2 K/ x. H
    ; m! l" w3 }* J& e+ G英文字母 到 token 用量大约 1/3+ T3 N' I3 f; N

    8 W; @9 B0 E; R5 Wtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    - r+ x% z. \5 U# N& y3 Z. G1 ?/ C2 K& A) @# b) ^' n) X4 r
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    : x; K; ^& f' M" h
    9 j$ M  @( i, X" E0 f9 q价钱,非常非常便宜了。
    ' w) R4 o* }; Q6 m1 `+ D/ @
    + ]/ E) m. B3 x参考如下可以计算,懒得算了。+ P: x  B. d9 R8 w( ^5 n& w
    " B' |5 v$ Z, T
    https://api-docs.deepseek.com/quick_start/pricing% R- L; m8 w% k9 ^# \" Q
    ) b4 K) p8 R- s& U% d
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.148 l7 A. ?2 b3 j. q
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55' R  W$ y- T1 o: U' E
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    % F; Q) t" c7 X4 @  a8 x
    1 l. f, d) l! A+ {$ h2 t5, Balance
    % _/ N8 p' a; z6 r" a
    - X5 @& B& e! S3 h! l, i可以在程序里调用,知道每次运行结束后,balance还剩多少。
    & D* h, E2 Z! S% t4 O参考:/ S& I" A9 O3 r4 j& a/ `2 J
    https://api-docs.deepseek.com/api/get-user-balance$ d  N- G6 |. J* i7 H2 H; `

    $ b" O5 m1 V8 n6, Models
    % k* w# K9 U- [: C% A/ Q/ y) j4 |1 f
    目前就两个) ~; H% M2 Y9 r8 A3 n4 f( @) r! I
    # deepseek-chat% y, n- u0 ]5 k3 x1 |- E9 q
    # deepseek-reasoner, ]6 a# T5 K8 V9 o, ^4 K
    ( f+ e; P1 ]+ I* q/ d* D
    参考:
    " D' @9 y8 l6 w# t- b6 v) V0 uhttps://api-docs.deepseek.com/api/list-models
    3 P3 B+ _$ x: Y1 e) f2 m! B, x- e* }4 J, L
    5 H* Z* ]) e. c/ `" I
    7, 问题4 n- i! d7 i6 s9 W" r- p' A, [

    7 n7 C9 Q" K- v  W. L8 B& Gdeepseek 会将前后两段合成一段。: B7 l1 ?7 O6 j, o4 n1 o
    特别是那种大量的对话的段落,deepseek会给你合成一大段。
    : n8 k0 o# k* T7 Y: q& T+ A
    ' T  K% O$ H4 ]( X8, 钱说了算。
    , c5 q9 X) z, z6 Q) n$ K) l. ~2 x/ j( e. ~( Z; Q
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    : k! K: F3 `) t( M! X0 B但是API就不会出现这种情况,毕竟我们给钱了。: p: Q' c5 j, d3 K) u7 |+ b
    chatgpt也是这样的。) l' k6 y* I% F

    / E  K+ O4 s# w& ~/ L
    - g9 s1 o! \, _4 H

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-18 12:13 , Processed in 0.077936 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表