设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2391|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 4 n% p& O5 F: x: I, M  Y
4 l# T# Q8 t3 \/ L- r
把PDF上传,然后让他抓取文字,并修改可能的错误。
) N; w, x0 t0 j3 |1 j* ]1 |& C然后deepseek完美的完成了任务。+ K/ |+ i; B7 w6 h1 p* ^
段落清楚,列清楚,页眉页脚全部去掉。
: [+ x' v# y( m, Q$ c我要疯掉了!
% Z+ m) j" c9 w% \% a: I2 R赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
; s# `/ q# Q5 D' b7 U6 x  C1 y====& y# i& I) H* E7 Z( S( |8 t6 t
中文也很完美。
4 M7 @( g& i; q8 e" g1 t( A& ~经验值,每次十页比较稳定。
( [' ^4 e4 z6 G0 r8 i. ?现在我这里API还不能用,等恢复了,全自动了。
  R7 X) D! |( [4 y& ~' ]0 |====
$ G' q) [8 Y/ A0 C第二次疯掉了!
1 _# |$ {1 Y4 s+ {我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。( _5 b/ [; K3 Y+ \- g! `  i: l
====
1 C, h0 D8 q# O2 ]" ^, ~5 |现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
& T9 X9 v) Q" `4 q+ O* T; A但是任务多了后,每次翻译的页面数是减少的。
6 k% L3 h: @% d& a6 A* x- z" b' M$ S好吧,我五体投地,继续探索。
6 S% n( h1 c; t# H5 Z* i2 v====
1 P6 s8 w- P; ~3 s9 c为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。( l9 Y# x& H& ]7 R) |! G
====
& Z$ O: n+ N8 W0 ~. L好吧,有些东西是不给翻译的,哈哈。
2 z( {& O6 T6 [' B0 ~4 M+ R; Z: Z* ]$ W0 x; L# n) o$ K  p
Sorry, that's beyond my current scope. Let’s talk about something else.. g+ p; @+ ^& S2 `) a
====
, v7 X+ ]% F- G4 Z, J然后我的英文命令也让deepseek 帮我修改,呵呵。
& H! Q, F9 N: ]: H& L====4 C# M3 K3 B! |0 r
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
8 ?- ]5 I6 t3 r/ S" c6 q! E8 }====
+ I! U! y7 N: ]* R# i' u时间段的话,北京时间的下午和晚上用比较好。
' \' R/ e- j3 \: k8 U4 {* J. q0 p后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
+ n9 |  Z2 D- r6 s; S====
8 p' w: k) Z' s" H# T3 x用千问吧,非常稳定,非常强大。
2 o+ Y. P2 b6 Jhttps://chat.qwenlm.ai/
- H) p; M; b1 T8 E5 {====
; h" C0 F! x6 U6 P/ gDeepseek,API 看上去可用了,但是不给充钱。
: I" {2 K! G; J  s7 M, M8 F0 i8 n' P2 r

* k8 }1 |" c  e/ D* @' a4 N( m) E  j

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3632 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53- T* h* a8 U6 p
    这功能很赞呀
    4 q. W/ @1 q# W, i/ l
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    5 @9 L9 s$ T2 t3 u有没有上传整本书试试

    ) D7 h4 S5 `: A) B4 z8 Q目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3632 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 ( s( c# U) X' r& D/ f" R0 S8 j. y
    % c# y. k8 `7 U" P$ `- p
    以后让deepseek 读出土的竹简, C; s( T4 k7 V

    9 c  Z; e) b  [7 I0 B5 ^$ y还有把古文翻译成现代白话% J; N6 Q4 O7 I- K

    # o9 r$ m  z4 v. z6 Q3 V4 N以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2795 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    , A/ Y2 r4 Q5 z3 A7 i6 {/ d. O3 M9 |
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    - Y0 k( ]. h! M( H8 D请教是如何实现的?
      a: Y) X& N. z# d1 l/ ?. C% X; m+ e9 x1 K/ y2 |# Y4 D
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    # \8 {$ W$ h+ K) D  C5 s) B
    7 H7 F- m( W, w) h我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    & N4 H6 A) `' B+ F* ]! n, @4 s文字之类的没问题。估计deepseek现在暂时只保证主要功能。0 k7 j7 K6 Y9 v0 W
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    1 ?$ k$ c0 {, R5 ]! N5 N" E

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ) o, L8 M0 T5 z2 U' c' f请教是如何实现的?; x5 \1 z3 ]1 r( P4 {( P. ?$ h) W

    ' d) C# h7 ]3 D' f" O/ y9 u/ q我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    % c5 a5 P. ^  n/ [, I! \
    https://chat.qwenlm.ai/
    ) Z$ K0 j7 z  u. ~试一下千问,估计美国人没有攻击他,所以资源敞开用。
    0 B8 ]6 j( h1 N) k% E很稳定,质量不错,好像最多一次处理15页。% j6 B5 ?3 t' M; x$ S
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 2910 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ' C7 d) P' [2 }' n/ M) L% g处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    1 H  O/ [% a* z9 d  }. K5 j这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。' M3 q' h( w" Q
    2 q6 f1 H/ B& Z+ K& e' V4 @
    https://github.com/oomol-lab/pdf-craft
    : e; F" q: W3 j! P( K; l4 g* I' v
    1. 这个工具要求装 python3.10
    7 _  a5 `, b. _; X2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0) j2 p! d, m/ ]
    3. pip install pdf-craft! I( }' K0 R6 ~6 w9 Q5 ~+ ?* K4 S
    4. 把下面的内容写到一个文件里,例如 a.py
    8 R0 b4 {2 k: M. u# t7 d: V1 M
    & y3 e0 w% ?* I5 r5 i* q6 ^6 K
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
        m% B# j6 z' Q" b; f4 _6 P" n; j' _

    2. ; t# L3 I  T1 m% ?+ V& V
    3. extractor = PDFPageExtractor(
      6 Q4 d3 X, \" Q
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      " {. S4 j$ i+ V- X3 G/ e
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed6 k3 ~0 x+ d% Z, f; f* ^$ _9 S
    6. )
      / C( Z: w' L$ m, a  }4 y6 i7 |
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:: l$ v* z# O+ X' W, y
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):' _, ]* v( Q& ^  G/ D+ Q. w; p0 n9 Z
    9.     md.write(block)
    复制代码
    6 g  Q% s/ F: m+ ]- `

    & @+ ?5 x& C( o' c要修改的内容:  u6 x# s  E/ I  Q0 s
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    ; V: h8 s3 O2 A2 `3 u4.2 markdown_path:输出的 markdown 路径文件名$ L: K& y  g/ N# }7 F
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ; o4 L) [8 a: r" e
    # W+ ]4 i. o. _) W5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 ' a# j' ~8 i/ W. `
    1 D* y& C3 z+ o, x* x1 t1 d
    目前为止PDF转纯文字的最佳办法。
    5 x$ c! U2 c5 n9 V+ n' z; j7 ]先写个小程序,把PDF按章节切成小的PDF。
    1 u( P. Z8 N2 T, }$ b然后,把PDF一个个传到deepseek,让她抓取,除错,输出。# i! f2 C0 C# Y- v
    效果非常好。
    ' k* q, c5 a/ n/ S1 L! J' N- |! f7 ~- w+ B& J  {( D: w7 W
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    . t8 p4 {3 s! ^1 Z$ l, X- E0 ^- V3 D3 z# @
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。; `& u1 u$ h( N% F7 P
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。( u7 b/ v. s2 @) a, E
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。! o# j4 {4 W$ n* [7 L/ h/ g

    5 D" R8 u8 O, k9 k# x) n: [: @API到目前为止,差强人意,不如网页版本修得干净。
    . U- J" z8 t; X- ]: x1 M  n6 y" l; r' @3 B. R7 H
    deepseek可以同时开四个。& N* C, |0 p1 V- j/ W7 i. _

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    6 H+ o! v# i2 F" r" g, W  ]# T) h
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26- ?% Z8 `- }! L) Q6 x  \* j
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ( D' B9 n( v% W4 n6 P3 r细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33$ O& P8 R' C# |) l. D3 ~
    细说一下,听上去很不错,多谢。

    8 X4 H$ e* `' N  E直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    . R- o9 V7 U! ]7 l4 o! ~3 B
    3 j- x$ ~9 W+ _; `8 ^3 i已经搞定.
      V$ t+ _+ C& ~, m1 r  U7 h8 T' ^/ u9 f
    , m* O! q6 @! W4 z首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。) t; i* z* r3 ?8 g7 C
    / I, q/ }5 R2 D1 y& \8 C; w
    1, python + pypdf 按章节拆分小的PDF4 t' x; E  D& O
    $ X5 g' Q% ^! Y& h" y: ]0 P
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    3 {  g" H6 E+ ?6 x
    3 n& G( [7 ?: a, J得到text file
    4 d2 I! j7 [6 [% n' o! ]8 W! z, B$ Y
    3, python 读取整个outputfile,丢给deepseek 矫正。& E7 A2 t8 n5 _& N! D( f
    5 X8 L# v! |) M
    模型是 deepseek-chat4 K: L6 i" U) J9 e
    . v/ E/ `8 s! Y- }3 H
    max_tokens 最大是 8192,别的不用改。
    5 _% ?0 d4 t  p( Q3 _9 u  P0 t5 b. e2 u% r. t0 T& k1 [$ d
    参考:
    , S2 g" j# _0 [. G% [) D! lhttps://api-docs.deepseek.com/api/create-chat-completion
    ; a* ^( ?2 D4 Y9 ?7 H* ^6 }, I2 a. v% L2 t7 W+ J7 j0 T" x8 p: ~
    4,费用:4 J2 T3 X. `6 o) Q' I9 N* [- ~& N

    2 G7 t- R$ V' k0 U, l9 L& _& f实测:
    ' B9 q7 m% A/ \* T5 l
    : F' q. y0 m3 P( m6 p% X" u3 y296K 字母,用了 9 美分。
    ) T  ^  {# @# q! h) {4 f
    * F: I6 [% R1 A英文字母 到 token 用量大约 1/3
    0 @! T- W; [/ k  `. }: G' t' M, f/ J
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    ; @" C  j) l$ }* N
    6 S$ |/ N* |/ E! `; I0 E7 X32899 个字母花费 11782 tokens,包含输入输出的 tokens2 m3 c4 @( i. f7 X% e8 p
    9 K2 [& S" |3 d; r
    价钱,非常非常便宜了。5 o; S* Y5 A' D$ o) J$ F" P# r3 o8 s2 m
    . [# [. {* P7 x$ z# d! v9 h" m
    参考如下可以计算,懒得算了。
    ; B9 F* s! H* T$ \
    & y% ]' ^9 _0 V0 P1 Whttps://api-docs.deepseek.com/quick_start/pricing( q0 e. t2 x3 x% |) g  I/ D2 N

    * S( }" H6 o9 i5 Y" p1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14, N' g3 X( x8 f4 r# Q
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55: m& s2 ^, T" L% {
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
      h) T# g; H- E3 S
    * J/ @8 k/ v/ k- E5 f) }5, Balance
    2 c" \# @$ u1 I$ w
    . ]$ ]! X3 I8 U1 {, q可以在程序里调用,知道每次运行结束后,balance还剩多少。
    ; C. U6 R; p' [; j1 ]参考:
    0 S5 S  G0 f: Jhttps://api-docs.deepseek.com/api/get-user-balance
    ( a- i8 E. O' Z, Y, L9 Z
    : k8 k' H5 M& X7 ~1 P8 H3 v+ I6, Models
    ) G: _  B7 \  \* [" a  M& |! }0 q
    % W  a2 u- p1 F0 H0 m/ R2 ]目前就两个
    * }0 q  Y8 h9 A" Q8 a# deepseek-chat  p# v6 p$ r6 \' ~% K4 V
    # deepseek-reasoner: I( F" t6 [. \( ?
    + J& B& Q. c- r4 K' s+ S
    参考:, H/ n. X: L6 s4 J: g5 `
    https://api-docs.deepseek.com/api/list-models
    8 W- ^$ B) x8 v$ t; O
    2 R5 o; K. ]  |" z8 U3 [' S
    - d( ]: r& f$ D" T; U* l7, 问题6 g* U5 ?. O/ q1 w* p; w# s

    % j' @) [( G# K6 |deepseek 会将前后两段合成一段。
    , C$ o$ d9 e2 m$ ~- g特别是那种大量的对话的段落,deepseek会给你合成一大段。* p4 v* X7 O+ Q8 k' @
    / L" |% ?1 a" z/ t" u9 Y! T# [( n
    8, 钱说了算。
    : a. d9 X7 R3 {# D7 Y4 L! G* Z3 W0 p$ ?) m: G
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    7 n0 }  j) I% w) R! a4 g% {6 m- e但是API就不会出现这种情况,毕竟我们给钱了。
    1 f3 b' c6 j0 s. l2 S1 M" g# ichatgpt也是这样的。# ?! o/ h7 a3 Z+ J* ?" W$ A, j
    % _* |/ n; Z0 H# B* f
    % [4 ?5 D% q, Q, ]( ]" F( |

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-12 23:48 , Processed in 0.046573 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表