设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3251|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
3 M  R# p) p' k* @- k/ V
5 P- C8 x3 z% A把PDF上传,然后让他抓取文字,并修改可能的错误。8 \1 |- }  R+ a& r6 k: ]
然后deepseek完美的完成了任务。, A6 ?7 P  p( l
段落清楚,列清楚,页眉页脚全部去掉。
- {; i8 l( ]$ O* U  W5 Z我要疯掉了!6 w* d3 B1 H( U8 g. W, ]
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
) \) ^" H8 ?/ u1 E  P====; z6 e* J- h6 [" a$ `. }- U! I! J
中文也很完美。
; p8 V# A0 a2 y; O# Y经验值,每次十页比较稳定。
* a0 c7 Z0 [5 e# s2 }现在我这里API还不能用,等恢复了,全自动了。( ?: p( B" x4 c9 C  U' ?7 e8 I' K# b
====- W" e% A% y; L) C- p
第二次疯掉了!8 z- T5 E6 F- @: W% m! e
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。3 ]& |' K8 J" e# S  i1 O
====
5 c3 D0 z# S6 I1 }" h! f% e现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。8 |& N, D0 K5 {
但是任务多了后,每次翻译的页面数是减少的。! z0 l4 s, g6 ~: u/ H
好吧,我五体投地,继续探索。
( d" {$ ]& e4 T. J% Y+ [( s====
% B3 E- S+ _+ h5 [1 ~7 ]为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。1 v. o7 l6 P1 n$ X) V
====
: A/ w1 ^  H5 {' ?% t5 k好吧,有些东西是不给翻译的,哈哈。
1 g8 c9 [5 J2 q! j0 ?5 U3 _
4 G3 H' K" S$ i% N% HSorry, that's beyond my current scope. Let’s talk about something else.' q6 h% p  x/ X, I, r4 q6 ]
====
$ O& L  q# l. D: N8 a然后我的英文命令也让deepseek 帮我修改,呵呵。
' {" |! V7 m, g( Z' j- J& e" y, @====6 G  E! t  D) r  H* Q' V# f
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。! Q4 ^+ o3 P, p
====
4 I( Q$ o- [/ R* M+ M时间段的话,北京时间的下午和晚上用比较好。
. ~; I9 L2 y: d  `9 \后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
" o% A# p3 x3 p, p$ c====$ f( s) p0 ~; ?2 @" r& ~
用千问吧,非常稳定,非常强大。  B7 Z5 d, d- Y/ c7 z* m
https://chat.qwenlm.ai/( X8 ?8 v, J/ }; U9 f
====
: Y! O2 Y! o) \- LDeepseek,API 看上去可用了,但是不给充钱。
# |! y: W; |( Y. V& _  J* n& {+ G! t( R: k( `
$ l2 Z+ W( x2 s% ]4 i

9 H: d; L" h$ m3 B3 [+ n

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3829 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    $ w) {) a& P- g8 o% T# Z. s这功能很赞呀

    % X! J4 C# C+ n1 P简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    " u8 s, S% r9 _! C! V# w+ z( N有没有上传整本书试试
    ' j4 f1 A3 E1 T
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3829 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 8 `" m( k" z8 Z5 t5 g8 g
    % @# w- x  G% z; t* C% y
    以后让deepseek 读出土的竹简
    8 D, i0 z/ g2 {. l! ?: p) G8 i* S# c% q5 ~6 O8 S
    还有把古文翻译成现代白话: h6 N8 G+ J4 V

    5 w5 J! n/ q  O9 c以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    11 小时前
  • 签到天数: 2989 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    9 b: A3 c& ?% D* C
    : U& y# M6 q( E# c$ J我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    " l6 g' s: G% \9 [请教是如何实现的?& Y! B1 H. S0 p
    . ?) {2 b5 g5 f/ ~8 M: q
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    * i% ~) V' r. `+ B$ a& z/ T+ ^
      L. p2 u3 X9 f2 ]. v我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    5 a+ `' T: Z% `5 }# J" S文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    * @8 l" w- ~! ^, U: u美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    * I/ L1 `* y' D( ~" X4 u- N

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23, ~" \' m5 ?0 j# `' n! @
    请教是如何实现的?
    # A3 m/ c& _3 ^/ w" k$ _! L2 J& k% d3 `+ u
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    , O5 k$ d% m$ }& u% C
    https://chat.qwenlm.ai/
    8 R& W1 D6 j) ]试一下千问,估计美国人没有攻击他,所以资源敞开用。
    6 ?3 @$ l3 L! a很稳定,质量不错,好像最多一次处理15页。
    1 \( H1 J& c# [9 e1 B  ?我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3095 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    / Y: H5 C  b2 Q9 r0 K1 c0 R! _* R' h" Z  U! E处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。) y. r# d6 C* H
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。* K3 F8 X+ F) ^5 i% x

    : m% I% z1 {! O1 W/ i% Nhttps://github.com/oomol-lab/pdf-craft' }) B5 m7 r. s" J5 |
    / l" ~8 d& b+ R. G
    1. 这个工具要求装 python3.10; I* S: D+ W& e  `+ b
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    + @. }. D" O; G- [% A3. pip install pdf-craft2 {" u# Q( y: L! J
    4. 把下面的内容写到一个文件里,例如 a.py! w3 k' n6 O, r4 e
    8 f% H( d/ ?  N! B; {/ ?& D7 u& m2 i9 I
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter2 K! v" U4 t0 K

    2. - R( V' u9 z5 Y3 ~
    3. extractor = PDFPageExtractor(
      : R. Q  Z  C. k8 t; h  y
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      7 |7 D  x9 L) l7 s, ?) E
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed( z1 N. G. p! W' g  b4 T! U! n; S
    6. ), W& ~( z0 o+ ^* a/ A( H& \% A
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      2 u: N: r- n6 q0 K) Y
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      1 T- G5 q( T$ `# N" J
    9.     md.write(block)
    复制代码
    " {& i- G& c1 ^! s; Q

      g  f' v8 _* p: d要修改的内容:- y) }! B: x! R% e
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型, ?" g" |7 T( }' M# A! }$ {9 y
    4.2 markdown_path:输出的 markdown 路径文件名
    3 H, p( H0 t4 W/ r) W) y) J. F1 q4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    # T/ H! X# V, L' l3 a7 P& w5 X$ J
    ) v" {& |5 S) d$ h3 [. h5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 7 X6 N7 B8 M2 f( ~

    2 k0 W* V" o: G& Z8 k4 y% d) k- E目前为止PDF转纯文字的最佳办法。
    / u9 m- w# n6 B  A9 n/ B* J先写个小程序,把PDF按章节切成小的PDF。
    , v9 q$ h) m5 r+ `' c, p然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    " B8 g7 P5 _  x: |3 m" u( H$ m# x效果非常好。
    ' V8 m, o' I8 B& s
    : b4 P0 o9 q6 h( E- jdeepseek,qwen,chatgpt 三个,deepseek是最好的。+ p0 B4 E, |0 I

    : K5 L; @+ Z- p3 Y0 h( Wdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    # v2 ~) m% ^5 E& K$ h, u. S而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    ( U/ B- e; R, `/ u我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ' V! P: }' C3 Y9 r; H/ W# H
      Y- B3 ^5 k  c& NAPI到目前为止,差强人意,不如网页版本修得干净。2 K4 Y2 x6 R& o6 I% c

    $ t* V  V* C- cdeepseek可以同时开四个。  M, U" G# l9 B

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ) ?, I- n: O0 f- n/ l: e

    ; L$ W  [& F( W+ D+ p让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ! @( N3 X. S7 a3 r  Y8 r3 C  d; W让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    $ k  m7 m% A6 A6 r" a2 ?/ t' u+ G细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    $ j7 N7 b6 G: Z& ~  m细说一下,听上去很不错,多谢。

    % u" o0 b' S1 S& d5 m7 B! i直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    " J2 R; J- K3 I! p1 [
    ! g$ Q/ B  F7 d8 P已经搞定.
    : Z* p" o: Z3 ^1 _, K: p
    : x: y& T, ?9 k. q4 R4 R5 f首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。$ ]) ~+ M+ S- i  A3 c" O
      U  c, w* g8 W4 B7 A2 p
    1, python + pypdf 按章节拆分小的PDF1 v1 k* C- h; Y4 m2 Y# D% D+ K
    0 N$ u# u' e3 X  y0 K
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    / T1 j+ B( `0 s$ a# D- O: j
    0 L, G. k" E. R! E得到text file
    2 I' Y2 V5 o4 Z  z5 l  E  w2 D' f1 z+ Z+ _6 C/ _: z
    3, python 读取整个outputfile,丢给deepseek 矫正。" Z2 o9 F3 m, r1 u

    . a1 \9 g( H. p( X- [, x模型是 deepseek-chat) u0 e8 h# i1 {2 p% F
    ) Y' r/ A" m, e4 S
    max_tokens 最大是 8192,别的不用改。
    & D9 A! p) `) Z5 m' P4 ~8 f8 }' z
    参考:
    ) O9 \' f& D: rhttps://api-docs.deepseek.com/api/create-chat-completion
    ( L: h. Y" a: s$ N" J6 z2 c+ B- @5 H5 q
    4,费用:. V8 r0 D% V9 U9 ^3 F
    / p  A$ G8 j, l4 A# a' C
    实测:
    . H& E" s* A- }" {/ J4 Z1 u# J2 q' k2 Q. s, w% k
    296K 字母,用了 9 美分。& ^' j2 K* C6 [: Q* E

    ) [. v/ g! ]6 e" R英文字母 到 token 用量大约 1/3
    9 L) E$ I  I: w" ]
    / [, V4 R/ n5 _; K5 i8 B2 ^9 Gtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    + J) [0 r( ~% [2 i, N" ~: E
    + L- Y" b, c' Q( t32899 个字母花费 11782 tokens,包含输入输出的 tokens
    / |* s4 _% X6 f) s8 k4 w6 Z" k2 @. }+ _; j9 {- {9 N; J2 ^3 P
    价钱,非常非常便宜了。2 L3 @. }" C. _& Q3 U/ w
    + [3 O1 V  M6 L8 x5 o
    参考如下可以计算,懒得算了。
    ! n: r, J- k/ \/ b- t% [+ d4 p' M! b9 X6 }) t
    https://api-docs.deepseek.com/quick_start/pricing
    + ?( P& _9 @# s9 ]8 T5 v* Q. p% @4 T8 _; o
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14* f7 ^) y; a# m5 W# I
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    - }& G  F. [/ c1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    & k1 d7 {& o! N% w, r/ q
      h( E. ~( ?  |; I/ v- l5, Balance0 v& n7 d6 ~* ]4 L3 D

    ; d% o; I/ o. A7 B; J9 j$ W可以在程序里调用,知道每次运行结束后,balance还剩多少。
    9 |5 \7 t* S' m' n- f$ M3 ~参考:* X( d6 L8 _# e: j# C& e+ h3 T1 {
    https://api-docs.deepseek.com/api/get-user-balance
    3 H% u) E: {; A4 w: V+ D$ B8 X, b& H: `$ n
    6, Models
    9 z2 t. x( Z) C# p5 C1 R# V" ]+ t! \4 N  [4 L4 w. E, l
    目前就两个. n# \: f) H" y5 }$ E3 C
    # deepseek-chat
    + ]6 i) y) r6 b+ ?! Q9 H! H# deepseek-reasoner- G2 R! R$ f+ O8 U

    2 H2 c( d0 A, h5 i. d4 E参考:0 B2 v4 ~( v+ D' Y8 H( [; r
    https://api-docs.deepseek.com/api/list-models+ d+ T+ D; a& S: d7 c0 k  ]1 h0 M9 k
    1 v0 j& Q% i( l  O" r
    : X0 g! i* B2 z0 n5 M
    7, 问题
      X" j0 w/ Y2 D$ I& f7 O# n; H9 V( V- l8 U- ^- m
    deepseek 会将前后两段合成一段。
    ( W4 D) g: o* a) }特别是那种大量的对话的段落,deepseek会给你合成一大段。) ^, `( @) N5 N. h/ N, ?3 s' {3 \  e: k/ i
    ; x( ^3 X* t. b) H/ N
    8, 钱说了算。
    2 N) h" m' H) `9 V; \& [& T9 `7 |' K, t' ~/ B
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    ; t" q8 V# p; f8 u但是API就不会出现这种情况,毕竟我们给钱了。
    ' I+ V8 X7 F1 _  O4 l( @" Q: Tchatgpt也是这样的。0 ?4 I: X( a4 n

    * n: J% r6 b) ?/ f* k) x5 y4 c: p- C$ |4 x' W4 a

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-28 13:06 , Processed in 0.062542 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表