设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3048|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
7 d5 ~5 ~% _1 D) W, Z+ O( d8 K- F& s8 h. r' _8 h) n1 Q
把PDF上传,然后让他抓取文字,并修改可能的错误。
8 \$ D* C9 G0 o+ t0 X- N然后deepseek完美的完成了任务。
# G3 U0 }% h  z5 i! T9 k段落清楚,列清楚,页眉页脚全部去掉。, M1 ~3 _% ^4 t& i* n/ X0 N2 q
我要疯掉了!
- q* x$ M9 }0 Z, l赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
0 N: ^6 H( n1 u( s+ ?; g; d& h====
( _+ c$ |* p1 {. k中文也很完美。4 a+ C' x$ }+ \
经验值,每次十页比较稳定。7 k2 y- u' U' ]! Y( e: {# }6 w. U$ l  {
现在我这里API还不能用,等恢复了,全自动了。- {9 a; I. `& G9 e( z1 d+ Y% S: K# u
====
7 n" q+ \7 |/ m. U第二次疯掉了!7 n3 [3 l/ Y1 w2 F( F, {' e
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
  y9 c% S+ U: |2 B====
; Y0 }) J; {; ~( ?5 ?现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。6 X1 \* b9 F. Y
但是任务多了后,每次翻译的页面数是减少的。  Q- ^4 H* w( d( ^
好吧,我五体投地,继续探索。
' \# X' g& z* G9 x8 A) [$ @- o====7 e2 h8 |+ p# h( Y4 F6 ^6 x! b
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
- m) Y4 b. d& g9 P- [, }====
5 f5 B. E; H0 F: o6 [好吧,有些东西是不给翻译的,哈哈。
4 ?& p3 v3 _0 B* \$ _- [/ ^4 Q/ }4 g7 P% A! A0 C4 h$ f
Sorry, that's beyond my current scope. Let’s talk about something else.: W$ }* ^  }" p0 j& l9 o5 E! @6 c
====: t7 h& X- a6 V2 s: }, c
然后我的英文命令也让deepseek 帮我修改,呵呵。
, M; g: v# ]6 w====
# r( N9 [0 i' [- v, l8 J: s日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
/ Q9 v- O8 i5 ]8 b- `====- C2 N, B; R! |! Z" B8 z2 I
时间段的话,北京时间的下午和晚上用比较好。+ ~5 p6 T! Z( V  z, v# t2 s
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。; x; h% `. A# O/ P& V$ Y% V# k  S1 |7 p
====
2 n( S; D  H5 F/ h用千问吧,非常稳定,非常强大。* q9 q8 x" P7 ~1 `4 r" t
https://chat.qwenlm.ai/
1 @( o4 {: Q0 M: Y====
. `1 P: D1 D  l2 l5 xDeepseek,API 看上去可用了,但是不给充钱。) Y6 S2 {, \+ ?" R  V: k
4 Z+ ]5 Q. s$ w8 o  Q

2 z* E, {$ q- @$ ?/ S# d* h: R( D* W
7 U) C. Q% ]# @, @4 {2 o0 u

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3783 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    - K: E. h! H: j7 n& a( A5 u这功能很赞呀

    * p* P& D6 l2 [3 O7 c简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    + \" ]" Q, O- [+ C! p% o; d有没有上传整本书试试
    2 j6 d) f+ G2 k$ \* y4 o
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3783 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 2 |1 v: h9 k3 F; n( x3 \7 C
    ! F; b* D; S6 R, @- w% i/ f" H
    以后让deepseek 读出土的竹简
    2 x% j' [. i1 R* |' F! J
    % u, \- E2 ^6 r3 ~: s. |3 F6 F还有把古文翻译成现代白话* j. H. M" t0 w  ?' ]
    ; y9 z* a9 j; l  S4 N9 X
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    6 小时前
  • 签到天数: 2943 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?* N6 t$ N  o8 e0 q6 I# O  X' U
    8 b2 _  j5 L! [2 u
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    " t- w8 O1 G% ^0 n. F# [! Q1 a2 g请教是如何实现的?
    $ J' ]7 M+ E' k1 D8 T: Q1 P1 V. P0 N
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    , T3 c7 }3 B" B, V, n5 V3 J% E7 ]
    $ j4 H0 R, n  q( [7 o我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ; z. s$ n) h! E* v1 [8 d文字之类的没问题。估计deepseek现在暂时只保证主要功能。6 i) j+ W- s0 T# |" g# T8 Z% ~
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。) d" B( S* V+ D+ W3 K1 h

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    . y1 G- P' l, n- e: O请教是如何实现的?! F+ y- z8 e6 o2 A8 j

    * B' c+ J, _; t* S+ h  b* e我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    5 A$ W+ x5 j- }$ X* J5 _( dhttps://chat.qwenlm.ai/
    " D1 V7 \: x% c$ v( a试一下千问,估计美国人没有攻击他,所以资源敞开用。
    / r' k2 I& c8 Z6 O0 n7 [很稳定,质量不错,好像最多一次处理15页。
    & E' b- ]# w/ o我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3055 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ; M- E* W$ I: I7 p$ q5 `处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。, K8 c0 v; ]' z! S+ B: E$ _
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。# y% Q+ P2 L& T5 d* I! _8 a

    . i9 e( y( D7 f1 l% w; @" Chttps://github.com/oomol-lab/pdf-craft9 ^* o7 I% G* X! h: B

    ( q4 C$ m4 [; p/ I1. 这个工具要求装 python3.10" U8 A$ L1 ?( M" P) m3 s
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0( X' U0 [8 q9 D" s) b; }
    3. pip install pdf-craft* e$ V+ a; y8 O7 R' ]
    4. 把下面的内容写到一个文件里,例如 a.py3 z* ^$ y! ?: t; o

    1 y) W2 K7 |1 H' o9 \
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter% p& x5 |  X2 B8 b; t, O0 i/ c5 b3 |6 [. N
    2. 0 A! B% S" G8 e$ f+ }: b
    3. extractor = PDFPageExtractor(
      2 O" ?; x3 A3 w$ g0 l
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.' I" V+ X! l( D! s$ c
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      / f, \9 [' N" I' G9 {& }. X* j) E
    6. )
      " [5 L* N+ j% I; j
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      - y# T+ I( R# f
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      9 F4 a$ H  |! \+ f4 ]  @* D7 H$ l# R
    9.     md.write(block)
    复制代码

    7 ?+ g8 o5 |& q0 Q" n, C5 g# P: [* B) A8 m. U# }
    要修改的内容:% i+ q% D, {) c
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型2 r) s$ n! Z/ j5 b- X, m% [
    4.2 markdown_path:输出的 markdown 路径文件名
    + u. p! h& y2 }; z+ ]4.3 /path/to/pdf/file: 输入的源PDF路径文件名. t8 L! V8 u. I1 E* U

    / r* v& A5 W8 ]5 {5 p, U5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 # |' T6 z! i4 H6 z
    : y# d0 l2 e1 o+ s: R9 H
    目前为止PDF转纯文字的最佳办法。7 D/ |0 S- M) b7 f0 E7 }: _0 ^
    先写个小程序,把PDF按章节切成小的PDF。2 A  E7 B- B- S' N4 \, s
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。3 ]; C1 x0 s- ~9 d  G) V. |2 m
    效果非常好。( P6 H* v4 a5 B- l; v% k0 u

    8 b& H1 h8 W  A) @- p/ Cdeepseek,qwen,chatgpt 三个,deepseek是最好的。3 T" o! U- r9 P5 p7 J

      ^4 m4 t+ J7 f$ U! j1 }deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    % i: J! E  v5 P: @* [+ Q( J/ l而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。" z. y4 T* E- }. {% u7 x& Q
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    ; H, l! G( V0 ]' c* L! q! D
      X: m0 ?7 X$ k' s  E2 L" b6 p* KAPI到目前为止,差强人意,不如网页版本修得干净。
    + p7 P: a  \. S8 s: T, Y. r1 a9 c0 l7 L  s* s- b- l
    deepseek可以同时开四个。: s$ a$ W" |( _' }7 r, B$ k- d

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    : ]) w; S3 }- z: V- X& T) y, ?& N4 n# k. _, j3 O5 m- a7 K
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26* h8 W" C6 q) ]$ ~$ q/ F, S
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    1 \; q  b1 j5 b4 F! Q, e细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33* j; k. N- ^, l: G
    细说一下,听上去很不错,多谢。
    , z7 L" a- H7 j5 X
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 6 I' x, T- }4 L3 }) Y6 r9 m
    ; V: w7 m2 Q9 {4 I7 B- Q4 S# j- s' A
    已经搞定.$ U9 G# \6 j" D5 r1 i

    + y3 b  ^) X# E首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    ! k% V- G& A, z9 ~. }! ~( S) X# k2 a8 Q9 A
    1, python + pypdf 按章节拆分小的PDF
    " P+ W! p; k" F8 l" R( v9 h: r9 a9 F6 G& o
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    ' d/ u: L8 `* W! V) ]1 _8 S# u) t8 g7 w) u. n
    得到text file
    * d9 y+ _) o8 |# z# M1 g( |9 L# x1 _0 M1 U! ^
    3, python 读取整个outputfile,丢给deepseek 矫正。
    0 q% n0 z8 q& A$ E1 T9 e! N  O) ?; H& i# v6 ?; w
    模型是 deepseek-chat
    $ u8 n+ @3 d4 i2 ]) p1 O
    ; s' a  B5 V, f( U- Lmax_tokens 最大是 8192,别的不用改。0 y% d3 H: _8 A1 l% O

    0 ?- R+ q9 K$ d% z, s& [8 x参考:
    3 [. w+ R0 t, l4 K! d3 Ihttps://api-docs.deepseek.com/api/create-chat-completion, `; `0 ]: a$ C% b

    , B% S$ l, ?' @! \2 B5 O* X4,费用:
    6 ~% @5 b* p- ^0 F- ]) o, ?; A: E: z8 j: |7 u& Z9 R
    实测:
    0 \: @$ R( }6 O* q
    , K' i4 f5 o7 X7 P4 f" \* D296K 字母,用了 9 美分。% ]. T) d+ Y$ C; q' y. ?

    " Z$ j$ c  b# D7 s/ Z/ d4 C英文字母 到 token 用量大约 1/3" `* u8 V5 u- r/ I: t4 n& U

    + {. _: g8 Y5 q/ \tokens: total, 11782 completion,  3729 prompt,  8053 | s:  328998 p9 i. w  ^& Q9 r# V" f
    1 K" d, p$ t' W" u% L! F" l
    32899 个字母花费 11782 tokens,包含输入输出的 tokens, b0 c# h# G9 b' L2 w/ K  U5 O
    : H( S% h4 e! G! V# I% ^3 k
    价钱,非常非常便宜了。# N8 n' O% U4 M/ J

    " o1 x4 M( d3 I, r$ W+ b( {8 t参考如下可以计算,懒得算了。
    5 H0 Q" C* d& @% R$ Y
    - [: {; K  v) n$ Thttps://api-docs.deepseek.com/quick_start/pricing  r0 h0 Z% b( U5 _
    6 y7 R; F2 I  J
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    ; ^, Y4 ]) E2 _" D5 [: }8 ?+ D4 ?' q1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    2 D+ [& j) z% T1M TOKENS OUTPUT(5)                                              $1.10                $2.19" t; t* |  t/ V& {1 @6 g. J
    , R( c* ~* P5 n: D  a5 Z0 b' Q
    5, Balance
    ' ~0 K$ M" K7 R& h) _' I) G" e% I5 Z7 V' D3 y
    可以在程序里调用,知道每次运行结束后,balance还剩多少。4 _' Q6 k# p2 u1 ^0 g
    参考:; G- G& y) _' q! D  C
    https://api-docs.deepseek.com/api/get-user-balance3 B8 N. d; H* J1 G9 ?) T: h  S
    3 K$ }! B- Q2 f7 l5 [- i$ o' o
    6, Models
    8 m) e6 c; [# W' G& x6 Q5 I* [8 t
    目前就两个' Q1 Q$ _: o8 o, e/ i
    # deepseek-chat
    # U# j9 l6 e0 b# deepseek-reasoner- y/ P0 L1 u4 I9 I- k

    * Q0 Y. c+ `3 S/ r* F参考:  E9 F) N# B  |' [+ ?, h
    https://api-docs.deepseek.com/api/list-models
    & b* d4 Z( V1 {. B' k
    7 U3 |& n' w4 V* m- b5 \
    8 ]  R* L2 e; Q: J7 F* m1 |$ K7, 问题# B9 U8 l. D- z  |& ?) W* S7 j: z7 U

    $ }' y" `# p# c$ Pdeepseek 会将前后两段合成一段。& D7 X. l1 t/ |+ t
    特别是那种大量的对话的段落,deepseek会给你合成一大段。$ ?8 w# y6 Y0 R. t0 c
    ! n0 C4 Z& \, J9 s5 E! |- [
    8, 钱说了算。# g$ f- N3 B# @; w. R6 [7 J

    . I7 [) r7 W! _) Z  q5 c3 Tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    8 k1 j' g! M: x; ?0 j: t但是API就不会出现这种情况,毕竟我们给钱了。
    0 ]- w& R0 }2 `% J* C4 K: ~chatgpt也是这样的。/ ~; X6 ?) E- b, ~

    * Z! r2 [4 \! e# a
    / b( L3 z2 c6 Y: F4 v8 R# ~

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-13 07:47 , Processed in 0.069015 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表