设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1962|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 7 V7 O; u8 F4 {# L
- {4 H4 j5 P' E% ~7 Z! C5 n
把PDF上传,然后让他抓取文字,并修改可能的错误。
/ @/ B# m/ W1 }然后deepseek完美的完成了任务。
3 ~% }9 K. m4 Y6 H7 \段落清楚,列清楚,页眉页脚全部去掉。
$ I2 P) r) x; }8 `: l' q我要疯掉了!, l& ^$ U" \1 S* y4 h
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
' }. }. n: ^& y2 M- ^& J' w4 _====
2 p# X0 o5 X4 N; ^) ]6 h$ M  c" D; R中文也很完美。/ ^) `! H5 T9 Q
经验值,每次十页比较稳定。
1 @- y7 m, l" G9 W  v8 |" y现在我这里API还不能用,等恢复了,全自动了。
: b  c; M7 I& a5 J====
+ f, `) k4 ?$ c第二次疯掉了!  f' _& T( [* M, Q: L3 L9 D
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
4 m: O( \. ?' ^/ p, L& R: W====
! D. t0 y2 B0 U- V, _6 ~现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。% j  l: R, k8 g5 V- d* `. D0 W
但是任务多了后,每次翻译的页面数是减少的。" Z1 R* a1 f; a# g
好吧,我五体投地,继续探索。
) ~) ?" M# p: s  y8 d" h====' a- I) z: e- b1 a: |5 e
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
* c. N+ P5 ~( B====
4 U  X7 w3 Z; j2 g好吧,有些东西是不给翻译的,哈哈。
0 o+ u! y, }( D2 O+ V- h! k8 _  Q; p, r! ]! z  |# E
Sorry, that's beyond my current scope. Let’s talk about something else.4 V) N1 h& C. Q1 N& _% c3 J) n$ j' X
====, T. t. _$ p, @  b: j# i# T# q
然后我的英文命令也让deepseek 帮我修改,呵呵。  [$ r0 K' C0 g
====
# G. P- G* T  ]日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。+ @/ M+ q. g& B% a& ~
====
9 l6 Q2 h5 M/ `  X& S1 X时间段的话,北京时间的下午和晚上用比较好。2 r8 B$ f3 s! Q+ v' y. w; \% s: G
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。$ d1 `, j' i  C1 @2 A' F
====
/ E" Y! r4 c  w9 o2 S8 U% b8 E0 G用千问吧,非常稳定,非常强大。" c2 ~2 f) |0 l' D
https://chat.qwenlm.ai/
6 F, v# g8 Z5 U" n$ P; M  p  B====# [5 s8 G2 l! Q$ d: c5 ~
Deepseek,API 看上去可用了,但是不给充钱。. y8 O2 h, ^1 S4 [7 A

- y$ H8 @1 |2 m' b' O
& y5 X+ u! S( t- v$ P
; z0 p$ x6 w: e% k' p" @9 K

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3576 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53
    6 Z$ b& h/ e6 d1 Y' T这功能很赞呀
    : r2 a+ u: a1 F5 }
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    $ I$ c* V" f; @5 E9 ?$ N有没有上传整本书试试
    2 t0 o1 {3 R& k, h$ [
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3576 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    # B, w# l: ^+ u" }/ U1 Y% Y  A6 ?0 ^# M! H; n' i4 L1 ]' E0 t
    以后让deepseek 读出土的竹简
    8 @! D" t( t0 f' q% z
    0 I( S  `" R. u  p: v( b( w还有把古文翻译成现代白话
      X8 b1 A4 T$ K3 A+ K. e5 d- F: }5 [4 J5 _& B
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 06:41
  • 签到天数: 2724 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    , q! K+ y; t# J; s& Y$ O, W! n4 w$ e- C  Y2 x0 I0 I$ ^
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    & f6 O# y6 R3 L. ^. \3 q9 b2 G请教是如何实现的?2 U5 p# _! t- O1 ]) J" f+ q

    $ f3 y% \; ?( J2 y, o我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    . @0 i& M# O0 p) K6 |2 P- r
    ( v( f/ |( ~" z  c# _5 \7 \. H7 A+ L我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。1 @! {5 p  s$ M$ j0 {
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。- e1 h. a8 s  |  c' X6 a% q7 p9 |
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。; t* U6 f  N0 t/ m

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:237 Z2 t: F! ^- o
    请教是如何实现的?
    1 z3 R( r! r, [
    $ L  k2 h7 n! c: j) Q" c- P+ S我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    ! [' r5 |7 s- w/ a8 Mhttps://chat.qwenlm.ai/' I1 f5 |( ^* Y8 b
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    ; x" ]/ e2 ~' {7 k很稳定,质量不错,好像最多一次处理15页。$ M# K- L# `2 ?, r* ], ?
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 2858 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。3 e5 I* o5 R" R0 Z9 ~
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    + a; Q* a* D+ R( d这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。- T5 |/ T& N/ _4 ^7 D  r$ H3 o* T: K, s
    6 i# u6 P% R7 s8 X1 S
    https://github.com/oomol-lab/pdf-craft- `( @3 j# |. c0 G3 j. _
    % @: q; z  x: p5 `
    1. 这个工具要求装 python3.10, `6 o. K7 x) y0 j' y
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.09 b) T# i7 \6 B# l; U
    3. pip install pdf-craft" U. u# x, }3 D& T% Q/ j$ ?
    4. 把下面的内容写到一个文件里,例如 a.py
    ' u: _0 Y: m! @  Y& ]* U) s2 d6 C8 y
    & z: v" P; Z5 v' j+ K, e
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter7 W. {1 i5 Z, ?4 Q' X. w

    2. ( p1 X! Z% _' W& _
    3. extractor = PDFPageExtractor(
      6 }. `4 N  u- n2 [  h9 R
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.0 o, S% U, v. [4 n: K3 T
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed8 {0 c* m2 D6 g- v; Z9 W
    6. )5 E, j5 }& \" M- Q
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      0 F& l2 V! S/ h5 P0 C
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):
      , q- a0 c$ y$ v" p
    9.     md.write(block)
    复制代码
    2 v  y7 S* x9 s/ \* \
    + E7 ~' l9 H* d9 B  z6 v; g
    要修改的内容:: C; N$ z% d; i$ G5 m2 Y' ]
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    6 d  M! y% O- V3 F# C4.2 markdown_path:输出的 markdown 路径文件名7 I+ l0 ?1 `- [& [, }5 @
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名( N' o) d( B' @* t
    & F4 I: Q# E3 N) `  Y
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 & Z7 E( m' \6 F

    + h' J4 F. h9 A* F5 C- [/ x2 C目前为止PDF转纯文字的最佳办法。) C0 [5 U& V+ t6 G0 l$ \8 Z
    先写个小程序,把PDF按章节切成小的PDF。
    4 O, I; _% a# M+ l" v然后,把PDF一个个传到deepseek,让她抓取,除错,输出。1 H2 {& Q# z* W2 j
    效果非常好。
    $ {9 S$ `: ?% b1 `4 i
    0 P. Z2 x# k! \" f- A0 X2 v3 G8 Jdeepseek,qwen,chatgpt 三个,deepseek是最好的。: u5 Z. M' }7 S" P
    % l& u& o& y& p% ]
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    3 q% P  h6 U, t1 k8 t+ R) {& K而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    + \% ?7 E9 E( _  p5 r* ~我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。# H* c) ]- u! U% X2 [* m" v

    5 E' _+ I5 p! Y; `' ~7 h0 YAPI到目前为止,差强人意,不如网页版本修得干净。! r1 S) D) n1 ]1 M$ C, y
    ' s8 p1 H; p0 X! _+ ~
    deepseek可以同时开四个。4 s9 d- I& l6 P% g7 z

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 ! r2 t9 N' U: \/ ^8 D. x. U9 l
    , O8 b, x) |( u1 W: x
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    ; B1 K* `' o+ v4 T让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    + ~7 `- g! h0 O, ]# k$ I3 K细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    ) e& F( Z4 K& o细说一下,听上去很不错,多谢。
    + w( w- @0 Y- [/ q+ s
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    2 U& \0 S7 `- J" G* w! o9 W; Z2 G
    & G  }- C1 D! |0 S$ [0 G已经搞定.
    ; A1 `9 W, L7 e- w- ^% |" ^
    3 `% N1 [% n2 t  `$ x首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 L9 v: _7 b# D3 ?" n0 n
    # D" Y0 l2 l1 a) R( g9 t5 {
    1, python + pypdf 按章节拆分小的PDF! f$ t3 K! b% a: G& I- V# n

    $ ]" F3 k1 g  n9 l( p$ `2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    9 ~# l# ^2 _8 D( R+ a1 Z4 z+ }
    得到text file
    1 c. `( A( v: J: _& b
    ; ?7 q4 ~! G/ O* ], c/ |$ [9 O+ `3, python 读取整个outputfile,丢给deepseek 矫正。
    , }1 Q3 [2 l' d2 s: H0 i
    ! L2 J/ Y5 c# U& W模型是 deepseek-chat$ Y9 i& [0 N& p; z$ a* k% k& `' l
    # T, ?  V6 y9 G5 u4 w1 ~
    max_tokens 最大是 8192,别的不用改。
      `3 V2 h9 H0 k* I
    4 z7 V" F9 f( ]) E1 E参考:# x( n. Q# Q8 u8 D
    https://api-docs.deepseek.com/api/create-chat-completion7 p) i" R4 Y- t1 @+ i
    $ `9 Q- V( f7 Y8 f1 @
    4,费用:
    / J! ~5 ^8 }3 D4 {1 n4 {. n
    2 L5 f7 w* i+ z# o6 x实测:
    ( M6 Q2 W2 b7 E; H/ I% O$ _7 g+ K3 A$ z8 t* |* u" o; }1 {) {# k# _
    296K 字母,用了 9 美分。
    3 E5 Z) c  @7 \: L# k  a/ U
    9 m8 R4 t# ?4 {% A4 ~英文字母 到 token 用量大约 1/3" e* |7 Y* W, [5 {9 D1 J( w

    8 I0 e: u4 R" r& J+ `tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899. Y9 t" y3 T5 f: @/ ^

    & h/ l6 Q' M9 X  H# Z1 x( `32899 个字母花费 11782 tokens,包含输入输出的 tokens
    ; [+ j  n+ P) Q. a5 ?* J" a# f& |
    1 m% ?; \( U, ?( l7 t. w( _价钱,非常非常便宜了。
    : ]- g) j: ^* w2 Q
    8 O& J, r  X: w# _参考如下可以计算,懒得算了。9 O+ K6 Y" M; Q- _0 o1 z# k; {

    " O" U( K% k1 }. g4 Phttps://api-docs.deepseek.com/quick_start/pricing1 i4 u+ ]8 P7 p
    ) n3 r0 ?  m3 h
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14' H& N4 V. c3 H, j# q" i0 G* _
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55/ j& Z% t1 Z1 u* X6 t1 i" z
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    ' B8 O& j8 A) b! j' H+ L: z  n2 F2 @# Z4 a0 J
    5, Balance
    9 i* K  R1 P; O0 \4 w* k
    $ o3 n9 X) J; ~: i: R可以在程序里调用,知道每次运行结束后,balance还剩多少。, O# L1 Z; u9 u0 N
    参考:$ s7 S' o# [3 N& Q0 V$ n
    https://api-docs.deepseek.com/api/get-user-balance* a- i( `  l2 t7 l& ?" C

    1 a& Y( a6 Z& y- b6, Models
    4 `8 M" s; C; e( c8 t& U0 Z$ t* Z  b. d$ {
    目前就两个
    ; L) C" F5 g' U# deepseek-chat3 u' Y* R3 P' z8 l
    # deepseek-reasoner
    0 M3 q- i+ R5 H& }9 S. y, P0 N* c& B6 l5 X
    参考:
    " `7 p& h2 {8 q! o/ l# I+ bhttps://api-docs.deepseek.com/api/list-models/ `$ x  ^7 D( }* {: x6 `

    ; s( b' G9 Z8 e, J( S; k
    ; \1 |1 E) {. ^. o2 H3 K+ F7, 问题
    / a9 ~" ~" X: W& t% C8 j5 _( h; }" S; d' S
    deepseek 会将前后两段合成一段。
    . ]" j! m0 \# A- K特别是那种大量的对话的段落,deepseek会给你合成一大段。( A/ m" w7 }$ h# r- r& a& i

    . @/ L' @6 \  u- \9 r8 ~7 ~) g8, 钱说了算。) |2 c- s/ V" b; R+ C) g' S

    # f" y( ]  o) ^4 x* m) G  Udeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    & U  e6 K( l; ^7 g但是API就不会出现这种情况,毕竟我们给钱了。7 C5 e0 v, r8 g) v
    chatgpt也是这样的。+ o* s. b0 I( G
    , n& u( l0 `3 Z3 U3 E" F

    ( g* q; r0 }( Y( W, `/ A

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-17 07:21 , Processed in 0.041731 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表