设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3068|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 % i; d- |; W5 w- Y" {
8 c, C- X5 H! m' O5 C7 L) P
把PDF上传,然后让他抓取文字,并修改可能的错误。, o5 D. m- ~9 G1 X$ v
然后deepseek完美的完成了任务。% J8 n4 I" R" H: {1 ?& A6 z* K
段落清楚,列清楚,页眉页脚全部去掉。
0 |( G7 w( W; w) x" X我要疯掉了!1 k9 r8 G9 n+ w0 n& A4 Z
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!/ X. o/ m% |. ~% f5 I0 [
====, _* u" w. k8 W, |" i
中文也很完美。$ f) G: r/ z; k( h+ q: Q; V
经验值,每次十页比较稳定。& H$ f$ g: d" c8 l
现在我这里API还不能用,等恢复了,全自动了。; ]2 A; @- ^! }
====, R& ~8 H4 o, h) n  ?" j4 ^. B
第二次疯掉了!- [" r$ ^% G; a; M. s+ L( j& K* S
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。' g2 y* W) W3 L
====
# @$ v  r3 {- L. B4 K2 g. G, h: j) _现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
& h* T% @$ d0 N5 d9 m但是任务多了后,每次翻译的页面数是减少的。" @7 r9 B) V# h
好吧,我五体投地,继续探索。
& d0 W5 a& m8 Z8 k- Y====
+ m1 P! b* _9 W3 i为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
6 P. w6 f: P0 |( `0 q& B====
7 z/ w' E3 _* u- [  J6 a好吧,有些东西是不给翻译的,哈哈。
. @! N2 P. C4 S1 ?7 G4 @
: z* l% n2 g. Z; E6 rSorry, that's beyond my current scope. Let’s talk about something else.
- _% M5 v. j, l  c====+ {( L( Z  R  p% f
然后我的英文命令也让deepseek 帮我修改,呵呵。& _) v$ c, |) |2 R7 r0 w
====
' D4 w  y: `9 {: x# s! ?日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
7 R2 s1 `- Q( Z  E3 s====
. T( p1 A# t; Y5 \- W# A时间段的话,北京时间的下午和晚上用比较好。: W! N1 k: G5 q% A2 ?' r2 `" z  K6 p4 D3 }
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。6 s- {) B7 g8 e1 R2 u/ L
====
* U1 L+ Q6 n) o. ^6 f7 b) J& v- w用千问吧,非常稳定,非常强大。
8 z3 [- J1 Q/ R: Y: Mhttps://chat.qwenlm.ai/; Q9 b+ t" ^7 A" @$ J
====2 Q1 }+ g- y7 N0 ]5 d- N" t9 g$ h
Deepseek,API 看上去可用了,但是不给充钱。
8 V+ M7 D- L3 `7 U, [( h! m/ c9 V5 }+ N; ~" k2 ]! r! _, R- H

* [, {" m5 m2 }, S$ r
# n4 Y3 |) q/ r8 @- w

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3785 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53# s/ t( x5 W" b  \
    这功能很赞呀

    ; i+ c. p3 `0 G! b简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13/ c* d% ], Z: `% J: [
    有没有上传整本书试试

    " \7 g* }6 N1 k7 Z4 Q& Z( |. d目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3785 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 - q1 q7 S5 u( G2 g+ m! [) J  d3 n
    # G5 C# }- V. x, I" W' Y+ N
    以后让deepseek 读出土的竹简
    $ Z1 h, `6 v  m8 n) z- w
    2 c# K# f- C2 l$ n/ Z还有把古文翻译成现代白话
    ! L/ d$ h% q: t! f4 ~- e! }
    : i" u7 t  K$ F' @% f7 u. `/ T以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    3 小时前
  • 签到天数: 2945 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?$ l/ i4 Y+ q# r' }" n. C- F
    ( }( B4 r* O9 C6 Z, Z
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23" X3 _. O; s2 [! j* N0 ^
    请教是如何实现的?- ]1 ]1 W$ a; a; `1 e
    # y6 n6 ~1 ^& f7 c
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    % E" m; U4 f( x
    + ?7 V- u) a/ x0 C
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。& p( d3 W& z" @
    文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    8 Q+ V$ W0 O$ @0 }0 w4 ]美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。, y! z" v! c0 H! {% S! _

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23% A$ F/ P1 D, w3 ~3 ]- {% b
    请教是如何实现的?& O+ m( n+ ^1 T" f! ^
    % z/ g5 i' y+ R6 ]) c( z
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    1 m% X* O( G. P/ s8 V7 [
    https://chat.qwenlm.ai/, o" f8 A, T9 `6 r0 f7 h
    试一下千问,估计美国人没有攻击他,所以资源敞开用。; \. H2 N. }( m$ e' u
    很稳定,质量不错,好像最多一次处理15页。9 m0 y7 A; o2 X5 a0 Y
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3057 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。- N% J& e: m0 n  j
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    , r0 R9 i' W6 S这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    0 K" M7 C6 W- E8 \1 o
    : ?. r! _! \$ ?https://github.com/oomol-lab/pdf-craft' P# T( Z# k# |7 u6 w" I3 A) R) Z

    5 R2 H8 g* r- l9 t1. 这个工具要求装 python3.106 ?+ F9 b0 [) ^* J% X/ M
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    & H5 A& \) [. v# I7 Q0 Z3. pip install pdf-craft
    . ^1 E0 W7 ]6 d& w4. 把下面的内容写到一个文件里,例如 a.py1 S0 u5 I  s$ f, w  k
    * f+ M" l+ O- E
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter7 H5 U$ \, U/ Z8 D. G

    2. 6 ]: P/ C/ Q6 g9 s0 R, ^# x
    3. extractor = PDFPageExtractor(
      6 ]- b% C* C- ?$ p; B" D& ^% S
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      * k0 b- W" n& k8 a; |& X, F
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed6 V6 r& n* ?4 q$ L# S2 n) e: u3 Q
    6. )6 R* o7 h8 H" A
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      9 v- D% _  c7 W' [  h9 w9 _: X
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):/ J) [$ J. ~8 y/ G2 _0 [
    9.     md.write(block)
    复制代码

    ; `% P* w9 `" a' O: q% m8 J* `6 M
    3 B! P. _. {! r+ f* R要修改的内容:* U) P: |: c( K) ^+ P: F* N; _: S
    4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型& b( M+ u7 v' s) D6 g( L
    4.2 markdown_path:输出的 markdown 路径文件名8 `# ?4 i4 |, S9 _0 \+ P5 h
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    + W$ B% v5 K8 I2 g& {( J0 i  i1 [; l/ z) {0 ]9 o5 k
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    6 ^6 k8 P- O0 f- O7 z9 e3 K% n6 T3 V4 O' v
    目前为止PDF转纯文字的最佳办法。
    9 ?) y4 c8 C. f2 B( W+ t先写个小程序,把PDF按章节切成小的PDF。- l7 e: i7 \# ~4 f0 u- s
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。* u( `5 p7 E2 H3 @% S4 H: k0 M
    效果非常好。
    8 X0 X- x. \! L9 c. y6 K3 M- K* |. ^$ H* C' p
    deepseek,qwen,chatgpt 三个,deepseek是最好的。1 U  v1 u$ Y+ k8 o* {' K

    $ U! s- n& t, L( b& xdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    * A* `/ @: _5 U1 x7 t# o1 p而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    $ _5 k7 q, B. B; t我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。4 i" ?% @6 e, s6 Z8 b! H1 O

    ) |- F2 x. c, @& nAPI到目前为止,差强人意,不如网页版本修得干净。1 b. `0 j% t8 f! ~7 q

    % T* f. @' {; R6 J- ]7 ~deepseek可以同时开四个。; q; A" g7 {) i$ E9 Y9 P/ I( q

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 % [! h1 e1 {6 s5 ?  L3 M" N
    & @9 O8 ]0 @; Q
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:262 D! ~( f8 C4 m( K% N
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    * Z: O/ x* D+ t7 ]' y细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33! ^1 R) H& v1 t7 U/ K7 K1 L( `- x
    细说一下,听上去很不错,多谢。
    . V! K8 p) w7 S) e: ]7 ^
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 4 p, g# [7 b: e. T, m1 f
    4 C( Z) i3 N- n. d" q
    已经搞定.
      u3 U6 N: a  W$ e7 \3 ~" i$ y
    3 K  K0 t* A  Q+ j) J首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。  w! z% g$ e& |, I6 x
    + C; o4 u0 p9 n* |
    1, python + pypdf 按章节拆分小的PDF
    ! V* y7 \7 i9 M4 ~4 z3 m* m
    : m0 _" j6 {6 ^2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile5 x) s! Z9 x" C1 @9 s
    8 Z6 Q, ?6 e0 q3 ^/ e
    得到text file
    7 E$ v% N2 Y& S. ?0 u8 S# c5 _0 F2 O2 t" ^% k: Y7 L* [& d
    3, python 读取整个outputfile,丢给deepseek 矫正。
    0 |0 J4 u6 j- F5 T, `; p5 j, |; o) \8 i* d7 N0 E
    模型是 deepseek-chat
    6 J/ P2 A) t/ c8 D1 \# Z0 ^2 C! a" x$ \) a' a1 S2 ]
    max_tokens 最大是 8192,别的不用改。/ p; N; W. b9 ^
    ( P( T, h' M$ K% \
    参考:' E  n% t( {2 D# s
    https://api-docs.deepseek.com/api/create-chat-completion
    ! E6 `3 j# ~  `4 i. I! m0 N. o6 H# V5 M9 ^
    4,费用:
    % I7 A# ^1 I0 N5 Q3 D: O# R' J
    实测:1 |* K, \  D% a% g3 J! n
    $ ]8 L( O# V2 g! K! V0 E/ `
    296K 字母,用了 9 美分。
    ) Y2 v7 j2 N9 F+ V0 X( b# |* K% d6 ~. ]7 F0 B
    英文字母 到 token 用量大约 1/3
    2 j: c; s  ?4 X* @* W8 w; c' {
    4 s: p+ I( d' }- Ltokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899) v; X4 y' S- d

    2 @5 P9 E$ b3 R; C0 g32899 个字母花费 11782 tokens,包含输入输出的 tokens) v6 C5 ~4 k- o: H

    0 m- w, Q: Z* L& R4 i: J1 [5 K价钱,非常非常便宜了。
      h# z+ N  ?1 q/ s
    : D9 t( G3 {: q6 @3 p参考如下可以计算,懒得算了。8 o* m" P( }! l  Q$ M
    / D- D$ L0 t& R! c
    https://api-docs.deepseek.com/quick_start/pricing( o- u  \/ R, k: l  u
    " P) z4 b+ ]5 \. x, P. _
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14+ C; }) O2 O$ Y+ T
    1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55) m# o2 k7 e, h
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    % Z' b# ~$ s" g6 L0 T5 ^$ c$ h, X6 f) o0 I
    5, Balance
    * _1 ?5 N" t+ E& c) |" y9 k
    . M1 C7 Z8 G+ Y9 l6 W可以在程序里调用,知道每次运行结束后,balance还剩多少。: M/ y: {) |- y1 F0 i8 a8 J+ E3 u
    参考:
    4 [8 h- ]" s4 O" {1 ]  ]https://api-docs.deepseek.com/api/get-user-balance" c0 v" D" I! z$ Q  T- I/ u

    9 i) f; m$ O; M. n. R" Z( Z. k6, Models3 h* n; f+ C  x4 d7 S/ a% X
    2 t2 C( n2 W: `' R/ \/ j
    目前就两个
    $ L8 B* e+ ]+ v5 g3 [" j# deepseek-chat
    ) b6 L$ D- v7 p- P7 Z0 k, P- ]# deepseek-reasoner' C8 g, U- f. F% V; T9 u. t
    3 F. x6 v7 E( `8 L9 S' ?# r
    参考:
    ( u  Q, w- U1 J# b6 ]https://api-docs.deepseek.com/api/list-models
    9 Q! l. ?$ D0 i5 Y6 i! j* r
    ' k7 E5 e4 i! q% R4 J: k; ?- r( {- ]  ?
    7, 问题4 y( G+ U4 M, x

    . q' A/ v! U+ ldeepseek 会将前后两段合成一段。1 E0 g; n  s6 K$ I4 d; M5 n( N. j
    特别是那种大量的对话的段落,deepseek会给你合成一大段。1 ], r$ i3 |$ j6 H2 @% N
    2 d6 X, @% Y$ a# [
    8, 钱说了算。
    ! q" Y8 g8 a( _2 `) g. X' R. W- q( i. A( l, l
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    - ^! K- p; s, o# c  A4 Y但是API就不会出现这种情况,毕竟我们给钱了。
    . x  V1 V& @# S/ Pchatgpt也是这样的。
    + Q& `# m9 ~# e# a7 L
    & a4 E5 o$ I  E' l, m8 G8 X' n& d* g$ m
    . c! g6 S* B& M# U2 Y0 T

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-15 03:47 , Processed in 0.068686 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表