设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2390|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 0 }* L, o  Z1 ~, L  @9 c1 s
* i' I7 I- }6 R: K' p
把PDF上传,然后让他抓取文字,并修改可能的错误。
  C; |( W7 a8 H* M然后deepseek完美的完成了任务。
$ a4 T; y# z$ s3 @+ I8 v  R/ k段落清楚,列清楚,页眉页脚全部去掉。" M- Y0 r8 G3 v+ d1 C8 x. f
我要疯掉了!! f" O& {/ f) {( ?; r  t4 Y
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!/ d" s+ V- a8 L+ l
====' @( k9 F! _7 A, M0 f0 z* T
中文也很完美。
5 a" V. X" Y! e经验值,每次十页比较稳定。
' z7 t+ f# X% I现在我这里API还不能用,等恢复了,全自动了。0 Y- t3 k0 }2 X% @
====* D7 d0 o% p. X! s5 y' Q+ Z
第二次疯掉了!* _; n: o+ C6 l$ S% t3 l& Q: P5 L
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。3 V1 k: W1 n: q$ ~) `6 |
====
1 b0 P; t2 \* s- o$ x7 H现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
+ s( x: Q) {' A+ e0 J2 F但是任务多了后,每次翻译的页面数是减少的。& K+ o( j' c' I0 t
好吧,我五体投地,继续探索。4 m' V% }) s) \. i* N
====
  O3 z0 Q, A2 C1 X  k# u为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
9 z! ?  |& _: j  X: N; A====
1 e. u& j" u1 k好吧,有些东西是不给翻译的,哈哈。
" K4 ], B# F; K+ Q& e2 |6 `4 r2 h& H
Sorry, that's beyond my current scope. Let’s talk about something else.
' h! c- W5 U, b: q7 ?2 |====7 I& a! s+ r% E2 w2 T! t
然后我的英文命令也让deepseek 帮我修改,呵呵。
6 S# U! M; ~7 X. E% _9 V====4 x6 u1 m  g, D- x7 W
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
' Z5 W7 K* d0 c' y: u* C; f$ Z====# C& u. ~% g! G, J4 G+ G5 `
时间段的话,北京时间的下午和晚上用比较好。1 p% O0 S4 s# ?( d  Y8 y' |1 W
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。3 q. z! L% }9 P  m
====8 s! ^  x( Q7 @: b3 p2 W8 k
用千问吧,非常稳定,非常强大。
& P2 Y' A* ^5 @' F: v9 Nhttps://chat.qwenlm.ai/
( M- {' n5 R( Y0 [6 T% w& A, G====5 h3 k! j  S1 u: r4 y$ j
Deepseek,API 看上去可用了,但是不给充钱。
6 ^3 v! p, r, P4 o6 ]- S( h8 x9 |- Z4 t

4 u) q( c' v2 ^- s5 h! S/ X+ ?* a) M' X3 _6 c: k; c

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3632 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:535 i& K0 N+ p, a8 D+ F
    这功能很赞呀

    4 O& Y: f/ }2 u/ o简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    5 ^5 T4 [7 p1 e" B有没有上传整本书试试
    4 @7 D# `" H/ n2 Y$ E
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3632 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 # ?. g4 }" N) [- X" l8 E+ W

    % y2 z2 T% p* w( M  G. N以后让deepseek 读出土的竹简
    4 O, d' U0 _+ B* \4 X3 \  ^' v. M, S! ]6 ^/ n; O# Q3 B9 J) L+ j2 T! P( I* Q
    还有把古文翻译成现代白话
    $ ?2 e% ~$ Q" f4 F0 g' h: Z9 r5 ~, }0 X1 x1 k. \
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2795 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?4 @( [3 D2 T2 G2 `8 q

    % E. n4 Y& |  N5 |) ~3 ^( ?我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ) O, H8 j# z, ~% U请教是如何实现的?2 L$ ?0 v# f$ R

    & O" B: N/ Z7 @* [我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    - [# v6 P/ Z* d/ _8 |6 P2 u& P% D
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    & X8 D: @% w8 j$ i, ?9 H文字之类的没问题。估计deepseek现在暂时只保证主要功能。  v; c  x* e; \! s* q" [
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    7 u( e' ^) k. f8 g4 Q

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    8 d5 [% G/ L3 e; c+ |2 L请教是如何实现的?3 n& U' m1 i. k! ^+ E$ B2 L; s
    0 ~: M6 j" _, x( X1 x8 s
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    % H: ~0 t5 Q/ j
    https://chat.qwenlm.ai/
    : r. Z/ B1 y0 ~  ~4 i试一下千问,估计美国人没有攻击他,所以资源敞开用。. d: }1 a0 ~  Z* ~; y" \, X1 H' S
    很稳定,质量不错,好像最多一次处理15页。/ U1 \3 Y# v3 O7 ]5 V8 P& q
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 2910 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ) W, K3 c( n# @  n- i( R# @处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。, L2 r9 J$ K  K% h" g  G
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。3 j9 e; `7 v1 l' X! v6 M+ b
    7 B7 L" f* O' \1 e: ~" g( }
    https://github.com/oomol-lab/pdf-craft
    : \  a  r0 Z8 S# a3 r# M. j& c- _# r; N9 ~- X: \7 ^" U5 ^# l. I
    1. 这个工具要求装 python3.10, \8 y9 |/ r9 U
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    " n, m- m% D  l- ?3. pip install pdf-craft
    ' ?% O7 e' z% F  f! B( X* g( {4. 把下面的内容写到一个文件里,例如 a.py
    / |9 T9 F6 v6 H- w! z
    % }. h- }/ [' n9 F# |( N
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter
      5 Z" [4 x( `3 a

    2. / U* q  x4 C% Y
    3. extractor = PDFPageExtractor(
      5 p: i7 {9 F5 Z" E
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.2 t* q/ T4 z6 r- ?! I2 U& c' x
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      " h, m9 R; s4 v! s$ M) }
    6. )
      5 V9 E+ t! _6 I5 z4 f+ W
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:2 K& K) {( R- s: F
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):% R7 B9 k0 [& B8 \" I
    9.     md.write(block)
    复制代码

    3 I2 S8 \8 p4 ~% @+ k5 m$ S) ^2 k) T1 ]! q& H7 ?' u
    要修改的内容:
    ! @$ p, b7 n) I' v) V9 E- L0 o4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    1 n: [7 d# e* v! E- Y; F. `  {% o3 r4.2 markdown_path:输出的 markdown 路径文件名
    3 E* j9 [2 J7 y6 t4.3 /path/to/pdf/file: 输入的源PDF路径文件名
    ' T- n) I$ v; J  W% P- }% O" ]; X) U
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 9 T- t/ T5 B; d3 r) Z; `3 _; f0 Q
    # y* Y* d' U% A8 @& A& r) v! a
    目前为止PDF转纯文字的最佳办法。- ^7 a5 D, b9 M; ^" _+ ?6 o* M
    先写个小程序,把PDF按章节切成小的PDF。  w8 }. s7 L4 m$ X
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    0 p1 X' z& @) O% E& K# O效果非常好。! h8 A. q  z! c9 R) n# Y

    ; }% G* h8 r3 Bdeepseek,qwen,chatgpt 三个,deepseek是最好的。" ?: u1 w1 }9 h6 L

    . R8 t0 K/ b' y+ f) q/ k: Xdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    " n0 Z$ M: H$ K! @" I0 A$ w$ M而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。4 |+ V, Q# ~! C( y& w6 y7 k5 A
    我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
    / W  [% E$ Z3 z4 j. ^
    8 y' i! r- s/ O  G) \& jAPI到目前为止,差强人意,不如网页版本修得干净。  B7 l2 x9 G0 z9 C4 ^& z
    , k0 t( |& h+ n5 J0 Z
    deepseek可以同时开四个。
    3 X! q* ~6 F+ M) Y

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    5 h. |1 ]% @: f+ c& p, c6 g
      _3 A& B( F7 n3 `- S' ]让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26
    7 _5 k1 W1 n$ k3 x2 T) q* H让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    5 p6 P  ?4 ?" o- R) x% g细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    0 S) T4 i  `! |! E细说一下,听上去很不错,多谢。
    ' @& ~: \+ Q; \# F' \$ x
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    6 c6 q; z8 S" }: b; m$ S: ?+ v
    1 E, V& ^. D/ j: y5 B已经搞定.
    % d" u$ {7 F" ~/ c7 e7 q2 x1 }4 X
    2 F! L: a- s! c首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- J9 b0 I: t! }9 e& A) O  h& r

    4 [) \0 h2 p# i# H1 M1, python + pypdf 按章节拆分小的PDF
    , d5 n# p4 s9 C9 x; X8 t# X; Q6 A. Q1 @1 P0 U* M: W
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile0 K9 p0 u* r8 p4 x! A( N
    / q: j) ]7 K8 b5 x- Y( b9 V& V
    得到text file4 J  z# s* M, _5 d
      W8 P' `* z- |/ U8 ]3 M9 K- q8 y+ g
    3, python 读取整个outputfile,丢给deepseek 矫正。# ~5 K8 b4 P: g3 z4 I& a$ z

    4 I4 G$ G( A' C( V0 a: U模型是 deepseek-chat
    ) j1 M/ X- B* `
    7 |# w1 d) D  I& r" i; s9 V, ?# B/ Fmax_tokens 最大是 8192,别的不用改。
    * e) h" O0 O& W- s3 d8 x
    6 p7 Q5 Q! n7 {% s6 v9 {6 x参考:# o$ ?5 `( H1 \7 L: F' T
    https://api-docs.deepseek.com/api/create-chat-completion
    $ s# s+ i' {4 o  i. a( V, ?* I" v+ |' Q, r3 Y% f; E
    4,费用:
    ; h7 |% v/ {! D' T) [+ q0 X
    6 t* G& a. U* a7 K8 u9 |实测:. {* i( [# N2 Q4 R0 ]; ]
    + }4 t! Y9 j8 c7 M
    296K 字母,用了 9 美分。$ \  N9 g$ X( Z) z7 P

    ; [( c/ }! c$ ~/ ]: h/ W英文字母 到 token 用量大约 1/34 c# N0 W6 d- p/ d$ y* i! e6 \

    4 }5 W9 E+ S5 xtokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    & v' J9 F' `5 ]/ ]
    ; X& D, s( Q4 h/ [: l32899 个字母花费 11782 tokens,包含输入输出的 tokens
    1 y3 s3 N4 K8 }3 q* r" O) W
    , r* ~5 ]4 J7 e- b% g. D价钱,非常非常便宜了。3 L, i+ o4 [7 e# q1 m' ~3 \7 s9 p4 M  T
    9 D6 [; E  K  [7 Z
    参考如下可以计算,懒得算了。6 _: R# k0 u6 x6 [& Y: P' u" K

    ) L2 h2 g7 O* ihttps://api-docs.deepseek.com/quick_start/pricing
    & v* W/ y: E1 ^% |9 j9 W9 t& q% s8 r; F+ S/ v( g6 |9 Y
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    - q: \" ?/ _6 ?$ O! `1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    9 S/ N+ x& \0 X, l+ l5 n1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    # B7 f& Q% T6 q6 [& m1 j* P6 x- V1 Z9 j: {; w
    5, Balance4 v; `7 @  |% n) W3 s6 w. v

    3 Y! Q$ R+ F$ J' z$ z+ c" {可以在程序里调用,知道每次运行结束后,balance还剩多少。
    * B$ I/ h3 o9 ~/ F参考:
    : X9 [7 @& t6 v7 u) R0 `$ `3 X; Thttps://api-docs.deepseek.com/api/get-user-balance
    . y! C1 g6 R% m' x5 v( p# |
    4 A9 Z0 n  \- ^" U, f# E6 y: A6, Models
    1 T+ @) ~6 Y' @- z" c9 d7 n* d# j* q' Y0 c9 V
    目前就两个$ V8 k0 c- {( q) F5 p( r
    # deepseek-chat
    , E; @! I# y3 H# deepseek-reasoner
    * H5 E; ^8 ?* p  Y" c+ n' i. H, y- e" p1 o. e. N& Y8 e
    参考:1 |, H; Q% \( G
    https://api-docs.deepseek.com/api/list-models
    2 ^% b" ?( J9 n, A; Q: F& e; U$ E8 e1 w
    ( Q6 p0 u: R* J# J5 v4 Y% }
    7, 问题2 Q+ W% j& Z/ w
    : S7 |9 G; r" a9 ]* u# l, r
    deepseek 会将前后两段合成一段。
    5 l/ U  `1 a! |7 t# [/ J特别是那种大量的对话的段落,deepseek会给你合成一大段。
    . u- L" Y- l7 a# [
    & u0 V2 s" ]; g$ {: I* O/ ?8, 钱说了算。' y; o. x% O( }" B% r: [% D

    9 _& a  ~% t- `1 Ldeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) a( Y/ K) [* Z2 t: {
    但是API就不会出现这种情况,毕竟我们给钱了。
    1 S) @6 t; W1 E# g0 z" Jchatgpt也是这样的。
    0 v4 I: Y# M# J0 f4 k) {2 h( @' K& @% Z7 T& ^

    * K' M, ^# @$ y4 H7 e* Q% v$ v& @

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-12 22:17 , Processed in 0.038811 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表