设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 3246|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 7 n* P4 o" |' Y7 D' F0 K

8 {: O$ F( D  F3 P' s, X把PDF上传,然后让他抓取文字,并修改可能的错误。" \4 Y3 r; w& a9 J8 H/ _, Z  a4 t1 B
然后deepseek完美的完成了任务。9 ?* ~3 W. a. G# D- W5 p4 C8 P
段落清楚,列清楚,页眉页脚全部去掉。
0 q+ ^& C8 O1 N; [# @我要疯掉了!: u# A7 N1 f: g7 }0 Z
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
" j( @6 d7 X/ t! B3 e0 V# E====3 z" a' A( ?* W! s0 u
中文也很完美。2 V) d/ Q2 N8 D% d: ^& Z5 R
经验值,每次十页比较稳定。
% }+ V  X# R7 i% H8 D现在我这里API还不能用,等恢复了,全自动了。4 c+ c0 z, d+ i
====
1 r" u9 y5 V3 Y第二次疯掉了!
8 a+ a7 A. J! f0 O) S我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。/ [# L* h' m4 P/ I
====( T. P  p9 M3 w+ U; v) x1 X
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
: E" f% R- i% f# Y" ]) D% o0 N% r6 J- h但是任务多了后,每次翻译的页面数是减少的。, T7 \+ H3 a. ^! s( @6 d* s
好吧,我五体投地,继续探索。
3 q1 t) z* c) g% V$ B# s====7 }* [9 C# S( e! u
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。2 `2 ?+ p+ x" q7 e( A. H$ @1 [
====
% a' b5 q& y$ u; R. G) w3 f好吧,有些东西是不给翻译的,哈哈。; {$ K# y: [2 |1 k5 a

! d4 m# ?0 }$ R5 b5 N0 z3 sSorry, that's beyond my current scope. Let’s talk about something else.
$ {* Y1 C0 ~  l0 G( E====- O! B' N( v, @6 `$ |' C6 {1 [, y
然后我的英文命令也让deepseek 帮我修改,呵呵。
! ]1 {9 z! y9 C3 ^====
( y, k4 @- G: ?, @( h日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
2 {, N. y( N7 o' a3 ^- ~====
+ U: u: j; W8 |( g时间段的话,北京时间的下午和晚上用比较好。. ?8 o5 M2 C) o# o; q
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
* K( @; B- U( I====* e6 d9 ?" }0 ~& Q" F3 V' |7 d2 Q
用千问吧,非常稳定,非常强大。7 r  K0 p  m; {/ g( P  m3 |% O2 _4 t8 E
https://chat.qwenlm.ai/
5 S4 T, B% `+ S( |  n" O! u1 s====) S0 ~6 r( R/ T) m+ F$ A
Deepseek,API 看上去可用了,但是不给充钱。
# D4 M; \7 @" f% t+ {  u- ^
1 Q3 f4 _0 b9 G- c! Z% E: P5 U! A) ~5 H" Q

+ S6 l7 B- v5 H

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3828 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53) X3 |" v$ }! h6 E- s2 R) l
    这功能很赞呀
    3 Z' ]# ?; e4 V8 q/ g3 }* r4 ^0 _2 ], ]
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:137 p4 u% v% n. d8 h0 q
    有没有上传整本书试试
    " P  ]8 P4 L. e( `
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3828 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    & M6 y) |* k; \$ z% G9 W8 {4 y8 g& A6 A
    以后让deepseek 读出土的竹简
    8 b" v1 U' ~, _1 M
    / D1 B/ J' s; G* ]' D5 K* @0 `还有把古文翻译成现代白话2 f& P& m9 t+ `
    % E/ n0 y( H% z$ N
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    17 小时前
  • 签到天数: 2988 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?1 c) Q2 u' F, y

    0 B- v& ]! g! L我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:238 i) N5 f6 ~4 z
    请教是如何实现的?
    , t' {5 U% a* _
    2 n/ o. i7 v( a- k我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    2 P. t7 a# ]( H9 B' P1 [5 l5 t9 ?
    1 q4 y3 S/ [+ ?( z5 K9 t" x& B& U" A我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    ; u6 a0 I$ K! V' a文字之类的没问题。估计deepseek现在暂时只保证主要功能。! u# \4 K1 L! o5 O1 `# H
    美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。3 H3 T0 e3 [3 H5 C# O0 x2 {

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ( J8 Y. U0 o% [9 j( J; R请教是如何实现的?
    & l$ A. n9 R2 X* P* [& a0 C0 j
    ( b0 E6 Y. u; P6 G8 E我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    2 O$ u6 s# {7 n' Q: [& t  M7 K1 ~https://chat.qwenlm.ai/
    5 I2 r& G" m9 S8 P5 ^( d试一下千问,估计美国人没有攻击他,所以资源敞开用。
    6 S7 W9 F* `9 s很稳定,质量不错,好像最多一次处理15页。
    ( \4 z" E7 W$ s- e2 W4 K; j- O我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 3094 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
    ; u. m. r6 E7 Z2 J+ _$ {% n4 g处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。6 H  y) X0 e  r+ w# Z
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。% t8 r- W3 E4 ?: }" P6 Q
    ' H$ o" R7 C  [
    https://github.com/oomol-lab/pdf-craft8 p3 Y3 {8 |6 m
    . p# o* s# s5 t
    1. 这个工具要求装 python3.10$ U/ I/ v" U# O- ~/ Z+ b
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.07 p5 T9 g/ o' H; P7 x( P
    3. pip install pdf-craft7 [. D# a) b+ Z5 k; x
    4. 把下面的内容写到一个文件里,例如 a.py
    9 T, b0 h: E  @/ P9 ~
    / B- v0 M' s0 g, f, Y6 H  ?
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter7 F0 M& [- z) Z- l& e+ a
    2. % P: a& y0 n9 Z- t) t1 S% t- L
    3. extractor = PDFPageExtractor(
      ) `" T' d0 i# e/ N# ^
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.6 `. c5 c2 j4 A: L$ o
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      / n1 T, M1 _$ F$ I; x
    6. )
      8 g5 O& l% R/ x0 E7 J. E6 H
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:
      * }" Q, X. f! g+ t
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):: k! D% T0 Y7 ^2 V+ b
    9.     md.write(block)
    复制代码
    5 {5 b8 U' T5 }

    ! P, v+ W8 T3 K! g8 K; K$ c' P0 ?要修改的内容:
    . }: y7 \5 N+ i5 z  J4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    ; s* b) d: M7 V0 i4.2 markdown_path:输出的 markdown 路径文件名/ l# N# x3 Q8 p" l* v/ i& J1 y
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名& j; x1 f' U- p/ v# X- l

    2 q3 t6 x0 k7 A. v( U( d5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑   H4 J+ P8 N( c+ e5 m3 z
    * r& O! H( i+ g3 O- R' Z
    目前为止PDF转纯文字的最佳办法。9 q9 {. v( X8 v8 p6 \- c
    先写个小程序,把PDF按章节切成小的PDF。
    / d6 u# B) A  n然后,把PDF一个个传到deepseek,让她抓取,除错,输出。5 a4 ?. U3 J* e+ [
    效果非常好。0 ~1 e1 ~; I! T. n0 x

    $ D# n2 U" a+ D4 \7 vdeepseek,qwen,chatgpt 三个,deepseek是最好的。* L9 a5 [( |3 p$ S

    7 w$ N' w$ \9 d9 B. t! Cdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
    ; k. l8 S9 B% [. e, m: B" o而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    3 C% V; Z$ C9 `: P  c' V8 q我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。6 c4 J, B( w6 b( K8 P1 @
    ' a0 m! S; ~" ]4 t7 F
    API到目前为止,差强人意,不如网页版本修得干净。
    & l7 r$ ?& Y1 _) V& P7 ~* Z# a/ }
    2 g# @5 @8 ^2 b, Jdeepseek可以同时开四个。% n/ c/ I& W. q1 S

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑 # @5 k) U7 r9 h, d7 v

    , S1 a$ I  S( M. }让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26' g( ^; ?) i$ g- i9 C6 }
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
    ; e2 x! ?8 @) @: ]! W
    细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33
    + [+ n2 z; R! H3 \* P细说一下,听上去很不错,多谢。
    2 K6 t' V0 A5 k! P
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    9 \5 P; u* J, u" A9 h* W! P5 K% u
    4 ]% i" o0 P9 D4 C  Z0 y已经搞定.9 v& |8 L6 T7 v, w

    ! s& n7 l: r4 Z' z( u* N: I% I首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
    ; u- n- [4 f& o* q3 O, D+ ~9 h; X; A5 \$ ~1 k- o
    1, python + pypdf 按章节拆分小的PDF* ~4 h4 C, i: a( b* N1 a- _$ K! l; L$ J
    : R3 \3 r( j; w. x, b9 I- d3 j& [
    2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
    # o/ o$ O; @) Z3 N/ [7 }
    ; t' S/ E- p/ }得到text file$ h% s7 s# S9 P* V0 u

    " V) Q- R, b9 ?/ z! U% F9 ]3, python 读取整个outputfile,丢给deepseek 矫正。
    4 m2 ~( n, ?' ^
    9 i8 w( N. W/ i% ^模型是 deepseek-chat
    $ V% e1 @6 D) A) x  O9 w
    ( `* Z. e/ n% S' Mmax_tokens 最大是 8192,别的不用改。
    5 e6 W1 Y$ N# ]% a& O) l) C4 d; y" Z+ H- o7 T9 o
    参考:" F. J2 X: z8 R4 N
    https://api-docs.deepseek.com/api/create-chat-completion
    * H: ~# n9 k1 u, X6 H
    4 f9 D8 i; I/ F% g% _7 n! N+ V4,费用:
    3 |  b5 v9 T$ c* s6 y9 o: J+ ~; f# L
    实测:8 S" k" I3 B: Q2 w
    $ ~3 P1 \1 j+ F1 Y! x, E
    296K 字母,用了 9 美分。2 M: u& w/ i; q$ y
    4 q. B$ o$ O: E2 }# O/ K4 b
    英文字母 到 token 用量大约 1/3
    8 p/ x* I  e& K# V/ A! c' z9 _6 ~" g3 T9 ~7 E. [
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899
    9 p3 r7 Z  k. z7 R8 [  w7 g% Q
    9 @/ `0 T; J- x32899 个字母花费 11782 tokens,包含输入输出的 tokens
    $ T4 d- ]( n/ c. V. I  f' r) I) b& a5 X- f2 g! |' f/ n% D
    价钱,非常非常便宜了。% Y0 n$ W! e2 c6 {4 p0 k) k

    : L4 J7 O0 N8 ]6 ~参考如下可以计算,懒得算了。+ j. R" w/ M- q2 Q2 H

    ) i" D; C2 _' n/ Ghttps://api-docs.deepseek.com/quick_start/pricing6 m1 n; w8 A6 W6 u( ?
    " g- b* q' s& c; O- o' Z
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    6 ~6 |% B: I, j  {1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    * C- R0 W& P" J( B1M TOKENS OUTPUT(5)                                              $1.10                $2.19, J2 g8 ~: V5 @' F

      G: S' D, T9 D3 Y: _: r( k5, Balance
    8 A% h8 a# r) t7 i) _- V
    ; m) `- ]$ s, |, C可以在程序里调用,知道每次运行结束后,balance还剩多少。1 E- P: }$ Z1 l' e1 W- @0 h+ H9 O6 d% n
    参考:
    3 _& Y9 w3 k7 g8 l0 p! c3 a- {https://api-docs.deepseek.com/api/get-user-balance
    * ]8 M; m7 R2 s6 q2 o; A
    * }* d* b3 w, c# m8 Q6, Models
    ' c0 T5 r. U0 a; A1 E$ K: G+ r
    . e; x' `+ F7 l% z: u目前就两个# b% {1 b+ h9 w9 N5 r- j7 a- \
    # deepseek-chat
    % ]6 P, w1 H, [" |# G& t# deepseek-reasoner: _7 v, |/ q8 D' E5 z( K) N
      ]  h3 Y" R  s) @$ e2 s: ~  l
    参考:# V/ {, e5 J2 j% R
    https://api-docs.deepseek.com/api/list-models
    , m  p! g* `7 A; E9 y/ C; v, |9 F1 o! r! a% X4 U. W8 R

    . i7 o  m% U* {. z7, 问题
    1 O- j; U+ S1 d7 A* M' \
    5 o/ [, V9 H: B& Zdeepseek 会将前后两段合成一段。
    ' x8 X- ^" e0 |5 G/ Z特别是那种大量的对话的段落,deepseek会给你合成一大段。
    ' Y6 Y: y6 E, Z# w* S2 Q! f: s; G  R' k
    8, 钱说了算。% _6 J0 ]9 h" s; ]3 F5 o1 j

    - Y# X  |' L, Z- q* l& tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
    8 O3 ^, z. B3 I, O1 H  G但是API就不会出现这种情况,毕竟我们给钱了。
    - {8 l$ h# ?8 ^; V4 X* \' echatgpt也是这样的。6 V. y  t3 }  L, r! |1 t( g
    ! e4 x3 h! U* k: j6 c: \! L2 u, h
    $ O( H/ f! u: I6 E9 ]

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-27 18:22 , Processed in 0.069024 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表