设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2818|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑 . v1 i7 i; D4 g/ W
; a; `/ j/ B( {* y/ j( B' F3 m6 U3 u
把PDF上传,然后让他抓取文字,并修改可能的错误。
/ P- E' _( ~. f% [* X" Q然后deepseek完美的完成了任务。" G1 e+ I- x3 h6 m, `% z
段落清楚,列清楚,页眉页脚全部去掉。
' y& j; W1 A. f. d& `我要疯掉了!
6 B( M2 G1 h. o- i! I4 b赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!- |$ ?) T0 F4 g  s
====
5 E2 v  k. w) J, R: @4 m3 q: }0 f中文也很完美。
- v7 L) ~, j# Y  B$ r# w# g0 }经验值,每次十页比较稳定。/ H# @2 A- x! Y
现在我这里API还不能用,等恢复了,全自动了。
. h9 K: _" ]- Y. s6 S) w====
. w, N/ D' a3 I  K第二次疯掉了!& s2 s2 z9 D7 B9 w  r& M0 b2 t3 F
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。3 t; m% ~1 l  E" U
====
# T6 U' R4 h* N& [1 H7 x现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
% G& [8 c, c$ N" e5 H, `但是任务多了后,每次翻译的页面数是减少的。( H* Y/ G( ]5 N7 z# l5 U% J
好吧,我五体投地,继续探索。2 ^% k) H% H& V1 g) u
====
5 s6 C' X2 i! [: [# Z为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
! P% X# k) u# O. t0 ~( j8 _====, W7 a4 d" O- X0 x
好吧,有些东西是不给翻译的,哈哈。
: B/ C& o- S/ M5 Z
  v, {6 X" O9 W& u9 @* I3 iSorry, that's beyond my current scope. Let’s talk about something else.$ ?" r: x2 D( d  `1 j! j# y3 Q
====$ c* N, p$ q5 T& V
然后我的英文命令也让deepseek 帮我修改,呵呵。# L9 @7 T6 n2 p( b" d
====
. r$ z$ z: G+ `( `' a, T1 |日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。: C, Z& j$ d. B0 Y& A# W
====
! [& {- ]* j  Y* p时间段的话,北京时间的下午和晚上用比较好。
8 t1 x2 j0 s& r# G后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。1 Q+ A. t' d( G0 {" b4 [
====
8 D8 j, y! J. [4 `8 V用千问吧,非常稳定,非常强大。2 V9 Y# g" R' J3 }2 l; h
https://chat.qwenlm.ai/
) K8 i3 v  Y' q9 ^3 R7 K====, c: n# j& ?1 g
Deepseek,API 看上去可用了,但是不给充钱。
$ O3 D: {0 r  n  z" f
# F# W" ~( b7 c. c# w9 r2 @
5 M% I( K! k( c$ f9 E0 q, v0 ?1 o: h2 D% H# s: b- b' C2 p

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3734 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53& O3 E. ~$ [, }
    这功能很赞呀

    * X/ D7 k, l% b4 d0 {简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    . ^$ ?0 {+ b  m9 L5 n( f% Y. s* `" p6 o有没有上传整本书试试

    9 e+ Z) d7 q. y0 D$ z$ o2 N目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3734 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑
    / x% d, S' h& i2 e6 F  @, \) Z  q
    以后让deepseek 读出土的竹简9 D6 _4 [; j3 l9 y& S7 x

    % o- ^# Z; Z/ I) G/ L还有把古文翻译成现代白话! {  d$ e* B* |! V! h5 q

    2 K' g' z6 W/ M2 b以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    1 小时前
  • 签到天数: 2895 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    0 I8 I! e( J6 k, U4 x$ k
    4 R$ O; @, m# e: X9 O! _我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23
    ' H0 M( f, e& f, S- |, O8 a5 h% p请教是如何实现的?
    & T) `+ f" p0 t4 @5 d( E, r* w# x! w2 |+ x5 K0 K9 h+ o
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    - \2 S: Q; p' ]
    * }7 p+ H1 Z+ t$ c! {
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    / D9 c  m1 r$ i1 F- P0 O# x文字之类的没问题。估计deepseek现在暂时只保证主要功能。
    ) E, V* {# _1 d3 B美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    ' f% ]; }, s3 \

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:237 c0 G$ t* }- i& p/ Q
    请教是如何实现的?
    ; ^4 }1 [# {( x) V
    " {; H' V3 H& ~. x: t8 O我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    & @: `, i0 N/ E1 a% P. `7 whttps://chat.qwenlm.ai/4 A' o! Q; {/ T7 w
    试一下千问,估计美国人没有攻击他,所以资源敞开用。
    + L8 }( ]+ F" Z& a" U8 R很稳定,质量不错,好像最多一次处理15页。
    : ?2 A* ^: H/ S" Y2 _6 p我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3007 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。0 E5 ]. P0 g3 U7 {2 q; p+ C
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
    ' y/ X& `2 P$ S. R& G5 ?这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    6 |7 ?" \" s: P3 t2 J+ T  w6 b0 P4 D+ M: h: [
    https://github.com/oomol-lab/pdf-craft
    + N3 |5 W3 R5 g/ F
    3 n: h; k6 @# T0 }- M1. 这个工具要求装 python3.10
    , |, N+ l" E! Z! c5 [: M; L2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0& g/ M! V; f8 O
    3. pip install pdf-craft! @# S# S; |2 E3 e! y: ^( w% F
    4. 把下面的内容写到一个文件里,例如 a.py! t/ \1 p( G+ Y3 m" @# L2 {8 i- \
    8 b: b+ ]- p& e6 w' U3 l
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter, e0 ?1 w8 z" B$ g0 n* ?4 ~

    2. * C' \! ]; k2 ]
    3. extractor = PDFPageExtractor(% X6 L1 \6 A- D3 d+ l
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.# R6 O/ h% ]5 w) a  T! O
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed
      0 _- J  a; ~# x- f5 F! W
    6. )
      * |( @0 z7 h' |
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:- M* T2 ~) J1 v( @
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):3 ~1 ^# o; q! ?% Z
    9.     md.write(block)
    复制代码

    7 U* O8 ]9 h. s% r" i$ U& A. N6 x+ a7 w- l; M3 s
    要修改的内容:
    3 L2 D, j4 l4 [6 C7 x- a) Z2 B" t4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    & H$ z0 s1 m: ]& ^4.2 markdown_path:输出的 markdown 路径文件名( i9 M5 M& z  W1 m
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名! G3 X, x& z+ m7 {

    , |/ _" x  [$ c, O# w5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
    * Q# Y$ \2 r8 B# i% {, X& \' Z6 C) @+ b; G% b9 x
    目前为止PDF转纯文字的最佳办法。
    : w6 z/ r; T( f' Q+ e; }先写个小程序,把PDF按章节切成小的PDF。; A1 o/ X* R' P! \1 N
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    , m. R+ l: ^! V' @效果非常好。! U4 Z. r( h/ R( G# p9 ^) Y

    2 \. [% k: ^( ]/ c( }deepseek,qwen,chatgpt 三个,deepseek是最好的。
    6 d; [9 U) R+ U. G5 S8 [: S$ w, ]$ b* F* ^1 ?! [
    deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。. n$ T6 r2 Q" K
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    3 x/ X$ q/ k+ p- s& w4 G我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。9 A& c6 p' J- K2 d5 K6 g

    ! Q, D% x; B8 F9 gAPI到目前为止,差强人意,不如网页版本修得干净。
    ! S- X  U( i% \1 L( |( y; y
    4 r" [, g- s! d  A! k* ~. }% udeepseek可以同时开四个。
    3 Y3 y, }" N# p# l

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑
    # ?+ e6 u1 t* x3 K7 p7 m6 L  f  Q3 W* ^6 [3 ~  V! Q8 a& `
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:26* A. h! g% U, W  W* X: ]! w. Z
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    ) e, Y2 Q  o* g0 V+ }细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:339 m, u$ T/ J5 ^) e' \' M, T# R* j
    细说一下,听上去很不错,多谢。

    & a0 y3 Z- k$ u' F: F  O# e直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
    * {8 a4 s1 m6 F% Z" B1 c! k, P2 ]8 p" m/ C
    已经搞定.
    8 H) i2 A+ x' ]3 Q- X4 b. a0 y# e8 M! V: A* p! O* h1 ~
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。0 ~& ]: o9 P/ V; O! m$ U

    ; P* ]- D3 f# p& I9 K# g2 i" ~1, python + pypdf 按章节拆分小的PDF
    & A: n6 i; J& y' d8 f
    * q2 X! V# f! i! i- V2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile- H6 g. b5 W, f3 N
    , M9 Z9 Q% V' X3 b& T, T, _
    得到text file
    % S" v4 @; Z" H4 I9 k
    / n; j4 |, C3 |' z4 f3, python 读取整个outputfile,丢给deepseek 矫正。& W) b- o4 O+ Z1 c' n. A
    0 v7 E6 H8 N& w: E( _) l  p
    模型是 deepseek-chat
    % i/ G) Y- F; _. ~% p; c* G/ v9 R' F" S3 Q( ~; \! s
    max_tokens 最大是 8192,别的不用改。
    ! k+ n6 {( N/ B8 q/ V5 ~
    ; \& O& R1 k/ y; y$ T4 Y7 {1 o* ~7 X+ a2 n参考:
    2 K, l) g  B  rhttps://api-docs.deepseek.com/api/create-chat-completion; t& T7 U- P& {) ~0 f# K% m2 Y
    + D1 k7 ^2 @+ Y9 ]% ^) Z, v' W
    4,费用:" i- Y& T. Q' S: ^
    0 [/ J6 z& z" \2 ], @' z# G6 H
    实测:
    & @7 u9 w8 h* |9 G. B) |6 o4 i  W2 G; v' @$ L9 s: A4 t7 @- G/ q
    296K 字母,用了 9 美分。! s; ?2 o0 L0 u. l$ R! p! V! G

    / Q+ E- ^( N. y1 m# G3 F( n英文字母 到 token 用量大约 1/30 p# O# ]& Q! j3 Q# B- t

    2 N( L& z$ e$ c1 utokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899: z5 D  r8 A4 E9 y5 K
    ' e2 g+ O, b, f+ r- n( D1 s
    32899 个字母花费 11782 tokens,包含输入输出的 tokens
    . u8 l  i& ?  `2 \' _3 y% `; `4 |
    价钱,非常非常便宜了。1 ]) j& ?- C2 [6 ^* W6 n! \
    " c7 _& Y( T/ s3 R+ y& |
    参考如下可以计算,懒得算了。' s! K& x" X+ n6 B  M
    / a5 H; c+ t: s" f3 X& b1 o" v
    https://api-docs.deepseek.com/quick_start/pricing' u; w8 T1 j% z8 x( P! G* ^9 ^
    5 X; ]7 ^0 a7 a
    1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    - `* ?/ R! G/ X7 l0 O1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55
    : O3 d3 t& |1 d7 W; w7 M9 u! F1M TOKENS OUTPUT(5)                                              $1.10                $2.19$ y/ Q) X# B: ?, z5 ]3 N/ |" ]
    6 b/ S8 q8 i& {) }
    5, Balance6 G, m* k% E8 J: ~) r

    ' d4 k! f1 g8 _3 \& V5 I" `5 N可以在程序里调用,知道每次运行结束后,balance还剩多少。" X2 X1 A& G- }" d5 T6 w( S, z
    参考:( ]- v7 x' |7 R4 u3 e6 y6 U
    https://api-docs.deepseek.com/api/get-user-balance
    0 S, F4 l8 N. U, d/ S8 K! F, {1 E* M% k& n
    6, Models
    ) H2 G/ i% g; X8 a9 q
    " E. z7 x; S. ?# q目前就两个! X7 j  h0 ^/ X  T  |
    # deepseek-chat( T% @$ S6 V: B9 c# Q7 R7 d
    # deepseek-reasoner5 ^. L: h. q) W8 w2 j% Y. Q
    ) g# I% a. ], ^" c- ]2 K
    参考:& C+ A' z# U" S# D! A8 k( K
    https://api-docs.deepseek.com/api/list-models  R7 n7 l2 i3 Y4 W& ^( W

    * _$ N! I6 [  {7 M/ l
    - ?9 R! ]  ~; l" Y* @& g- P# H7 \7, 问题, V0 J, }4 f6 A; t( Q! @* q7 R
    6 d6 a* i! o4 R7 N1 U: ?+ f% k9 U
    deepseek 会将前后两段合成一段。
    * M0 n; q) e9 K特别是那种大量的对话的段落,deepseek会给你合成一大段。
    . S4 [4 t5 u; H& M- F2 Z, k0 G, j) |6 U. }2 n
    8, 钱说了算。, W+ E" n0 q2 a: w9 a: s
    " j/ K6 ]' I% J
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。, V" M) ?" H/ P. o% m' o4 ?+ K5 t
    但是API就不会出现这种情况,毕竟我们给钱了。" U7 P/ ^  C1 ]- n9 u0 G& `
    chatgpt也是这样的。
    ( Z- ~- w/ u: R
    , K; |) m; ~% c6 {; L0 ^7 U
    # _0 L% u# X: u

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-25 03:22 , Processed in 0.081935 second(s), 27 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表