设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 2145|回复: 17
打印 上一主题 下一主题

[工程技术] 利用 Deepseek 抓取PDF的文字并矫正。

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2025-2-2 03:35:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑
. X9 F3 b+ _( Z6 c5 S* w  T- B
; D& k0 H) u: k1 Z( j把PDF上传,然后让他抓取文字,并修改可能的错误。
) `- z; h9 k4 G2 k& r4 G, H然后deepseek完美的完成了任务。
& f" {1 [7 z2 D9 _2 p& V0 M段落清楚,列清楚,页眉页脚全部去掉。5 i& m3 z& A  y$ a# C
我要疯掉了!. o/ i  [) |3 G3 z- q4 Y* S
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!( t/ S  Z: J5 J: x( ~6 y* D
====
, R$ {3 L8 f& d, ?中文也很完美。0 H; ]  _4 D1 f+ j
经验值,每次十页比较稳定。
+ L( b7 V/ q  j5 v5 A! |( N+ p0 v- Z8 H现在我这里API还不能用,等恢复了,全自动了。
. u0 V1 W5 k% a# S9 y3 X1 O====0 P0 J1 C/ H" \3 T1 `% k) X
第二次疯掉了!
6 \5 o+ @; K# t4 [- W我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
5 V5 G: N; p' I1 X- K3 r2 h. P====
4 k" L5 z" t3 c7 d现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。# J8 D2 o/ l( Z  V7 A
但是任务多了后,每次翻译的页面数是减少的。& }2 h3 h" p+ v9 C& _1 k# \
好吧,我五体投地,继续探索。
9 g& B; ~, j9 t- R/ T+ _8 |====& b$ w  ^4 d/ O/ b5 _+ e3 c! f
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。0 k0 f. m% l! [; M0 W) m
====
+ W6 e8 ?% l0 D好吧,有些东西是不给翻译的,哈哈。! }+ U" m& J5 `% h5 g! `3 _

: e" ]9 }; e9 v2 Q0 ASorry, that's beyond my current scope. Let’s talk about something else.
, ^4 J! }2 M# S$ J) a! d8 h: g====
0 F8 R0 @$ P, k9 e) \: W然后我的英文命令也让deepseek 帮我修改,呵呵。
+ G& J, W" T7 q: m====8 B# Q# B6 v: @& g1 ~
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
7 O" o% S% t. W5 b# L6 E7 U====# U" y+ h, E* N4 H; `3 ~6 S! L
时间段的话,北京时间的下午和晚上用比较好。
/ I  x3 e8 Q4 X- v后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
& b. I% `5 u& \2 O, w" v/ v7 G; K====
) n# B% ~$ C, G* U/ Z1 W用千问吧,非常稳定,非常强大。
! s6 {% ~6 x( s1 J# ?' o3 H" _2 ohttps://chat.qwenlm.ai/
' l5 a3 x* g3 o9 M1 I/ E====
% M4 x  J" }6 |0 L* N6 R  zDeepseek,API 看上去可用了,但是不给充钱。/ ^. F9 D8 q* x  G$ m
' J4 v. j" C) c1 w8 Q

8 d7 _, q. p* `) X
# n8 Q: Y* L' {9 \' o

评分

参与人数 11爱元 +102 学识 +2 收起 理由
testjhy + 10
johnsonjian + 10
helloworld + 10
laser + 10
笑羽 + 10

查看全部评分

  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 3585 天

    [LV.Master]无

    沙发
    发表于 2025-2-2 03:53:32 | 只看该作者
    这功能很赞呀

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2025-2-2 03:56:21 | 只看该作者
    马鹿 发表于 2025-2-2 03:53  x; {; @9 d7 Z0 q( Q% v8 `3 ]' V; o
    这功能很赞呀
    + _$ W, P+ |0 D; z6 x5 i; r. a
    简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。

    点评

    给力: 5.0 油墨: 5.0
    油菜: 5.0
    油墨: 5 油菜: 5
      发表于 2025-2-2 08:23
    给力: 5
      发表于 2025-2-2 04:41

    评分

    参与人数 2爱元 +20 收起 理由
    笑羽 + 10
    indy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2022-1-1 00:00
  • 签到天数: 793 天

    [LV.10]大乘

    地板
    发表于 2025-2-2 04:13:28 | 只看该作者
    有没有上传整本书试试
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 2025-2-2 04:27:15 | 只看该作者
    indy 发表于 2025-2-2 04:13
    + C# C8 q8 V# @7 E: P. j3 z有没有上传整本书试试
    3 k- Q  B7 r( I) s8 q* g
    目前看来,差不多十页左右就停止了,看看还有什么诀窍不。

    评分

    参与人数 1爱元 +10 收起 理由
    indy + 10 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 3585 天

    [LV.Master]无

    6#
    发表于 2025-2-2 04:41:51 | 只看该作者
    本帖最后由 马鹿 于 2025-2-1 15:43 编辑 6 R9 f( S9 t; }1 {  T: Z' A- }

    ! V' B4 r, T9 P. C以后让deepseek 读出土的竹简
    0 R1 ~) ?% L0 ]4 k& x7 `  |" L
    / B6 v7 _$ V0 j  Q还有把古文翻译成现代白话
    9 }; y+ V7 Y1 v% V- N  [+ r0 \8 D$ C- n. ]" K* N- [4 h
    以后不认识的字不查字典了, 直接问deepseek
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 04:56
  • 签到天数: 2752 天

    [LV.Master]无

    7#
    发表于 2025-2-3 01:23:54 | 只看该作者
    请教是如何实现的?
    5 D, F0 _! M" s( Y. L
    4 H1 A; o  y/ x. F, s+ Q9 a- P4 T我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2025-2-3 03:06:35 | 只看该作者
    方恨少 发表于 2025-2-3 01:23& O7 a6 m- N: _. s% p4 O
    请教是如何实现的?
    * h" {& y2 D$ n3 j) d% e2 `# M* l, k9 i2 Z0 v& T' i3 ]  W3 L" `
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
    0 J0 O! g. H' B
    & Y! W1 c, e4 F' D% M
    我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
    : w+ ?" U4 J2 ]文字之类的没问题。估计deepseek现在暂时只保证主要功能。
      {( W* I' m4 n* }0 M美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
    + r3 b; z: l/ {4 `2 |

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2025-2-3 03:40
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-5 00:15:37 | 只看该作者
    方恨少 发表于 2025-2-3 01:23* a! i$ }, _% R4 Y
    请教是如何实现的?
    9 U- T7 Q0 u! C" n$ x! `  f3 b& u9 O" z+ x
    我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...

    - I6 ^6 l% U- Q8 p0 Thttps://chat.qwenlm.ai/
    ( M+ `1 ^( k# {5 |试一下千问,估计美国人没有攻击他,所以资源敞开用。6 V/ i5 F9 |, G1 A) T& X4 C/ B) }
    很稳定,质量不错,好像最多一次处理15页。% o+ h1 P9 |* v0 P  C2 a" B
    我直接拿deepseek的指令用,没有区别。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 2866 天

    [LV.Master]无

    10#
    发表于 2025-4-16 17:01:29 | 只看该作者
    试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。1 G- o, u8 }' J( J, @; l
    处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。# O: [9 A7 \, C* J
    这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
    2 W9 ~3 u0 w" m0 j+ ]% |
    ; m: U- ?# Y) F& i0 Jhttps://github.com/oomol-lab/pdf-craft: s/ l9 I% [0 R* d0 ~
    1 T, U+ `6 \  V& V
    1. 这个工具要求装 python3.10% F, {+ R, _- \, E! u
    2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
    0 T+ z9 f& q5 ?% i8 u* F$ @3. pip install pdf-craft. }8 a3 U! K; S# P
    4. 把下面的内容写到一个文件里,例如 a.py
    * g9 c7 K8 ]# Z, ~9 i3 Q  T, q2 m" T+ k5 z
    1. from pdf_craft import PDFPageExtractor, MarkDownWriter0 m% M% _" B. |. X' u* K

    2. ; x6 {+ J  j( Y& W/ H1 O, `& I
    3. extractor = PDFPageExtractor(
      / H4 Z4 J6 U9 e* u% k7 [2 T  `7 F
    4.   device="cpu", # If you want to use CUDA, please change to device="cuda" format.
      2 G8 @' k( u" ?1 `; m( o) ]
    5.   model_dir_path="/path/to/model/dir/path", # The folder address where the AI ​​model is downloaded and installed+ i! P- v' @! K) N# K" Y) _
    6. )9 a& n3 M" ^! t- ~! G
    7. with MarkDownWriter(markdown_path, "images", "utf-8") as md:, ?$ ~& W% D4 _+ ^3 ]
    8.   for block in extractor.extract(pdf="/path/to/pdf/file"):/ T8 Z" L) b) k! M: Q/ k+ P
    9.     md.write(block)
    复制代码
    . N4 y! ~3 G" [8 g
    + E8 `( L- o0 G1 {! }7 N# U7 j
    要修改的内容:
    6 p( V3 w8 h% E9 L) C4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
    . y6 q6 ~$ U! q4.2 markdown_path:输出的 markdown 路径文件名5 Z/ N6 J* @% d/ G
    4.3 /path/to/pdf/file: 输入的源PDF路径文件名8 K0 `& B- Z+ c/ Q
    4 D5 Z0 M( J3 `7 e8 S' Q$ ~: h
    5. 运行 python3 a.py

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2025-4-16 19:47:30 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑 - ?& a. H8 U# `# i) b  C

    - R5 H6 U# c* V9 o; ?目前为止PDF转纯文字的最佳办法。" n7 u0 b# \4 e) e  Z1 d( u
    先写个小程序,把PDF按章节切成小的PDF。) j" Y% G# \$ D0 Z& {7 N
    然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
    0 v, B# u1 w6 p9 t3 q& U8 j& i4 g效果非常好。6 j) a- y0 x3 b. [: r+ Q0 n6 L9 z
    ! v& ], V0 U7 \  l- u
    deepseek,qwen,chatgpt 三个,deepseek是最好的。
    3 s$ c3 ~. J1 j1 k/ ~3 l8 {2 K
    0 J$ U( O7 b9 Pdeepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。# r. L: D: z2 c  k# f8 ^0 q1 }# y% _
    而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
    8 }" b8 P2 y7 s3 A& U3 b我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。" V* [! H9 L' `7 T

    ) e% c/ [1 q' c! DAPI到目前为止,差强人意,不如网页版本修得干净。
    * J( F9 n6 s8 l& R: S/ t/ G4 p, e! x6 t
    deepseek可以同时开四个。" m! ~5 z+ @& B( t2 n7 p/ l

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    12#
    发表于 2025-4-17 12:26:23 | 只看该作者
    本帖最后由 三力思 于 2025-4-17 12:27 编辑   Y/ k& \$ t; K# @
    % z- |$ |; s' [6 J# p& V6 f
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
     楼主| 发表于 2025-4-17 16:33:20 | 只看该作者
    三力思 发表于 2025-4-17 12:264 S. ~; @6 h% E
    让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...

    , x" B& {2 d8 G) [3 D; l4 m细说一下,听上去很不错,多谢。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
    发表于 2025-4-17 21:22:24 | 只看该作者
    nanimarcus 发表于 2025-4-17 16:33& u* i3 _/ R& R7 F7 S
    细说一下,听上去很不错,多谢。
    & G7 h5 K9 M/ \- O7 e+ _! W9 j9 v$ d
    直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码”
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
     楼主| 发表于 2025-4-17 21:55:57 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 2 R2 V% d6 D+ k" X# X) }! _8 y
    ( q; E1 y! J( K# y/ D5 [
    已经搞定.
      p1 O7 k3 j. g* V; x1 y$ T0 Y2 h# c9 J; u
    首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。& L& @9 H2 ?  ]7 G0 P

      C! T& y2 T6 W: e( s4 p1, python + pypdf 按章节拆分小的PDF/ [/ }; }) T$ S  e8 y

    6 R0 G# G: L' {8 K) _1 R, X2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile  X8 E0 n+ ]2 l% p6 y. p
    ( q, b# g( Z) a. S. G1 e
    得到text file
    5 B% [: x& }( {/ e$ }
    % ?/ }, F9 e, r/ Y+ Z$ P# t: x3, python 读取整个outputfile,丢给deepseek 矫正。" `& Z4 P$ N7 o  c& J- ?

    1 P1 |  v$ {6 J模型是 deepseek-chat
      v5 ?  o, [3 X) K- [+ _
    # W5 \- H3 ?/ g7 e" ymax_tokens 最大是 8192,别的不用改。2 N* v. V# ^' \  F

    , a& b- O2 v- j% |! E参考:
    " A: n$ k6 G" N7 f7 |- C) I+ Lhttps://api-docs.deepseek.com/api/create-chat-completion
    ; j. B2 d: x( `7 R% \( s" _
    , V. h. ^6 G# C. k1 R4,费用:* f: \. m5 _' D6 S. G0 L" n! i

    , I- ?& l* D- M" d实测:' o% a2 y- G, d  l/ N, L4 v

    % K  C. D, C4 L3 @296K 字母,用了 9 美分。
    ! y# o  ]+ s7 d4 r2 P  i& l0 g& r3 m8 Y6 t- \+ E$ q" n
    英文字母 到 token 用量大约 1/3
    ( `6 Q/ r9 T  j- V2 x$ q8 V2 L& h0 W: f" j/ o
    tokens: total, 11782 completion,  3729 prompt,  8053 | s:  32899- t: G3 m0 C/ V9 v

    # l- t) F7 b8 l! x32899 个字母花费 11782 tokens,包含输入输出的 tokens
    % u# {! W0 D+ f7 E- o- O/ J) D7 I) ^
    价钱,非常非常便宜了。' U& v9 k+ ]% p9 ~6 A0 I( b; }
    ; i8 ?, r( X# F) i* ?4 `  d# j
    参考如下可以计算,懒得算了。2 E: c4 ?9 ^* Q. v" x- a8 m

    ; q9 ?* r, j6 Y$ Y; |https://api-docs.deepseek.com/quick_start/pricing
    2 x5 i. t$ ~2 l- v4 K' p
    3 L% E* i6 O! ]2 a. ^1M TOKENS INPUT (CACHE HIT)(4)                $0.07                $0.14
    % C' s4 o1 f8 a+ ]6 ~' i" J1M TOKENS INPUT (CACHE MISS)                  $0.27                $0.55' [% D' \6 Z  U9 e7 q
    1M TOKENS OUTPUT(5)                                              $1.10                $2.19
    5 F/ F  Q' T1 i; s# G
    4 b5 ~2 K* Z9 N8 E5, Balance) D5 Q5 C7 l. Z, q, c& |& _

    : m9 L9 }; @( D$ j可以在程序里调用,知道每次运行结束后,balance还剩多少。' v: X* t( k. `; L+ y
    参考:. ?, W, p0 Z1 {& r4 r
    https://api-docs.deepseek.com/api/get-user-balance
    + h4 M. x) T7 _+ p8 Q/ I: ?  w$ J; l: [* w' C6 b2 w; j( w* y
    6, Models
    , l1 q/ v! I8 @- ?) O5 Q" \/ ~3 q2 \
    目前就两个
    , H' g- ]$ F! `- a8 n# deepseek-chat
    ' I1 T: g5 V8 G5 B# deepseek-reasoner
    ; C" w0 e- J8 S+ ]/ _  H; S/ ?% j* q/ t( ~4 `  y  x5 @( l$ k
    参考:
    ( K3 c* m: v0 Y+ X& E2 Ehttps://api-docs.deepseek.com/api/list-models
    $ E7 `) B& g) Q
    5 q4 b; S! ^- y  _% G/ S0 A; i. N& X3 p& m
    7, 问题. M& z( Q' B7 z" _

    6 @: `9 V" ?$ p5 U. wdeepseek 会将前后两段合成一段。
    / u. A) D/ h# q! o3 O4 h( T* f特别是那种大量的对话的段落,deepseek会给你合成一大段。" x% D( {% ^5 B* ]  N# _' ?1 ?+ }

    : L! e9 [  P6 g4 t3 b8, 钱说了算。2 o; e1 C. q+ W- |9 g
    # N1 `( T: ^* P
    deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。# y' K+ ^; ?% f+ I1 c' A
    但是API就不会出现这种情况,毕竟我们给钱了。: b4 ~1 Z, \+ t4 z* K
    chatgpt也是这样的。
    0 ]+ U3 Z- r, x7 M/ w) C! C; D* B# a
    6 D* [6 W) D  T7 z% q

    评分

    参与人数 2爱元 +14 学识 +2 收起 理由
    唐家山 + 4
    老票 + 10 + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-24 17:02 , Processed in 0.037189 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表