利用 Deepseek 抓取PDF的文字并矫正。
本帖最后由 nanimarcus 于 2025-2-6 22:17 编辑把PDF上传,然后让他抓取文字,并修改可能的错误。
然后deepseek完美的完成了任务。
段落清楚,列清楚,页眉页脚全部去掉。
我要疯掉了!
赶紧把自己那些成年老书给搬出来,deepseek,这是党和人民考验你的时候了!
====
中文也很完美。
经验值,每次十页比较稳定。
现在我这里API还不能用,等恢复了,全自动了。
====
第二次疯掉了!
我上传英文文件后,让他抓取文字,矫正,然让他按页划分,前面放英文,后面放中文,结果仍然完美。
====
现在我让他从PDF抓取文字,矫正后,按段落翻译,可以一次翻译多个段落,每次翻译不超过一个固定数目,结果仍然完美。
但是任务多了后,每次翻译的页面数是减少的。
好吧,我五体投地,继续探索。
====
为了防止中间结束,可以告诉他必须所有页面全部处理完就可以了,我现在是应该佩服我自己呢还是应该佩服 deepseek 呢,抑或都佩服。
====
好吧,有些东西是不给翻译的,哈哈。
Sorry, that's beyond my current scope. Let’s talk about something else.
====
然后我的英文命令也让deepseek 帮我修改,呵呵。
====
日语的文本他也可以处理,过程一模一样的。问题也是一模一样的,假名太多,汉字很少,我不懂日语,翻出来都不知道对不对。
====
时间段的话,北京时间的下午和晚上用比较好。
后半夜和早上,美国人上班了,要么在用,要么在黑客攻击。
====
用千问吧,非常稳定,非常强大。
https://chat.qwenlm.ai/
====
Deepseek,API 看上去可用了,但是不给充钱。
这功能很赞呀 马鹿 发表于 2025-2-2 03:53
这功能很赞呀
简直太赞了,我现在正在思考还有什么工作需要 deepseek 干的,现在的上限是我的上限,不是 deepseek 的上限。 有没有上传整本书试试 indy 发表于 2025-2-2 04:13
有没有上传整本书试试
目前看来,差不多十页左右就停止了,看看还有什么诀窍不。 本帖最后由 马鹿 于 2025-2-1 15:43 编辑
以后让deepseek 读出土的竹简:lol
还有把古文翻译成现代白话
以后不认识的字不查字典了, 直接问deepseek 请教是如何实现的?
我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后,发出指令提取文件中文字,始终是文件解析中。直接在DS里问如何上传PDF文件,并提取文件中文字,照做其实是一样的。{:214:} 方恨少 发表于 2025-2-3 01:23
请教是如何实现的?
我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
我现在也上载不了了,"upload failed",几个小时前还好好的,应该是服务又受攻击所以功能收缩了。
文字之类的没问题。估计deepseek现在暂时只保证主要功能。
美国人就这样,打不过就耍流氓,估计要等一段时间才能完全恢复。
方恨少 发表于 2025-2-3 01:23
请教是如何实现的?
我在网页版和手机版都尝试了,都不行,网页版上传PDF文件始终不成功,手机版上传之后 ...
https://chat.qwenlm.ai/
试一下千问,估计美国人没有攻击他,所以资源敞开用。
很稳定,质量不错,好像最多一次处理15页。
我直接拿deepseek的指令用,没有区别。 试了这个工具,可以转成markdown,正确率很高,有漏行,图片会放在一个指定的目录下。
处理一本100页左右的扫描版本的中文PDF,一份某行业的接口标准,纯CPU,几分钟时间。
这个工具不能处理表格,我把文件拖到豆包里,“把这个文件中的表格转换成 markdown。只是表格,不需要其它内容”,表格多的话,要发好多次“请继续”。
https://github.com/oomol-lab/pdf-craft
1. 这个工具要求装 python3.10
2. pip install onnxruntime==1.21.0, 有英伟达的卡:pip install onnxruntime-gpu==1.21.0
3. pip install pdf-craft
4. 把下面的内容写到一个文件里,例如 a.py
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(
device="cpu", # If you want to use CUDA, please change to device="cuda" format.
model_dir_path="/path/to/model/dir/path", # The folder address where the AI model is downloaded and installed
)
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/file"):
md.write(block)
要修改的内容:
4.1 /path/to/model/dir/path:存放模型的路径。第一次运行这个脚本会从 huggingface.co 下一个模型,国内的要科学上网,国内的镜像上没这个模型
4.2 markdown_path:输出的 markdown 路径文件名
4.3 /path/to/pdf/file: 输入的源PDF路径文件名
5. 运行 python3 a.py 本帖最后由 nanimarcus 于 2025-4-16 19:50 编辑
目前为止PDF转纯文字的最佳办法。
先写个小程序,把PDF按章节切成小的PDF。
然后,把PDF一个个传到deepseek,让她抓取,除错,输出。
效果非常好。
deepseek,qwen,chatgpt 三个,deepseek是最好的。
deepseek 把页脚页眉页号全给去除干净了,跨页的段落也给你修好了。
而且deepseek不会加戏,chatgpt有时候会想当然的加上没有的文字,让句子看上去想那么回事。
我曾经修一个历史文章,chatgpt给我活活加了三段,真是文豪。
API到目前为止,差强人意,不如网页版本修得干净。
deepseek可以同时开四个。
本帖最后由 三力思 于 2025-4-17 12:27 编辑
让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL 三力思 发表于 2025-4-17 12:26
让Deepseek给你开发本地架构的抓取PDF软件,并负责上传,下载。 AI监工AI。 LOL ...
细说一下,听上去很不错,多谢。 nanimarcus 发表于 2025-4-17 16:33
细说一下,听上去很不错,多谢。
直接问DS,“用C#,JAVA语言开发把PDF分成单页PDF并上传DS程序的源代码” 本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
已经搞定.
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
1, python + pypdf 按章节拆分小的PDF
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
得到text file
3, python 读取整个outputfile,丢给deepseek 矫正。
模型是 deepseek-chat
max_tokens 最大是 8192,别的不用改。
参考:
https://api-docs.deepseek.com/api/create-chat-completion
4,费用:
实测:
296K 字母,用了 9 美分。
英文字母 到 token 用量大约 1/3
tokens: total, 11782 completion,3729 prompt,8053 | s:32899
32899 个字母花费 11782 tokens,包含输入输出的 tokens
价钱,非常非常便宜了。
参考如下可以计算,懒得算了。
https://api-docs.deepseek.com/quick_start/pricing
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
1M TOKENS OUTPUT(5) $1.10 $2.19
5, Balance
可以在程序里调用,知道每次运行结束后,balance还剩多少。
参考:
https://api-docs.deepseek.com/api/get-user-balance
6, Models
目前就两个
# deepseek-chat
# deepseek-reasoner
参考:
https://api-docs.deepseek.com/api/list-models
7, 问题
deepseek 会将前后两段合成一段。
特别是那种大量的对话的段落,deepseek会给你合成一大段。
8, 钱说了算。
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
但是API就不会出现这种情况,毕竟我们给钱了。
chatgpt也是这样的。
页:
[1]