设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 121|回复: 0
打印 上一主题 下一主题

[其他] AI帮忙捞河泥

[复制链接]
  • TA的每日心情
    开心
    昨天 07:27
  • 签到天数: 3039 天

    [LV.Master]无

    跳转到指定楼层
    楼主
     楼主| 发表于 前天 17:55 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 唐家山 于 2025-9-17 18:05 编辑

    西西河不想去了,但是这么多年自己发的帖子还是想收藏一下,算是敝帚自珍吧。
    在DeepSeek(元宝版)的帮助下,生成了一个抽取脚本,把自己的所有发贴都下载下来,转成了一个pdf文件。
    先是做了一个可以无需登录的python脚本。方法很简单,告诉AI索引贴网页的url和DOM树结构,某个贴子的标题和内容的块结构,以及单贴所在页面的url和DOM树结构。AI很快就生成了一个能用的脚本,可以下载所有公开发表的帖子。
    现在西西河有一部分内容需要登录后才能查看。为了这一部分的帖子下载下来,还是费了一番功夫。大模型提供了一种chrome远程调试模式,可以在chrome driver环境下,用户自己登录后,脚本采用远程调试的方法抽取帖子内容。开始是想把帖子全下载下来,但是脚本总是有各种小毛病。后来干脆生成只下载单个帖子的脚本,在踩了几个坑后,终于调好了。
    然后让大模型把两个脚本的功能合在一起,就可以生成一个符合要求的新脚本。

    附:这个版本的DeepSeek果然出现了各种“极”字的错误。

    评分

    参与人数 3爱元 +30 收起 理由
    landlord + 12 伙呆了
    李根 + 8 谢谢分享
    indy + 10 谢谢分享

    查看全部评分

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-19 03:36 , Processed in 0.034250 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表