如何订阅豆瓣小组的 RSS,RSSHub 还是 Feed43 ?

豆瓣的反爬机制非常严格,使用 RSSHub 获取豆瓣小组的订阅源,会碰到 403 报错。

关于这个问题,RSSHub Github 也有相关 issues ,目前好像也找到好的解决方案。

我使用 Feed43 临时制作 RSS 订阅源,但存在很多小问题,比如不能获取每条文章链接的全文,而且对于这种 UGC 数据,有回复更新,会导致重复抓取。

所以,使用 Feed43 抓取豆瓣小组 RSS 订阅源,问题其实还挺多。我花了点时间将抓取豆瓣小组的规则实现,记录在这,希望能帮到有需要的。

匹配规则如下:

<td class="title">{*}
<a href="{%}" title="{%}" class="">{*}

</a>{*}
</td>{*}
<td nowrap="nowrap" class="r-count ">{%}</td>{*}

还是不太满意,像 RSSHub 提供的 RSS 源就更好。

可惜只订阅了一个小组,马上就把我电脑 IP 禁了。

再看看吧,目前没有找到很好的解决方案,准备使用 Huginn 折腾看看。

未经允许不得转载:老郭种树 » 如何订阅豆瓣小组的 RSS,RSSHub 还是 Feed43 ?

赞 (2)

1 评论

5+7=

  1. 深深深

    irreader可以

    回复

能将我博客放入广告拦截白名单吗?

我尽量分享有用并且长期有用的内容,希望能帮到你,谢谢支持。