豆瓣的反爬机制非常严格,使用 RSSHub 获取豆瓣小组的订阅源,会碰到 403 报错。
关于这个问题,RSSHub Github 也有相关 issues ,目前好像也找到好的解决方案。
我使用 Feed43 临时制作 RSS 订阅源,但存在很多小问题,比如不能获取每条文章链接的全文,而且对于这种 UGC 数据,有回复更新,会导致重复抓取。
所以,使用 Feed43 抓取豆瓣小组 RSS 订阅源,问题其实还挺多。我花了点时间将抓取豆瓣小组的规则实现,记录在这,希望能帮到有需要的。
匹配规则如下:
<td class="title">{*}
<a href="{%}" title="{%}" class="">{*}
</a>{*}
</td>{*}
<td nowrap="nowrap" class="r-count ">{%}</td>{*}
还是不太满意,像 RSSHub 提供的 RSS 源就更好。
可惜只订阅了一个小组,马上就把我电脑 IP 禁了。
再看看吧,目前没有找到很好的解决方案,准备使用 Huginn 折腾看看。
本文由老郭种树原创,转载请注明:https://guozh.net/how-to-subscribe-to-the-rss-of-douban-group/
irreader可以