Python3分析sitemap.xml抓取导出全站链接

  • 时间:
  • 浏览:1
  • 来源:大发彩神app—大发彩神8苹果版

最近网站从HTTPS转为HTTP,更换了网址,旧网址做了801重定向,折腾不得劲大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都在要挂接网站的链接,手动加带太麻烦,速率低,于是就想写个脚本直接抓取全站链接并导出,本文就和亲们同时分享怎么使用python3实现抓取链接导出。

亲们能来看一下运行结果:

下面是python 3代码,将里边的链接地址加带你我本人的网址即可:

导出TXT格式文件后,再在百度站长平台手动提交就方便的多了。当然亲们可不可否 可不可否 使用放慢的主动推送最好的妙招,可能性我的然之网站是用PHP+mysql开发的,全都亲们这里使用PHP脚本将里边抓取的链接再避免下,要是主动推送给百度,一遍加快爬虫抓取时间。

亲们在平时的SEO或服务器运维工作中,时常会将重复工作自动化,复杂性工作间变化,利于提升速率,可能性亲们在操作过充中有 何问題图片可不可否 否 同时分享交流讨论。

更多技术文章,欢迎关注公众号【小薛建站】

首先网站要有网站地图sitemap.xml文件地址,其次我这里用的是python3版本,可能性你的环境是python2,可不可否 否对代码进行调整,可能性python2和python3全都地方差别还是挺大的。

里边1在等你的站点的主动推送API,你你这个 可不可否 否 在百度站长平台获取;2是要主动推送的网站地址,这里就可不可否 否 用到亲们里边抓取的全站链接了。将链接地址挂接装入去去该数组中,运行一下个你你这个 PHP脚本,就可不可否 否 了。一键提交,及高效便捷,又能缩短爬虫爬去时间,利于网站页面收录。