Python爬虫怎么爬取不同网页的固定内容

Z时代
2024-02-27
分类：IT

问题描述

我现在有一个网站域名列表，里面有数万个域名，想先定位到每个网站的sitemap，然后把每个sitemap里面的新闻，财经，科技三个大类的url抓取出来，但是因为每个网站结构都不一样，想用一个爬虫很难实现，有人建议可以训练一个模型来识别，但不知道具体步骤，或者有什么别的方式可以推荐一下吗？求大神解答！提供一下思路即可！

回答：

·确定每个网站都有sitemap吗？
·sitemap里更新的链接及时吗？
如果都可以抓到文章页，提取新闻正文（newspaper）等很多库都可以做，但是效率不高。至于时间、作者，只能写通用规则提取了（不一定准且不一定能提取到）。
一个爬虫做不到，因为访问不同的网站可能就需要不同的方式、验证。

回答：

如果是内容的话，正则。比如：爬去获取 github 项目的的正则：

pattern = re.compile(r'https://github.com/[^\s]*')
match = pattern.search(raw_str)
if match:    github_url = match.group()

以上是 Python爬虫怎么爬取不同网页的固定内容的全部内容，来源链接： utcz.com/p/937604.html

Python爬虫怎么爬取不同网页的固定内容

问题描述

回答：

回答：

其他人也看了：