用Python制作一个每天新闻热点爬虫脚本[Python基础]

Z时代
2024-01-10
分类：综合

python

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

刚接触Python的新手、小白，可以复制下面的链接去观看Python的基础入门教学视频

https://v.douyu.com/author/y6AZ4jn9jwKW

基本开发环境

Python 3.6

Pycharm

import parsel
import requestsimport re

目标网页分析

今天就爬取新闻网中的国际新闻栏目

点击显示更多新闻内容

可以看到相关的数据接口，里面有新闻标题以及新闻详情的url地址

如何提取url地址

1、转成json，键值对取值；
2、用正则表达式匹配url地址；

两种方法都可以实现，看个人喜好

根据接口数据链接中的pager 变化进行翻页，其对应的就是页码。

详情页可以看到新闻内容都是在 div标签里面 p 标签内，按照正常的解析网站即可获取新闻内容。

保存方式

1、你可以保存txt文本形式
2、也可以保存成PDF形式

整体爬取思路总结

在栏目列表页中，点击更多新闻内容，获取接口数据url

接口数据url中返回的数据内容中匹配新闻详情页url

使用常规解析网站操作（re、css、xpath）提取新闻内容

保存数据

代码实现

获取网页源代码

def get_html(html_url):
"""
    获取网页源代码 response
    :param html_url: 网页url地址
    :return: 网页源代码
"""
    response = requests.get(url=html_url, headers=headers)
return response

获取每篇新闻url地址

def get_page_url(html_data):
"""
    获取每篇新闻url地址
    :param html_data: response.text
    :return:  每篇新闻的url地址
"""
    page_url_list = re.findall(""url":"(.*?)"", html_data)
return page_url_list

文件保存命名不能含有特殊字符，需要对新闻标题进行处理

def file_name(name):
"""
    文件命名不能携带 特殊字符
    :param name:  新闻标题
    :return: 无特殊字符的标题
"""
    replace = re.compile(r"[/:*?"<>|]")
    new_name = re.sub(replace, "_", name)
return new_name