Python爬虫实战:爬取链家网二手房数据
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
买房装修,是每个人都要经历的重要事情之一。相对于新房交易市场来说,如今的二手房交易市场一点也不逊色,很多二手房的信息刚刚挂出来,就被其他购房者拿下了。
项目目标
爬取链家网二手房信息
受害者地址
https://cs.lianjia.com/ershoufang/pg%7B%7D/
基本环境配置
- python 3.6
- pycharm
代码
导入工具
import requestsimport parselimport time
请求网页,爬取数据
for page in range(1, 101):print("===========================正在下载第{}页数据================================".format(page))time.sleep(
1)url
= "https://cs.lianjia.com/ershoufang/pg{}/".format(page)headers
= {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"}
response
= requests.get(url=url, headers=headers)selector
= parsel.Selector(response.text)lis
= selector.css(".sellListContent li")dit
= {}for li in lis:title
= li.css(".title a::text").get()dit[
"标题"] = titlepositionInfo
= li.css(".positionInfo a::text").getall()info
= "-".join(positionInfo)dit[
"开发商"] = infohouseInfo
= li.css(".houseInfo::text").get()dit[
"房子信息"] = houseInfofollowInfo
= li.css(".followInfo::text").get()dit[
"发布周期"] = followInfoPrice
= li.css(".totalPrice span::text").get()dit[
"售价/万"] = PriceunitPrice
= li.css(".unitPrice span::text").get()dit[
"单价"] = unitPricecsv_writer.writerow(dit)
print(dit)
保存数据
import csvf
= open("二手房信息.csv", mode="a", encoding="utf-8-sig", newline="")csv_writer
= csv.DictWriter(f, fieldnames=["标题", "开发商", "房子信息", "发布周期", "售价/万", "单价"])csv_writer.writeheader()
运行代码,效果如下
以上是 Python爬虫实战:爬取链家网二手房数据 的全部内容, 来源链接: utcz.com/z/530838.html