python数据爬虫是什么?怎么用?

python

可能刚刚接触的小伙伴不知道什么是爬虫,想必大家也是看了很多相关资料,掌握了能看到的所有讲解,不知道大家现在脑袋里有没有一个架框,小编怀着初学者的心情去搜索了一番,明明清晰的脑袋,去搞得一脑子浆糊,有说什么内容的都存在,为了不迷惑大家了,小编根据大部分小伙伴情况,给大家整理以下清晰明了的内容。

一、爬虫工作原理

获取网页——分析网页源代码——提取信息,便是爬虫工作的三部曲。

二、爬虫的基本流程:

用户获取网络数据的方式:

方式1:浏览器提交请求--->下载网页代码--->解析成页面。

方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中。

包括以下内容:

1、发起请求

2、获取响应内容

3、解析内容

4、保存数据

应用场景

1、互联网平台,偏向销售公司,客户信息的爬取

2、资讯爬取并应用到平台业务中

3、竞品公司重要数据挖掘分析与应用

实战例子

项目原理:打开网址-获取源码-找到图片-匹配下载

 

#coding=utf-8

 

'''

 

Created on 2017年1月28日

 

@author: gaojs

 

'''

 

import urllib,re,os

 

def getHtml():

 

page=urllib.urlopen('').read()#打开网址并且读取

 

return page

 

x=0

 

def getimg(page):

 

imgre=re.compile(r' src="(.*?)" class=')

 

imglist=re.findall(imgre,page)

 

for imgurl in imglist:

 

# print imgurl

 

global x

 

if not os.path.exists('/Users/gaojs/Desktop/pic'):

 

print os.mkdir('/Users/gaojs/Desktop/pic/')

 

else:

 

urllib.urlretrieve(imgurl,'/Users/gaojs/Desktop/pic/'+'%s.jpg'%x)#下载图片到指定位置

 

x+=1

 

print u'正在下载第%s张'%x

 

l=getHtml()

 

getimg(l)

好啦,想必通过以上的内容讲述,大家在脑海中应该有个印象了吧,小伙伴们不仅可以了解到爬虫,还可以知道自己学这块知识以后的应用,做好规划好自己的前景哦~

以上是 python数据爬虫是什么?怎么用? 的全部内容, 来源链接: utcz.com/z/529412.html

回到顶部