哪些月饼卖得好?月饼的价格分布是怎样的呢?今天带你了解一下

python

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

中秋节介绍

中秋节,又称祭月节、月光诞、月夕、秋节、仲秋节、拜月节、月娘节、月亮节、团圆节等,是中国民间的传统节日。

中秋节自古便有祭月、赏月、吃月饼、玩花灯、赏桂花、饮桂花酒等民俗,流传至今,经久不息。

每年中秋节到,总会去姥姥那里送中秋,并买上各种各样的月饼,那个时候科技并不怎么发达,不仅没有这么多形形色色的月饼,也不知道哪些月饼卖得好? 月饼的价格分布是怎样的呢? 什么地方的月饼销量最高呢? 简直有十万个为什么,希望别人给我们解答。

随着科技的飞速发展,互联网沟通了你我他。我们通过淘宝上月饼的销量,就可以解决我们想要知道的好多问题。基于此,我爬取了淘宝上4000多条月饼的销售数据,为大家展示了一幅漂亮的可视化大屏,解决大家心目中的问题。

 

 

数据采集

这次爬取淘宝,采用的是最简单的方式:Selenium控制Chrome浏览器进行自动化操作,中途只需要扫码登陆一次,即可完成整个数据的爬取。

这种方法及其好用,不会出现封IP、封号的情况,大家放心使用!

大家运行这个代码之前,唯一要做的就是下载与谷歌版本相对应的chromedriver驱动,然后进行相关配置即可。其实关于淘宝整个数据爬取的过程,可以参考之前发过的文章《爬电脑、爬电脑、爬完电脑买不起》

部分爬虫代码如下,详细代码可以去文末获取!

from selenium import webdriver

# 搜索商品,获取商品页码

def search_product(key_word):

    # 定位输入框

    browser.find_element_by_id("q").send_keys(key_word)

    # 定义点击按钮,并点击

    browser.find_element_by_class_name("btn-search").click()

    # 最大化窗口:为了方便我们扫码

    browser.maximize_window()

    # 等待15秒,给足时间我们扫码

    time.sleep(15)

    # 定位这个“页码”,获取“共100页这个文本”

    page_info = browser.find_element_by_xpath("//div[@class="total"]").text

    # 需要注意的是:findall()返回的是一个列表,虽然此时只有一个元素它也是一个列表。

    page = re.findall("(d+)",page_info)[0]

    return page

数据清洗

数据清洗很重要,这个对于我们后续做可视化展示,极其重要。因此我们需要根据后面要做的图形,然后进行对应的进行数据清洗。

爬取到的原始数据如下:

 

整个数据看上去算是比较干净,但是还是有几个地方值得我们处理一下。

  1. 爬取到的原始数据没有列名,我们需要添加一个新列名;
  2. 整个爬虫过程中,会出现重复数据,我们需要提前去重处理;
  3. 将购买人数为空的记录,替换成0人付款;
  4. 将购买人数转换为销量(注意部分单位为万);
  5. 删除无发货地址的商品,并提取其中的省份;

数据清洗部分代码如下:

# 提取数值

df["num"] = [re.findall(r"(d+.{0,1}d*)", i)[0] for i in df["付款人数"]]  # 提取数值

df["num"] = df["num"].astype("float")  # 转化数值型

# 提取单位(万)

df["unit"] = ["".join(re.findall(r"(万)", i)) for i in df["付款人数"]]  # 提取单位(万)

df["unit"] = df["unit"].apply(lambda x:10000 if x=="万" else 1)

# 计算销量

df["销量"] = df["num"] * df["unit"]

现在来看看,清洗后的数据是啥样的?

 

可视化展示

可视化是整个文章的亮点所在,所谓“字不如表、表不如图”。整个可视化大屏我们基于以下五个问题开展而来。

  1. 月饼销量Top10的柱形图;
  2. 店铺月饼销量Top10的柱形图;
  3. 全国月饼销量的地域分布地图;
  4. 不同价格区间的月饼销量圆环图;
  5. 月饼销售关键字的词云图;

鉴于整个文章排版,本文可视化部分的代码均可在本文末尾获取。

1)月饼销量Top10的柱形图

 

结论:销量Top10的月饼,其实对于我们选购月饼还是挺有指导意义的。从图中可以看到这个稻香村月饼,买的还是极其好的,销量排名前10的产品中,稻香村月饼占据了3个位置。还有一个名字特别熟悉:五芳斋,只知道他家的粽子做的好,原来月饼也做的不错,所以说品牌效应还是很好的。那么你是否可以再看看,这些店里面是否有其他更好吃的点心呢?

2)店铺月饼销量Top10的柱形图

 

结论分析:这里图中显示的结果,和第一张图显示的结果不谋而合,就不再过多的解释了。唯独感兴趣的还是这个稻香村,为啥销量如此好?百度一下得知原来是一家百年老店,附带一张图如下。

 

3)不同价格区间的月饼销量圆环图

 

结论分析:当然,价格才是大家关注的焦点。观察上面的圆环图可以发现,大多数月饼的价格都是处在中间的、能被大家接受的范围(22-115),再稍微贵一点的就是115-633这个区间,而处在633元以上的归月几乎为0。毕竟中秋节是一个传统节日,适中的价格才能被大家接受,利润就这么几天,薄利多销才是王道。

4)月饼销售关键字的词云图

 

结论分析:从图中可以看出,广式月饼极其受欢迎(PS:我还没吃过),其次小时候经常吃的五仁月饼一直卖的挺好,豆沙月饼还一直是很多孩子的最爱呀!还有现在出来的各种各样的新鲜口味,像美心、酥皮、信奈、燕窝、白莲等等,你到底喜欢哪一个呢?

以上文章来源于数据分析与统计学之美 ,作者黄伟呢

转载地址

https://blog.csdn.net/fei347795790?t=1

以上是 哪些月饼卖得好?月饼的价格分布是怎样的呢?今天带你了解一下 的全部内容, 来源链接: utcz.com/z/530040.html

回到顶部