Python数据分析实战：降雨量统计分析报告分析[Python基础]

Z时代
2024-01-10
分类：综合

python

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于菜J学Python ，作者小小明

最近遇到一个有点烧脑的需求，其实也不算烧脑，主要是判断条件过多，对于我这种记忆力差，内存小的人来说容易出现内存溢出导致大脑宕机。也可能是因为我还没有找到能减小大脑内存压力的方法。

先看看需求吧：

主要就是要根据左侧的表格自动生成右侧的Word统计报告，实际的各种可能性情况远比图中展示的要更加复杂。

好了，直接开始干代码吧!

1数据读取

import pandas as pd
df = pd.read_csv("11月份数据.csv", encoding="gbk")
# 当前统计月份
month = 11
df = df.query("月份==@month")
df.head(10)

预览数据：

2异常数据过滤

查看缺失值数量：

pd.isnull(df).sum()

结果：

区域          0
月份          0
降雨量(mm)     0
降雨距平(mm)    1
观测站         0
dtype: int64

仅一个缺失值数据，可直接删除：

df.dropna(inplace=True)

3计算观测站降雨量相对往年的变化

计算降雨量比往年高，跟往年比无变化，以及比往年低的次数分别是多少：

rainfall_high = df.eval("`降雨距平(mm)` > 0").value_counts().get(True, 0)
rainfall_equal = df.eval("`降雨距平(mm)` == 0").value_counts().get(True, 0)
rainfall_low = df.eval("`降雨距平(mm)` < 0").value_counts().get(True, 0)
print(rainfall_high, rainfall_equal, rainfall_low)
13 1 18

上面的结果中rainfall_high表示降雨量比往年平均水平高的次数，rainfall_equal表示降雨量比往年平均水平持平的次数，rainfall_low表示降雨量比往年平均水平低的次数。

于是分情况讨论生成第一段的报告：

p1 = f"{month}月份"
if rainfall_low == 0 or rainfall_high == 0:
if rainfall_equal != 0:
        p1 += f"除{rainfall_equal}个观测站降雨量较往年无变化外，"
if rainfall_high == 0:
        p1 += f"各气象观测站降雨量较往年均偏低。"
elif rainfall_low == 0:
        p1 += f"各气象观测站降雨量较往年均偏高。"
else:
#  10%以内差异认为是持平
if rainfall_high > rainfall_low*1.1:
        p1 += f"大部分气象观测站降雨量较往年偏高。"
elif rainfall_low > rainfall_high*1.1:
        p1 += f"大部分气象观测站降雨量较往年偏低。"
else:
        p1 += f"各气象观测站降雨量较往年整体持平。"
p1

结果：

"11月份大部分气象观测站降雨量较往年偏低。"

4计算各区域降雨量的极值

再生成第二段的报告：

p2 = ""
t = df["降雨量(mm)"]
p2 += f"各区域降雨量在{t.min()}～{t.max()}mm之间，其中{df.loc[t.argmax(), "区域"]}区域的降雨量最大，为{t.max()}mm。"
p2

结果：

"各区域降雨量在0.0～16.0mm之间，其中51a45区域的降雨量最大，为16.0mm。"

5分观测站统计

让我脑袋疼的地方就是从这里的代码开始的，后面还有更复杂的需求就不公布了。

对每个观测站分别统计哪些区域偏高，哪些区域持平，哪些区域偏低：

p3s = []
for station, tmp in df.groupby("观测站"):
    t = tmp["降雨量(mm)"]
    p3 = f"各区域降雨量在{t.min()}～{t.max()}mm之间，"
    rainfall_high_mask = tmp.eval("`降雨距平(mm)` > 0")
    rainfall_equal_mask = tmp.eval("`降雨距平(mm)` == 0")
    rainfall_low_mask = tmp.eval("`降雨距平(mm)` < 0")
    rainfall_high = rainfall_high_mask.value_counts().get(True, 0)
    rainfall_equal = rainfall_equal_mask.value_counts().get(True, 0)
    rainfall_low = rainfall_low_mask.value_counts().get(True, 0)
#     print(rainfall_high, rainfall_equal, rainfall_low)
if rainfall_low == 0 or rainfall_high == 0:
if rainfall_equal != 0:
            p3 += "除"
            p3 += "、".join(tmp.loc[rainfall_equal_mask, "区域"]+"区域")
            p3 += "降雨量较往年无变化外，"
if rainfall_high == 0:
            p3 += f"各区域降雨量均较往年偏低"
elif rainfall_low == 0:
            p3 += f"各区域降雨量均较往年偏高"
        t = tmp["降雨距平(mm)"].abs()
        p3 += f"{t.min()}～{t.max()}mm；"
else:
if rainfall_equal != 0:
            p3 += "除"
            p3 += "、".join(tmp.loc[rainfall_equal_mask, "区域"]+"区域")
            p3 += "降雨量较往年无变化，"
#  10%以内差异认为是持平
if rainfall_high > rainfall_low*1.1:
if rainfall_equal == 0:
                p3 += "除"
            p3 += "、".join(tmp.loc[rainfall_low_mask, "区域"]+"区域")
            p3 += "降雨量较往年偏低"
            t = tmp.loc[rainfall_low_mask, "降雨距平(mm)"].abs()
if t.shape[0] > 1:
                p3 += f"{t.min()}～{t.max()}mm"
else:
                p3 += f"{t.min()}mm"
            p3 += "外，"
            t = tmp.loc[rainfall_high_mask, "降雨距平(mm)"].abs()
            p3 += f"其余各区域降雨量较往年偏高{t.min()}～{t.max()}mm；"
elif rainfall_low > rainfall_high*1.1:
if rainfall_equal == 0:
                p3 += "除"
            p3 += "、".join(tmp.loc[rainfall_high_mask, "区域"]+"区域")
            p3 += "降雨量较往年偏高"
            t = tmp.loc[rainfall_high_mask, "降雨距平(mm)"].abs()
if t.shape[0] > 1:
                p3 += f"{t.min()}～{t.max()}mm"
else:
                p3 += f"{t.min()}mm"
            p3 += "外，"
            t = tmp.loc[rainfall_low_mask, "降雨距平(mm)"].abs()
            p3 += f"其余各区域降雨量较往年偏低{t.min()}～{t.max()}mm；"
else:
if rainfall_equal != 0:
                p3 = p3[:-1]+"外，"
            p3 += f"各区域降雨量较往年偏高和偏低的数量持平，其中"
            p3 += "、".join(tmp.loc[rainfall_low_mask, "区域"]+"区域")
            p3 += "降雨量较往年偏低"
            t = tmp.loc[rainfall_low_mask, "降雨距平(mm)"].abs()
if t.shape[0] > 1:
                p3 += f"{t.min()}～{t.max()}mm，"
else:
                p3 += f"{t.min()}mm，"
            p3 += "、".join(tmp.loc[rainfall_high_mask, "区域"]+"区域")
            p3 += "降雨量较往年偏高"
            t = tmp.loc[rainfall_high_mask, "降雨距平(mm)"].abs()
if t.shape[0] > 1:
                p3 += f"{t.min()}～{t.max()}mm；"
else:
                p3 += f"{t.min()}mm；"
    p3s.append([station, p3])
p3s[-1][-1] = p3s[-1][-1][:-1]+"。"
p3s

可能是我还没有想出较好的封装方式导致代码变得这么复杂，如果有巧妙解决这个问题的朋友，希望能够加菜J学Python交流群一起探讨。

6将组织好的文本写入到word中

Word模板文件docxtemplate.docx的内容：

一、{{ month }}月各气象观测站降雨量实况
（一）降水

{{ p1 }}
{{ p2 }}
{%p for station,p3 in p3s %}
{{ station }}:{{ p3 }}
{%p endfor %}

即：

Python渲染代码：

from docxtpl import DocxTemplate
tpl = DocxTemplate("docxtemplate.docx")
context = {
"month": month,
"p1": p1,
"p2": p2,
"p3s": p3s,
}
tpl.render(context)
tpl.save("11月降雨量报告.docx")

执行完毕，得到Word统计分析报告：

以上是 Python数据分析实战：降雨量统计分析报告分析[Python基础] 的全部内容，来源链接： utcz.com/z/529909.html

Python数据分析实战：降雨量统计分析报告分析[Python基础]

其他人也看了：