【Python】通过正则提取出来的ip，怎么命名

Z时代
2024-01-10
分类：技术分享

source_ip = line.split('- -')[0].strip()
if re.match('[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}',source_ip):
if source_ip_dict.get(source_ip,'-')=='-':
source_ip_dict[source_ip]=1
else:source_ip_dict[source_ip]=source_ip_dict[source_ip]+1

通过以上的代码把apache的日志ip提取出来，并且进行统计去重了，
提取的ip数据如下：
【Python】通过正则提取出来的ip，怎么命名

那么要怎么将这些ip地址进行命名分类，
如
202.108.11.103跟220.181.32.137为百度蜘蛛ip
想要实现的效果如下
这两个ip命名为百度蜘蛛，然后把他们的统计数据相加即4336+3411
百度蜘蛛 7747

这个要怎么操作

回答

python">from itertools import groupby
NAME_IP_MAPPING = {
    '202.108.11.103':'百度蜘蛛',
    '220.181.32.137': '百度蜘蛛',
}
spiders = [
    {'ip':'202.108.11.103','count':123}, 
    {'ip':'220.181.32.137','count':345}
]
# 先用ip通过映射得到名字，再根据名字将spiders里的item分组，之后各自求和存入新的dict中。
{k: sum(s['count'] for s in g)
    for k, g in groupby(spiders, lambda s:NAME_IP_MAPPING.get(s['ip']))}# output: {'百度蜘蛛': 468}

可以尝试构建一个大型的以字典为键, 爬虫名字为值的字典;

ip_map = {
    '202.108.11.103': 'baidu-spider',
    '220'.181.32.137: 'baidu-spider',
    '192.168.1.1': 'other'
    ....
}
sum = {}
for ip in source_ip:
    print ip
    sum[ip_mapping.get(ip, 'other')] = sum.get(ip, 0) + source_ip[ip]
print sum

使用pandas的数据透视表

【Python】通过正则提取出来的ip，怎么命名

这样多累啊！
为什么不给这个ip分组单独建立一张表，名为IPGroup （id, ip, groupname)

id	ip	groupName
1	202.108.11.103	百度蜘蛛
2	220.181.32.137	百度蜘蛛

之后一个SQL就搞定了，多么轻松（设楼主用的表明为IPStastics）

SELECT b.groupName, SUM(a.count)
FROM IPStastics a 
  INNER JOIN IPGroup b
  ON a.ip = b.ipGROUP BY b.groupName

以上是【Python】通过正则提取出来的ip，怎么命名的全部内容，来源链接： utcz.com/a/78815.html

【Python】通过正则提取出来的ip，怎么命名

回答

其他人也看了：