python re的findall怎么提取出一个文件里的所有的url?

python re的findall怎么提取出一个文件里的所有的url?

只要xxx.com或xxx.xxx.com之前的字符,不要中文和http://

第一组

https://www.aaa.com

https://www.bbb.net

https://www.ccc.com

第二组

https://a.abc.com

https://b.abc.com

http://dfc.com


回答:

import re

import os

test_text = """

第一组

https://www.aaa.com

https://www.bbb.net中文

https://www.ccc.com

第二组

https://a.abc.com

https://b.中文.com

http://dfc.com

"""

result = re.findall(r'(?:https?:\/\/(?:www\.)?)([a-zA-Z0-9\.\-]+$)', test_text, re.MULTILINE)

print(result)

# 打开file.txt文件,从文件中读取

with open('file.txt','r') as f:

text = f.read()

bb = re.findall(r'(?:https?:\/\/(?:www\.)?)([a-zA-Z0-9\.\-]+$)', text, re.MULTILINE)

print(bb)

以上是 python re的findall怎么提取出一个文件里的所有的url? 的全部内容, 来源链接: utcz.com/p/938991.html

回到顶部