python re的findall怎么提取出一个文件里的所有的url?
只要xxx.com或xxx.xxx.com之前的字符,不要中文和http://
第一组https://www.aaa.com
https://www.bbb.net
https://www.ccc.com
第二组
https://a.abc.com
https://b.abc.com
http://dfc.com
回答:
import reimport os
test_text = """
第一组
https://www.aaa.com
https://www.bbb.net中文
https://www.ccc.com
第二组
https://a.abc.com
https://b.中文.com
http://dfc.com
"""
result = re.findall(r'(?:https?:\/\/(?:www\.)?)([a-zA-Z0-9\.\-]+$)', test_text, re.MULTILINE)
print(result)
# 打开file.txt文件,从文件中读取
with open('file.txt','r') as f:
text = f.read()
bb = re.findall(r'(?:https?:\/\/(?:www\.)?)([a-zA-Z0-9\.\-]+$)', text, re.MULTILINE)
print(bb)
以上是 python re的findall怎么提取出一个文件里的所有的url? 的全部内容, 来源链接: utcz.com/p/938991.html