python re的findall怎么提取出一个文件里的所有的url？

Z时代
2024-02-07
分类：IT

python re的findall怎么提取出一个文件里的所有的url？

只要xxx.com或xxx.xxx.com之前的字符,不要中文和http://

第一组 https://www.aaa.com https://www.bbb.net https://www.ccc.com 第二组 https://a.abc.com https://b.abc.com

http://dfc.com

回答：

import re
import os
test_text = """
第一组
https://www.aaa.com
https://www.bbb.net中文
https://www.ccc.com
第二组
https://a.abc.com
https://b.中文.com
http://dfc.com
"""
result = re.findall(r'(?:https?:\/\/(?:www\.)?)([a-zA-Z0-9\.\-]+$)', test_text, re.MULTILINE)
print(result)
# 打开file.txt文件，从文件中读取
with open('file.txt','r') as f:
    text = f.read()
    bb = re.findall(r'(?:https?:\/\/(?:www\.)?)([a-zA-Z0-9\.\-]+$)', text, re.MULTILINE)    print(bb)