请问python爬网页内的链接的时候,里面有“./文件名.html”的链接,它的完整链接如何获取
herf中是我需要爬取的内容,可是爬取的不是完整的链接,但是鼠标放在上面,就会有气泡弹出显示完整链接,请问如何获取这个完整的链接
回答:
鼠标放上面是浏览器的功能,和你抓取的内容无关,自己拼接吧,点号代表当前层级,如www.xxx.com/a/b.html,就直接拼成www.xxx.com/a/xxx.doc
回答:
利用 PyQuery 可以将相对连接改为绝对连接,避免手动拼接,例如:
from pyquery import PyQueryd_html = PyQuery(
'<a href="/orca_j35.jpg">picture1</a><a href="/import_hello.jpg">picture2</a>',
parser='html')
d_html.make_links_absolute('https://segmentfault.com/u/import_hello')
print([i.attr('href') for i in d_html('a').items()])
输出
['https://segmentfault.com/orca_j35.jpg', 'https://segmentfault.com/import_hello.jpg']
以上是 请问python爬网页内的链接的时候,里面有“./文件名.html”的链接,它的完整链接如何获取 的全部内容, 来源链接: utcz.com/a/156912.html