请问python爬网页内的链接的时候,里面有“./文件名.html”的链接,它的完整链接如何获取

图片描述
herf中是我需要爬取的内容,可是爬取的不是完整的链接,但是鼠标放在上面,就会有气泡弹出显示完整链接,请问如何获取这个完整的链接

回答:

鼠标放上面是浏览器的功能,和你抓取的内容无关,自己拼接吧,点号代表当前层级,如www.xxx.com/a/b.html,就直接拼成www.xxx.com/a/xxx.doc

回答:

利用 PyQuery 可以将相对连接改为绝对连接,避免手动拼接,例如:

from pyquery import PyQuery

d_html = PyQuery(

'<a href="/orca_j35.jpg">picture1</a><a href="/import_hello.jpg">picture2</a>',

parser='html')

d_html.make_links_absolute('https://segmentfault.com/u/import_hello')

print([i.attr('href') for i in d_html('a').items()])

输出

['https://segmentfault.com/orca_j35.jpg', 'https://segmentfault.com/import_hello.jpg']

以上是 请问python爬网页内的链接的时候,里面有“./文件名.html”的链接,它的完整链接如何获取 的全部内容, 来源链接: utcz.com/a/156912.html

回到顶部