如何从.html页面提取链接和标题?

对于我的网站,我想添加一个新功能。

我希望用户能够上传他的书签备份文件(如果可能的话,可以从任何浏览器上传),这样我就可以将其上传到他们的个人资料,而他们不必手动插入所有文件…

我唯一缺少的是从上传文件中提取标题和URL的部分。任何人都可以提供从哪里开始或在哪里阅读的线索?

使用的搜索选项和如何从原始HTML文件提取数据?这是与我最相关的问题,因此不再赘述。

我真的不介意它是否使用jquery或php

非常感谢你。

回答:

谢谢大家,我知道了!

最终代码:

$html = file_get_contents('bookmarks.html');

//Create a new DOM document

$dom = new DOMDocument;

//Parse the HTML. The @ is used to suppress any parsing errors

//that will be thrown if the $html string isn't valid XHTML.

@$dom->loadHTML($html);

//Get all links. You could also use any other tag name here,

//like 'img' or 'table', to extract other tags.

$links = $dom->getElementsByTagName('a');

//Iterate over the extracted links and display their URLs

foreach ($links as $link){

//Extract and show the "href" attribute.

echo $link->nodeValue;

echo $link->getAttribute('href'), '<br>';

}

这将显示给您分配的 文本和 .html 文件中所有链接的 。 __

再次,非常感谢。

以上是 如何从.html页面提取链接和标题? 的全部内容, 来源链接: utcz.com/qa/423178.html

回到顶部