请问我的网页分析思路对吗?

Python新手哈,之前做过文本分析,现在公司有个小工具的需求要做网页分析,没有经验所以请教大家一下。

情况是这样:
需求:利用Python分析网页,检查其中某个item。
我的思路:
1、手动输入需要检查的网页地址。
2、利用Python获取网页源代码。
3、分析网页源代码,具体如下:

手动检查时,即找到status这一栏,看其值是否是ACCEPT,
请问我的网页分析思路对吗?
分析获取到的网页源代码,找到了这一行
<div attributedefinitionguid="AB:52394082008461e6:19:19**Status**:21001ce120" permissions="RM"><div>ACCEPTED</div></div>
请问我的网页分析思路对吗?
我没有网页代码的基础,甚至不知道这是什么语言,但我用一般的思路来想,整一个网页源代码中,只有这里一处的ACCEPT的字符,网页显示时也是以文本形态显示,所以我认为这就是我要检查的点。

所以我的分析思路即为:获取网页源代码,利用Python一行行分析源代码的文本,找到包含status的一行,检查其下一行中有没有ACCEPTED字符

换句话说,等于是用分析文本文件的方式,来分析网页源代码,且是在不懂网页源代码什么意思的情况下。实测是可以成功分析status的,但是总感觉有点悬,,,,
请问我这样靠谱不?或者Python有什么模块是可以按照网页源代码的语法块来分析的?
各位大神不吝赐教,小弟在此谢过了!


回答:

本身网页(爬虫)分析最底层的处理就是文本处理技术。
所以你的分析大致是没有错的。
不过对于真正的爬虫,因为分析的数据是HTML标记语言文本,所以其实是有专门的技术手段的,比如python下的Beautiful Soup可以解析DOM去更精准的分析。
因为你要求的分析模式很简单,可能也用不到这些啦。
其实很多时候满足要求的东西就是好的。


回答:

理论上面是没错的,实际上可能问题比较多
比如它的数据是通过js异步ajax加载的,或者这里面出现了多个ACCEPTED,怎么确定你需要的;
要是你频繁的请求接口,要是人家给你ip拉了黑名单


回答:

前面的回答说的对。
补充一下,如果需要精确定位的话python可以通过Beautiful Soup用css选择器定位到元素然后获取内容

以上是 请问我的网页分析思路对吗? 的全部内容, 来源链接: utcz.com/a/163933.html

回到顶部