python 爬虫数据结构过滤问题

python 爬虫数据结构过滤问题

网址:https://china.guidechem.com/datacenter/msds/c/743.html

现在是这样,我抓到的数据因为页面 不同,偶尔出现空的,但是现在我通过xpath匹配

['\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    CAS:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t    \r\n\t\t\t\t\t\t\t\t', '1789-58-8', '\r\n\t\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t  \r\n\t\t\t\t\t\t\t  \t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    中文名称:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  乙基二氯硅烷\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    英文名称:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  ethyldichlorosilane\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    别 名:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  \t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    分子式:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  \r\n          C', '2', 'H', '6', 'Cl', '2', 'Si;CH', '3', 'CH', '2', 'Cl', '2', 'SiH\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    分子量:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  129.06\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    熔 点:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  \t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    密 度:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  相对密度(水=1)1.09;\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    蒸汽压:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  -1℃(开杯)\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    溶解性:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  溶于苯、甲苯、二甲苯、氯代烃\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    稳定性:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  稳定\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    外观与性状:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  无色液体,易潮解\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    危险标记:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  10,7,20(遇湿易燃物品)\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t    用 途:\t\t\t\t\t\t\t', '\r\n', '\r\n\t\t\t\t\t\t\t  用作制造硅酮的中间体\t\t\t\t\t\t\t', '\r\n\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t  ', '\r\n\t\t\t\t\t\t\t  ', '2.对环境的影响:', ' \r\n', '一、健康危害', '\r\n', '\xa0侵入途径:吸入、食入。', '\xa0\xa0健康危害:对眼、上呼吸道粘膜有强烈刺激作用。局部可出现充血、水肿,甚至溃疡、坏死。长时间高浓度接触,可引起鼻粘膜萎缩,支气管炎,肺充血和肺水肿。皮肤接触其液体,可发生皮炎和灼伤。', '\r\n', '二、毒理学资料及环境行为', '\r\n', '\xa0\xa0危险特性:遇水或水蒸气剧烈反应,放出的热量可导致其自燃,并放出有毒和腐蚀性的烟雾。与氧化剂接触会猛烈反应。', '\xa0\xa0燃烧(分解)产物:一氧化碳、二氧化碳、氯化氢、氧化硅。', '\r\n', '3.现场应急监测方法:', ' ', '\r\n', '4.实验室监测方法:', '\r\n', '\xa0 气相色谱法', '\r\n', '\xa0', '\r\n', '5.环境标准:', '\r\n', '\r\n', '\u3000', '6.应急处理处置方法:', ' \r\n', '一、泄漏应急处理', '\r\n', '\xa0 迅速撤离泄漏污染区人员至安全区,并进行隔离,严格限制出入。切断火源。建议应急处理人员戴自给正压式呼吸器,穿消防防护服。不要直接接触泄漏物。尽可能切断泄漏源,防止进入下水道、排洪沟等限制性空间。小量泄漏:用砂土或其它不燃材料吸附或吸收。大量泄漏:构筑围堤或挖坑收容;用防爆泵转移至槽车或专用收集器内,回收或运至废物处理场所处置。', '\r\n', '二、防护措施', '\r\n', '\xa0\xa0呼吸系统防护:空气中浓度超标时,应该佩戴自吸过滤式防毒面具(全面罩)。紧急事态抢救或撤离时,建议佩戴自给式呼吸器。', '\xa0\xa0眼睛防护:呼吸系统防护中已作防护。', '\xa0\xa0身体防护:穿胶布防毒衣。', '\xa0\xa0手防护:戴橡胶手套。', '\xa0\xa0其它:工作现场禁止吸烟、进食和饮水。工作毕,淋浴更衣。保持良好的卫生习惯。', '\r\n', '三、急救措施', '\r\n', '\xa0 皮肤接触:立即脱去被污染的衣着,用大量流动清水冲洗,至少15分钟。就医。', '\xa0 眼睛接触:立即提起眼睑,用大量流动清水或生理盐水彻底冲洗至少15分钟。就医。', '\xa0 吸入:迅速脱离现场至空气新鲜处。保持呼吸道通畅。如呼吸困难,给输氧。如呼吸停止,立即进行人工呼吸。就医。', '\xa0 食入:误服者用水漱口,给饮牛奶或蛋清。就医。', '\r\n', '\xa0\xa0灭火方法:消防人员必须穿戴全身防火防毒服。灭火剂:二氧化碳、干粉、砂土。禁止用水或泡沫灭火。', '\r\n', '\r\n    ']

如何让那些空的地方自动补齐"" 因为页面的不一样,空的地方也不一样,求指教,谢谢!

这是案列

用你这个算法最后的结果是这个

这个是不对的,因为这里的 '别 名:'后面没有补空格


回答:

不知道你用何种方式抓取(bs?request?),关心哪些数据。通常用scrapy自定义数据模型,pipline过滤数据格式即可。或用golang的ferret处理。一次抓取,同一dom树引节点迭代也很方便。这都与空不空没关系,你应根据认定有价值的数据构建数据模型,然后抽取。用ferret一行代码解决所有抓取


回答:

这样?

list = [...]

ret = [it.strip() for it in list if len(it.strip()) > 0]

以上是 python 爬虫数据结构过滤问题 的全部内容, 来源链接: utcz.com/a/164139.html

回到顶部