【Python】python beautifulsoup 如何抓取不规则表格的内容

Z时代
2024-01-10
分类：IT

在爬一个网站数据的时候发现，旧的页面采用的表格和现在的格式不一样，这到不算大问题，只是旧式表格采用的是表格格式并不规则。因网站登陆本身需要账号，就不提供网址了。
具体如下：
新式：
【Python】python beautifulsoup 如何抓取不规则表格的内容

旧式：
【Python】python beautifulsoup 如何抓取不规则表格的内容

在旧式表中中，列名行与数据第一行有6个td标签，其余仅有5个td标签。
表格中的tr标签与td标签均没有特别的属性用做区分。

目前我的处理方式是：
新式：
读列名行，按顺序做一个列表例如：['厂家'，'备注','单位','变化']。
之后每行数据按顺序制作成一个字典例如{'厂家'：'ABC','备注'：'ABC'}
然后插入到我的数据库中。
旧式：
方法类似，只是我要每行判断cells的数量来确定读哪部分。

我的问题是：
请问有没有更好的办法，将表格中的数据按照格式读取出来，甚至能处理旧式表格这样的布局？

旧式表格：

<tr>

    <td width="9%">
<div align="center">产品</div>
</td>
<td width="45%">
<div align="left">厂家</div>
</td>
<td width="13%">
<div align="center">元<span>/公斤</span></div>
</td>
<td width="10%" valign="top">
<div align="center">涨<span>/跌</span></div>
</td>
<td width="11%">
<div align="left">产地</div>
</td>
<td width="10%">
<div align="center">备注</div>
</td>
</tr>
<tr>
<td rowspan="7" width="9%">
<div align="center">进</div>
<div align="center">口</div>
<div align="center">原</div>
<div align="center">生</div>
<div align="center">多</div>
<div align="center">晶</div>
<div align="center">硅</div>
</td>
<td width="45%">
<div align="left">WackerChemie</div>
</td>
<td width="13%">
<div align="center">480</div>
</td>
<td width="10%" valign="top">
<div align="center">-</div>
</td>
<td width="11%">
<div align="left">德国</div>
</td>
<td width="10%">
<div align="center">&nbsp;</div>
</td>
</tr>
<tr>
<td width="45%">
<div align="left">Hemlock Semiconductor</div>
</td>
<td width="13%">
<div align="center">450</div>
</td>
<td width="10%" valign="top">
<div align="center">-</div>
</td>
<td width="11%">
<div align="left">美国</div>
</td>
<td width="10%">
<div align="center">&nbsp;</div>
</td>
</tr>
<tr>
<td width="45%">
<div align="left">Tokuyama Corporation</div>
</td>
<td width="13%">
<div align="center">460</div>
</td>
<td width="10%" valign="top">
<div align="center">-</div>
</td>
<td width="11%">
<div align="left">日本</div>
</td>
<td width="10%">
<div align="center">&nbsp;</div>
</td>
</tr>
<tr>
<td width="45%">
<div align="left">MEMC Electronic Materials，Inc</div>
</td>
<td width="13%">
<div align="center">450</div>
</td>
<td width="10%" valign="top">
<div align="center">-</div>
</td>
<td width="11%">
<div align="left">美国</div>
</td>
<td width="10%">
<div align="center">&nbsp;</div>
</td>
</tr>
<tr>
<td width="45%">
<div align="left">MitsubishiPolysilicon</div>
</td>
<td width="13%">
<div align="center">460</div>
</td>
<td width="10%" valign="top">
<div align="center">-</div>
</td>
<td width="11%">
<div align="left">日本</div>
</td>
<td width="10%">
<div align="center">&nbsp;</div>
</td>
</tr>
<tr>
<td width="45%">
<div align="left">REC Group</div>
</td>
<td width="13%">
<div align="center">430</div>
</td>
<td width="10%" valign="top">
<div align="center">-</div>
</td>
<td width="11%">
<div align="left">美国</div>
</td>
<td width="10%">
<div align="center">&nbsp;</div>
</td>
</tr>
<tr>
<td width="45%">
<div align="left"><span>DC Chemical</span></div>
</td>
<td width="13%">
<div align="center">430</div>
</td>
<td width="10%" valign="top">
<div align="center">-</div>
</td>
<td width="11%">
<div align="left">韩国</div>
</td>
<td width="10%">
<div align="center">&nbsp;</div>
</td>
</tr>

。。我想把新式的表格也发出来。可惜这些里面各种属性太多了超过限制了。

回答

如果你能提供html源码，就好办了~

你的html源码不完整，补上<table>标签后，直接贴到Excel里，就能变成表格了。

如果你会Excel的话，很容易就搞定了

python3

import pandas as pd
html = 'tab.html' # 你给的table源码
#默认pd会用 lxml 解析html
df = pd.read_html(html,header=0,encoding='utf8')[0]
print(df)
df2 = df.iloc[1:,0:-1]
df2.columns = df.columns.delete(0)
df2 = df2.append(df.iloc[0,1:])
df2['产品']=df.iat[0,0].replace(' ','')
df2.insert(0,'产品',df2.pop('产品'))
df2 = df2.sort_index()print(df2)

结果：

产品厂家元/公斤涨/跌产地备注 0 进口原生多晶硅 WackerChemie 480 - 德国 NaN 1 进口原生多晶硅 Hemlock Semiconductor 450 - 美国 NaN 2 进口原生多晶硅 Tokuyama Corporation 460 - 日本 NaN 3 进口原生多晶硅 MEMC Electronic Materials，Inc 450 - 美国 NaN 4 进口原生多晶硅 MitsubishiPolysilicon 460 - 日本 NaN 5 进口原生多晶硅 REC Group 430 - 美国 NaN 6 进口原生多晶硅 DC Chemical 430 - 韩国 NaN

学一下pandas
redad_html（url,match='你想要的表格里的字符'）
这样就可以直接得到你想要的表格的数据内容。非常爽。

http://0594666.com/shop/shop2...
怎么提取

以上是【Python】python beautifulsoup 如何抓取不规则表格的内容的全部内容，来源链接： utcz.com/p/78595.html

【Python】python beautifulsoup 如何抓取不规则表格的内容

回答

其他人也看了：

springboot整合shiro之thymeleaf使用shiro标签的方法

Python 3行代码提取音乐高潮部分

Python 实现循环最快方式（for、while 等速度对比）

请问这种格式的字符串是十六进制还是什么呢？在node中，如何将它转化为base64呢？

关于PyQt5做可视化图表，工具选用

python+appium实现自动化测试的示例代码

Python变量名详细规则详细变量值介绍