
beautifulsoup
我正在运行此课程网站的抓取工具,我想知道一旦将它放入beautifulsoup,是否有更快的方法来抓取该页面。它花费的时间比我预期的要长。提示?from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support.ui import Selectfrom selenium.webdriver.support import expected_conditions ...
2024-01-10
使用BeautifulSoup获取标签样式
我正在抓取页面,并从该页面上的表中获取所有<tr>元素,如下所示:r = requests.get("http://lol.esportswikis.com/wiki/G2_Esports/Match_History")s = BeautifulSoup(r.content, "lxml")tr = s.find_all("table", class_="wikitable sortable")[0].find_all("tr")[3:]print tr[0]输出:<tr style="background...
2024-01-10
Beautifulsoup多类别选择器
我想选择所有具有A和B均为类属性的div。以下选择soup.findAll('div', class_=['A', 'B'])但是选择所有在类属性中具有A或B的div。类可以按任何顺序具有许多其他属性(C,D等),但是我只想选择同时具有A和B的那些属性。回答:css selectors改为使用:soup.select('div.A.B')...
2024-01-10
从文本文件中删除BeautifulSoup标签
我已安装bs4。你如何从文本文件中删除HTML标签?简而言之,我有一个脚本,将ESRI元数据项目写入该元数据HTML页面的文本文件中,对于这些项目中的一些项目,HTML格式代码也是由于某种原因编写的。我如何使用BeautifulSoup删除这段代码?它看起来马虎。从文本文件中删除BeautifulSoup标签此附件的说明项...
2024-01-10
BeautifulSoup和Scrapy之间的区别?
我想制作一个网站,显示亚马逊和电子海湾产品价格之间的比较。其中哪个会更好,为什么?我对BeautifulSoup有点熟悉,但对Scrapy爬虫却不太了解。回答:Scrapy是一个Web-spider或Web scraper框架,你为Scrapy提供一个根URL以开始爬网,然后你可以指定要爬网和获取的URL数量的限制。它是用于Web 爬网或爬网的完...
2024-01-10
BeautifulSoup findAll找不到全部
我正在尝试解析一个网站,并通过BeautifulSoup.findAll获取一些信息,但它并没有全部找到。.我正在使用python3代码是这个#!/usr/bin/python3from bs4 import BeautifulSoupfrom urllib.request import urlopenpage = urlopen ("http://mangafox.me/directory/")# print (page.read ())soup = BeautifulSoup (page.read ()...
2024-01-10
我可以使用BeautifulSoup删除脚本标签吗?
是否可以使用BeautifulSoup从HTML中删除脚本标签及其所有内容,还是必须使用正则表达式或其他内容?回答:>>> from bs4 import BeautifulSoup>>> soup = BeautifulSoup('<script>a</script>baba<script>b</script>', 'lxml')>>> for s in soup.select('script'):>>> s.extract()>>> soupbaba...
2024-01-10
使用BeautifulSoup获取文档DOCTYPE
我刚刚开始与BeautifulSoup结合使用scrapy,我想知道是否遗漏了一些非常明显的内容,但似乎无法弄清楚如何从生成的汤对象中获取返回的html文档的文档类型。鉴于以下html:<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"><html lang="en"> <head> <meta charset=utf-8 /><meta name="viewport" conte...
2024-01-10
selenium与BeautifulSoup进行网页抓取
我正在使用Python从网站上抓取内容。首先,我用BeautifulSoup和MechanizePython的,但我看到,该网站有一个按钮,通过JavaScript创建的内容,所以我决定使用Selenium。假设我可以使用Selenium和诸如之类的方法来查找元素并获取其内容driver.find_element_by_xpath,那么BeautifulSoup当我可以对所有内容都使用Selenium时,有...
2024-01-10
Python-BeautifulSoup抓取可见网页文本
基本上,我想使用BeautifulSoup来严格抓取网页上的可见文本。例如,此网页是我的测试用例。我主要想获取正文文本(文章),甚至在这里和那里甚至几个标签名称。我已经尝试过在这个SO问题中返回<script>不想要的标签和html注释的建议。我无法弄清楚该函数所需的参数findAll(),以便仅获取网页上的可见...
2024-01-10
如何在BeautifulSoup.contents中保留空格
我在网上找到的大多数示例都显示了如何删除空格-但就我而言,我需要保留它。html = "I can flip this whole thing with one hand\n <span>D#m</span>\nThe ringleader man\n<span>A#</span> <span>Dm</span> <span>A#</span>\nI know~~~~ it's ...
2024-01-10
如何使用BeautifulSoup bs4获取HTML标签的内部文本值?
使用BeautifulSoup bs4时,如何从HTML标签内部获取文本?当我运行此行时:oname = soup.find("title")我得到这样的title标签:<title>page name</title>现在我只想获取其中的内部文本page name,不带标签。怎么做?回答:使用.text从标记中获取文本。oname = soup.find("title")oname.text要不就 soup.title.textIn [4]: from bs4 import...
2024-01-10
ImportError:没有名为bs4的模块(BeautifulSoup)
我正在使用Python并使用Flask。当我在计算机上运行主Python文件时,它可以正常运行,但是当我激活venv并在终端中运行Flask Python文件时,它表示我的主Python文件具有“没有名为bs4的模块”。任何意见或建议,不胜感激。回答:激活virtualenv,然后安装BeautifulSoup4:$ pip install BeautifulSoup4使用进行安装bs4时e...
2024-01-10
的Python,BeautifulSoup4:其中多个属性等于多个值中选择的元素分别
<TABLE cellSpacing=0 cellPadding=0 width=700 border=0 617px; HEIGHT: 22px 23px 536px;> ... </TABLE> 我想选择的所有元素就像以上:所述标签是TABLE,并且有几个属性(cellSpacing=0,cellPadding=0,width=700,border=0)。的Python,BeautifulSoup4:其中多个属性等于多个值中选择的元素分别我尝试以下Python脚本:import requests...
2024-01-10
使用Python和BeautifulSoup(将网页源代码保存到本地文件中)
我正在使用Python 2.7 + BeautifulSoup 4.3.2。我正在尝试使用Python和BeautifulSoup在网页上获取信息。因为该网页位于公司网站中,并且需要登录和重定向,所以我将目标页面的源代码页面复制到一个文件中,并将其另存为C:\中的“example.html”,以方便练习。这是原始代码的一部分:<tr class="ghj"> <td><span cla...
2024-01-10
使用beautifulSoup,Python在h3和div标签中刮取文本
我没有使用python,BeautifulSoup,Selenium等的经验,但是我很想从网站上抓取数据并将其存储为csv文件。我需要的单个数据样本编码如下(一行数据)。<div class="box effect"><div class="row"><div class="col-lg-10"> <h3>HEADING</h3> <div><i class="fa user"></i> NAME</div> <div><i class="fa pho...
2024-01-10
Python-使用beautifulSoup查找文本,然后替换为原始汤变量
commentary = soup.find('div', {'id' : 'live-text-commentary-wrapper'})findtoure = commentary.find(text = re.compile('Gnegneri Toure Yaya')).replace('Gnegneri Toure Yaya', 'Yaya Toure')评论包含Gnegneri Toure Yaya的各种实例,需要更改为Yaya Toure。findAll() 因为findtoure是...
2024-01-10
使用beautifulsoup提取换行符之间的文本(例如 标签)
我在较大的文档中包含以下HTML<br />Important Text 1<br /><br />Not Important Text<br />Important Text 2<br />Important Text 3<br /><br />Non Important Text<br />Important Text 4<br />我目前正在使用BeautifulSoup来获取HTML中的其他元素,但是我一直无法找到一种方法来获取<br/>标记之间的重要文本行。我可以隔离并导航到每个<...
2024-01-10
ChannelOption.SO_BACKLOG做什么?
.option(ChannelOption.SO_BACKLOG, 100)显示在Netty 4升级文档中。您能解释一下它的作用吗?谢谢!回答:这是一个通过套接字的选项,用于确定排队的连接数。http://docs.oracle.com/javase/7/docs/api/java/net/ServerSocket.html传入连接指示(连接请求)的最大队列长度设置为backlog参数。如果在队列已满时出现连接指示...
2024-01-10
Python C程序子进程挂在“ for it in iter”
好的,所以我试图从python脚本运行C程序。目前,我正在使用测试C程序:#include <stdio.h>int main() {while (1) { printf("2000\n"); sleep(1);}return 0;}为了模拟我将要使用的程序,该程序会不断读取传感器的读数。然后,我尝试”2000”使用python中的子进程从C程序读取输出(在本例中为):#!usr/bin/pythonimpor...
2024-01-10
Python和Selenium-如何找到页面上的所有元素ID?
我知道我可以使用以下方法:find_elements_by_tag_name()find_elements_by_id()find_elements_by_css_selector()find_elements_by_xpath()但是我想做的就是简单地获取页面中存在的所有元素ID的列表,也许还有它们出现的标记类型。我该怎么做?回答:以前不必这样做,但是可以从逻辑上考虑一下,您可以使用XPath来做到这...
2024-01-10
Python Selenium:使用xpath查找对象属性
我是xpath的新手,尝试使用xpath获取“值”的值:<input type="submit" value=" Search " class="long searchButton" style="width:190px !important;">虽然很容易找到"type="submit"像这样的元素:browser.find_elements_by_xpath("//*[@type='submit']")我还无法弄清楚如何获得所需的值,例如:browser.find_elements_by_xpath...
2024-01-10
Python ftplib连接错误(gaierror)
我正在尝试使用python创建一个非常基本的FTP客户端,并且在前几行代码中,我已经遇到了问题我的代码:from ftplib import FTPftp = FTP('ftp.mysite.com')有了这段代码,并使用了无数不同的URL,我将始终得到相同的错误:gaierror: [Errno 11004] getaddrinfo failed回答:实际上,这意味着您的计算机无法解析您为其提...
2024-01-10
Python-ValueError:设置具有序列的数组元素
此Python代码:import numpy as pdef firstfunction(): UnFilteredDuringExSummaryOfMeansArray = [] MeanOutputHeader=['TestID','ConditionName','FilterType','RRMean','HRMean', 'dZdtMaxVoltageMean','BZMean','ZXMean','LVETMean','Z0Mean', ...
2024-01-10
Python-如何删除Matplotlib轴上的相对位移
当我尝试对具有足够大数字的范围进行绘图时,我得到了所有刻度线都相对移动的轴。例如:plot([1000, 1001, 1002], [1, 2, 3])我在横坐标轴上得到了这些刻度:0.0 0.5 1.0 1.5 2.0 +1e3问题是如何删除+1e3并获取:1000.0 1000.5 1001.0 1001.5 1002.0回答:plot([1000, 1001, 1002], [1, 2,...
2024-01-10
如何在python中获取一行一行的MySQL ResultSet
默认情况下,MySQLResultSets会从服务器上完全检索,然后才能完成任何工作。在巨大的结果集的情况下,这变得不可用。我实际上想从服务器一个接一个地检索行。在Java中,按照此处的说明(在“ ResultSet”下),我创建如下语句:stmt = conn.createStatement(java.sql.ResultSet.TYPE_FORWARD_ONLY, java.sql.Result...
2024-01-10
如何使用Python中的Selenium在Firefox中禁用Flash?
尝试使用配置文件设置在Firefox中使用Python中的Selenium禁用Flash。这个问题指定了一种通过GUI进行操作的方法,但是对于这种特定用例,最好以编程方式进行操作。具体来说,最好的解决方案是允许在新创建的配置文件对象中禁用Flash。非常感谢!回答:您可以使用以下配置文件禁用闪光灯。from selenium....
2024-01-10
使用Python脚本激活virtualenv
我想从Python脚本激活virtualenv实例。我知道这很容易做到,但是我看过的所有示例都使用它在env中运行命令,然后关闭子进程。我只是想激活virtualenv并返回外壳,就像bin / activate一样。像这样:$me: my-script.py -d env-name$(env-name)me:这可能吗?回答:如果要在virtualenv下运行Python子进程,可以通过使用位...
2024-01-10
在新标签页中打开Web Selenium + Python
因此,我试图在WebDriver内的新选项卡上打开网站。我想这样做,因为使用PhantomJS为每个网站打开一个新的WebDriver大约需要3.5秒,所以我想提高速度…我正在使用多进程python脚本,并且我想从每个页面中获取一些元素,因此工作流程如下:Open BrowserLoop throught my arrayFor element in array -> Open website in new tab -...
2024-01-10
