BeautifulSoup

我正在运行此课程网站的抓取工具，我想知道一旦将它放入beautifulsoup，是否有更快的方法来抓取该页面。它花费的时间比我预期的要长。提示？from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support.ui import Selectfrom selenium.webdriver.support import expected_conditions ...

2024-01-10

使用BeautifulSoup获取标签样式

我正在抓取页面，并从该页面上的表中获取所有<tr>元素，如下所示：r = requests.get("http://lol.esportswikis.com/wiki/G2_Esports/Match_History")s = BeautifulSoup(r.content, "lxml")tr = s.find_all("table", class_="wikitable sortable")[0].find_all("tr")[3:]print tr[0]输出：<tr style="background...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python reboot and select proper boot device

Beautifulsoup多类别选择器

我想选择所有具有A和B均为类属性的div。以下选择soup.findAll('div', class_=['A', 'B'])但是选择所有在类属性中具有A或B的div。类可以按任何顺序具有许多其他属性（C，D等），但是我只想选择同时具有A和B的那些属性。回答：css selectors改为使用：soup.select('div.A.B')...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python reboot and select proper boot device

从文本文件中删除BeautifulSoup标签

我已安装bs4。你如何从文本文件中删除HTML标签？简而言之，我有一个脚本，将ESRI元数据项目写入该元数据HTML页面的文本文件中，对于这些项目中的一些项目，HTML格式代码也是由于某种原因编写的。我如何使用BeautifulSoup删除这段代码？它看起来马虎。从文本文件中删除BeautifulSoup标签此附件的说明项...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python None

BeautifulSoup findAll找不到全部

我正在尝试解析一个网站，并通过BeautifulSoup.findAll获取一些信息，但它并没有全部找到。.我正在使用python3代码是这个#!/usr/bin/python3from bs4 import BeautifulSoupfrom urllib.request import urlopenpage = urlopen ("http://mangafox.me/directory/")# print (page.read ())soup = BeautifulSoup (page.read ()...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python None

使用BeautifulSoup获取文档DOCTYPE

我刚刚开始与BeautifulSoup结合使用scrapy，我想知道是否遗漏了一些非常明显的内容，但似乎无法弄清楚如何从生成的汤对象中获取返回的html文档的文档类型。鉴于以下html：<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"><html lang="en"> <head> <meta charset=utf-8 /><meta name="viewport" conte...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python www adobe com go getflashplayer

我可以使用BeautifulSoup删除脚本标签吗？

是否可以使用BeautifulSoup从HTML中删除脚本标签及其所有内容，还是必须使用正则表达式或其他内容？回答：>>> from bs4 import BeautifulSoup>>> soup = BeautifulSoup('<script>a</script>baba<script>b</script>', 'lxml')>>> for s in soup.select('script'):>>> s.extract()>>> soupbaba...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python reboot and select proper boot device

BeautifulSoup和Scrapy之间的区别？

我想制作一个网站，显示亚马逊和电子海湾产品价格之间的比较。其中哪个会更好，为什么？我对BeautifulSoup有点熟悉，但对Scrapy爬虫却不太了解。回答：Scrapy是一个Web-spider或Web scraper框架，你为Scrapy提供一个根URL以开始爬网，然后你可以指定要爬网和获取的URL数量的限制。它是用于Web 爬网或爬网的完...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python react全家桶搭建一个完整的react项目

selenium与BeautifulSoup进行网页抓取

我正在使用Python从网站上抓取内容。首先，我用BeautifulSoup和MechanizePython的，但我看到，该网站有一个按钮，通过JavaScript创建的内容，所以我决定使用Selenium。假设我可以使用Selenium和诸如之类的方法来查找元素并获取其内容driver.find_element_by_xpath，那么BeautifulSoup当我可以对所有内容都使用Selenium时，有...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python automation服务器不能创建对象

Python-BeautifulSoup抓取可见网页文本

基本上，我想使用BeautifulSoup来严格抓取网页上的可见文本。例如，此网页是我的测试用例。我主要想获取正文文本（文章），甚至在这里和那里甚至几个标签名称。我已经尝试过在这个SO问题中返回<script>不想要的标签和html注释的建议。我无法弄清楚该函数所需的参数findAll()，以便仅获取网页上的可见...

2024-01-10

BeautifulSoup BeautifulSoup4 java.lang.noclassdeffounderror

如何在BeautifulSoup.contents中保留空格

我在网上找到的大多数示例都显示了如何删除空格-但就我而言，我需要保留它。html = "I can flip this whole thing with one hand\n <span>D#m</span>\nThe ringleader man\n<span>A#</span> <span>Dm</span> <span>A#</span>\nI know~~~~ it's ...

2024-01-10

BeautifulSoup BeautifulSoup4 command line option syntax error

Python-使用beautifulsoup提取属性值

我试图在网页上的特定“输入”标签中提取单个“值”属性的内容。我使用以下代码：import urllibf = urllib.urlopen("http://58.68.130.147")s = f.read()f.close()from BeautifulSoup import BeautifulStoneSoupsoup = BeautifulStoneSoup(s)inputTag = soup.findAll(attrs={"name" : "stainfo"})output = inputTag['...

2024-01-10

BeautifulSoup 在python27安装tensorflow-gpu None

如何使用BeautifulSoup bs4获取HTML标签的内部文本值？

使用BeautifulSoup bs4时，如何从HTML标签内部获取文本？当我运行此行时：oname = soup.find("title")我得到这样的title标签：<title>page name</title>现在我只想获取其中的内部文本page name，不带标签。怎么做？回答：使用.text从标记中获取文本。oname = soup.find("title")oname.text要不就 soup.title.textIn [4]: from bs4 import...

2024-01-10

BeautifulSoup BeautifulSoup4 Python None

ImportError：没有名为bs4的模块（BeautifulSoup）

我正在使用Python并使用Flask。当我在计算机上运行主Python文件时，它可以正常运行，但是当我激活venv并在终端中运行Flask Python文件时，它表示我的主Python文件具有“没有名为bs4的模块”。任何意见或建议，不胜感激。回答：激活virtualenv，然后安装BeautifulSoup4：$ pip install BeautifulSoup4使用进行安装bs4时e...

2024-01-10

BeautifulSoup4 BeautifulSoup installshield installation information

使用Python和BeautifulSoup（将网页源代码保存到本地文件中）

我正在使用Python 2.7 + BeautifulSoup 4.3.2。我正在尝试使用Python和BeautifulSoup在网页上获取信息。因为该网页位于公司网站中，并且需要登录和重定向，所以我将目标页面的源代码页面复制到一个文件中，并将其另存为C：\中的“example.html”，以方便练习。这是原始代码的一部分：<tr class="ghj"> <td><span cla...

2024-01-10

BeautifulSoup BeautifulSoup4 command line option syntax error

如何在python中使用Selenium和Beautifulsoup解析网站？

编程新手，并弄清楚了如何使用Selenium导航到我需要去的地方。我想立即解析数据，但不确定从哪里开始。有人可以握我的手几秒钟，并朝正确的方向指点我吗？任何帮助表示赞赏-回答：假设您在要解析的页面上，Selenium将源HTML存储在驱动程序的page_source属性中。这样，你会加载page_source到BeautifulSoup...

2024-01-10

BeautifulSoup 在python27安装tensorflow-gpu windows10 ubuntu Android ijkpl

使用beautifulSoup，Python在h3和div标签中刮取文本

我没有使用python，BeautifulSoup，Selenium等的经验，但是我很想从网站上抓取数据并将其存储为csv文件。我需要的单个数据样本编码如下（一行数据）。<div class="box effect"><div class="row"><div class="col-lg-10"> <h3>HEADING</h3> <div><i class="fa user"></i>  NAME</div> <div><i class="fa pho...

2024-01-10

BeautifulSoup BeautifulSoup4 java.lang.noclassdeffounderror

Python-使用beautifulSoup查找文本，然后替换为原始汤变量

commentary = soup.find('div', {'id' : 'live-text-commentary-wrapper'})findtoure = commentary.find(text = re.compile('Gnegneri Toure Yaya')).replace('Gnegneri Toure Yaya', 'Yaya Toure')评论包含Gnegneri Toure Yaya的各种实例，需要更改为Yaya Toure。findAll() 因为findtoure是...

2024-01-10

BeautifulSoup BeautifulSoup4 Unable to resolve dependency f

使用beautifulsoup提取换行符之间的文本（例如标签）

我在较大的文档中包含以下HTML<br />Important Text 1<br /><br />Not Important Text<br />Important Text 2<br />Important Text 3<br /><br />Non Important Text<br />Important Text 4<br />我目前正在使用BeautifulSoup来获取HTML中的其他元素，但是我一直无法找到一种方法来获取<br/>标记之间的重要文本行。我可以隔离并导航到每个<...

2024-01-10

BeautifulSoup4 BeautifulSoup4 Python java.lang.noclassdeffounderror

ChannelOption.SO_BACKLOG做什么？

.option(ChannelOption.SO_BACKLOG, 100)显示在Netty 4升级文档中。您能解释一下它的作用吗？谢谢！回答：这是一个通过套接字的选项，用于确定排队的连接数。http://docs.oracle.com/javase/7/docs/api/java/net/ServerSocket.html传入连接指示（连接请求）的最大队列长度设置为backlog参数。如果在队列已满时出现连接指示...

2024-01-10

BeautifulSoup BeautifulSoup4 command line option syntax error

的Python，BeautifulSoup4：其中多个属性等于多个值中选择的元素分别

<TABLE cellSpacing=0 cellPadding=0 width=700 border=0 617px; HEIGHT: 22px 23px 536px;> ... </TABLE> 我想选择的所有元素就像以上：所述标签是TABLE，并且有几个属性（cellSpacing=0,cellPadding=0,width=700,border=0）。的Python，BeautifulSoup4：其中多个属性等于多个值中选择的元素分别我尝试以下Python脚本：import requests...

2024-01-10

BeautifulSoup4 uiautomator2 python None

python 订阅接口中的filter应该如何设置

假设我在DolphinDB发布端已设置了过滤列symbol，代码如下所示：share streamTable(10000:0,`time`symbol`price`id, [TIMESTAMP,SYMBOL,DOUBLE,INT]) as tradessetStreamTableFilterColumn(trades, `symbol)我需要过滤只有symbol==000905的数据，我在python中应该如何写filter参数?{"symbol": ["000905",]}这样吗？回答：可以用np.arr...

2024-01-10

python cifar10 .net core filter None

Python-如何使用matplotlib在while循环中实时绘制？

我正在尝试使用OpenCV从摄像机实时绘制一些数据。但是，实时绘图（使用matplotlib）似乎不起作用。我将问题隔离到以下简单示例中：fig = plt.figure()plt.axis([0, 1000, 0, 1])i = 0x = list()y = list()while i < 1000: temp_y = np.random.random() x.append(i) y.append(temp_y) plt.scatter(i, temp_y) i += 1 ...

2024-01-10

matplotlib中文手册 matplotlib service temporarily unavailable

Python MySQLDB：在列表中获取fetchall的结果

我想在列表中获取fetchall操作的结果，而不是元组的tuple或字典的元组。例如，cursor = connection.cursor() #Cursor could be a normal cursor or dict cursorquery = "Select id from bs"cursor.execute(query)row = cursor.fetchall()现在，问题是结果行是（（（123，），（234，））或（{‘id’：123}，{‘id’：234}）我正在寻找的是（123,234）...

2024-01-10

python challenge Python PyQt5 reboot and select proper boot device

将“ true”（JSON）转换为等效于Python的“ True”

我最近使用的Train status API(has_arrived,has_departed)在JSON对象中添加了两个额外的键值对，这导致我的脚本崩溃。这是字典：{"response_code": 200, "train_number": "12229", "position": "at Source", "route": [ { "no": 1, "has_arrived": false, "has_departed": false, "scharr...

2024-01-10

acronis true image uiautomator2 python installshield installation information

Python-queue.task_done（）的用途是什么？

我编写了一个脚本，该脚本具有多个线程（用创建threading.Thread），该线程从Queueusing中获取URLqueue.get_nowait()，然后处理HTML。我是多线程编程的新手，无法理解该queue.task_done()函数的用途。当Queue为空时，它将自动返回queue.Empty异常。所以我不明白每个线程都需要调用该task_done()函数。我们知道当队列为空...

2024-01-10

在python27安装tensorflow-gpu None None

Python-Matplotlib散点图在每个数据点具有不同的文本

我正在尝试绘制散点图，并用列表中的不同数字注释数据点。因此，例如，我想绘制y vs x并使用中的相应数字进行注释n。y = [2.56422, 3.77284, 3.52623, 3.51468, 3.02199]z = [0.15, 0.3, 0.45, 0.6, 0.75]n = [58, 651, 393, 203, 123]ax = fig.add_subplot(111)ax1.scatter(z, y, fmt='o')有任何想法吗？回答：我不知道有任何采用数组或列...

2024-01-10

matplotlib画柱状图 matplotlib中文手册 None

使用Python + Selenium选择iframe

因此，我对如何在Selenium中做到这一点完全感到困惑，并且无法在任何地方找到答案，所以我分享了自己的经验。我正在尝试选择一个iframe，但没有运气（或者无论如何也不能重复）。HTML看起来像这样：<iframe id="upload_file_frame" width="100%" height="465px" frameborder="0" framemargin="0" name="upload_file_frame" src="/blah/impo...

2024-01-10

android studio 使用 python challenge reboot and select proper boot device

从用Swift编写的现有项目中调用Python代码

我需要一种在Apple平台上从Swift调用Python代码的方法。一个图书馆将是理想的。我已经做了大量的Google搜索，而我发现的最接近的材料是关于Objective-C的。回答：如果有人对从swift调用python感兴趣，这是我发现的一些有用的材料：python框架-https: //developer.apple.com/library/ios/technotes/tn2328/_index.htmlPyObjC（更...

2024-01-10

python项目 python调用api接口 developer.apple.com

Python 3.5-Selenium-如何处理新窗口并等待其完全加载？

我正在执行浏览器自动化，并且在某个时候被阻止：稍后，我要求浏览器单击一个按钮，该按钮又打开一个新窗口。但是有时Internet太慢，因此加载新窗口需要时间。我想知道如何让Selenium等待，直到这个新窗口完全加载完毕。这是我的代码：driver.switch_to.default_content()Button = WebDriverWait(driver, 20).until(EC....

2024-01-10

python module Python win32 com组件 windows10 ubuntu Android ijkpl