登录Scrapy
我在登录scrapy时遇到了麻烦,并且我能找到的大多数内容都已过时。我已经LOG_FILE="log.txt"在settings.py文件中设置了文件,并从文档中设置了文件,它应该可以工作:Scrapy在每个Spider实例中都提供了一个记录器,可以通过以下方式对其进行访问和使用:import scrapyclass MySpider(scrapy.Spider): name = 'myspider'...
2024-01-10scrapy的一个小问题
用scrapy 爬取菜鸟教程的课程时碰到的小疑惑,如图 1.2.图2 的做法是正确的,。不明白图一中 明明 desc为空的时侯 会有值。(例子 菜鸟教程)...
2024-01-10scrapy 忽略证书?
查了各方文档,最后定位在DOWNLOAD_HANDLERS_BASE这里。{ 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler', 'http': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler', 'https': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler', ...
2024-01-10scrapy的调度疑问?
假设在一个scrapy-redis服务中启动了2个爬虫,CONCURRENT_REQUESTS为默认设置,也就是线程池中有16个线程,那么是每个爬虫有16个线程还是整个scrapy服务共享16个线程?又按照什么规则从不同爬虫队列中取任务的呢?回答:问题1:每个爬虫都会 共享 线程池中的线程问题2:scrapy-redis 由调度器( Scheduler )负责分配爬虫队列首先,每个爬虫都有自己独...
2024-03-07scrapy假死是怎么回事?
http://news.ifeng.com/listpage/11502/20150924/1/rtlist.shtml我爬的是上面凤凰网的链接,链接里的日期通过循环来变,但是运行一段时间后,scrapy就停止爬取了,但还在运行,而且python进程占用cpu过高,到百分之三四十。下面是log信息截图:10:35时候停止抓取了,12点38我把它关了。下面是代码: def parse(self, re...
2024-01-10scrapy爬虫爬取出问题?
求问为啥那个数据没有爬取出来啊?回答:试试//li/a/div/span/text()回答:打印你的response,你会发现中间<div class="num-wrap"><span>--</span></div><div class="nav-name">动画</div>是--还未加载,在js里加载的数据回答:在scrapy shell里调试多方便啊回答:因为你看到的网页,和你代码打开的,不一样...
2024-01-10scrapy管道类的访问实例
我想访问变量self.cursor以利用活动的postgreSQL连接,但我无法弄清楚如何访问scrapy的管道类实例。scrapy管道类的访问实例class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.connect( host= os.environ['HOST_NAME'], user=os.environ['USERNAME'], ...
2024-01-10scrapy-解析分页的项目
我有一个形式的网址:example.com/foo/bar/page_1.html总共有53页,每页约20行。我基本上想从所有页面中获取所有行,即〜53 * 20个项目。我的parse方法中有有效的代码,该代码分析单个页面,每个项目也深入一页,以获取有关该项目的更多信息: def parse(self, response): hxs = HtmlXPathSelector(response) restaura...
2024-01-10Scrapy:存储数据
我是python和scrapy的新手。我打算遵循Scrapy教程,但是我不了解存储步骤的逻辑。scrapy crawl spidername -o items.json -t jsonscrapy crawl spidername --set FEED_URI=output.csv --set FEED_FORMAT=csv 我不了解的含义:-o-t–set谢谢你的帮助回答:你可以通过scrapy crawl -h在项目目录中键入来查看可用命令的列表。scrapy crawl spi...
2024-01-10如何禁用scrapy中的缓存?
我正在尝试在特定网站上抓取网页。该网页因我发送的不同Cookie的设置而有所不同scrapy.Request()。如果我一一请求到网页,它给我正确的结果,但是当我在for循环中发送这些cookie时,它给了我相同的结果。我认为scrapy正在为我创建缓存,并在第二个请求中从缓存中获取响应。这是我的代码:def start_reques...
2024-01-10单击Scrapy中的按钮
我正在使用Scrapy爬行网页。单击某些按钮时,仅会弹出一些我需要的信息(当然,单击后也会显示在HTML代码中)。我发现Scrapy可以处理的形式(如登录)如图所示这里。但是问题在于没有表格可以填写,所以这不是我所需要的。如何简单地单击一个按钮,然后显示我需要的信息?我是否必须使用诸如...
2024-01-10Get scrapy抓取整个网站
我正在使用scrapy来爬行我拥有的旧站点,我将下面的代码用作我的spider。我不介意为每个网页或其中包含所有内容的数据库输出文件。但是我确实需要能够使Spider抓取整个内容,而不必输入我当前必须执行的每个网址import scrapyclass DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["www.example.com"] st...
2024-01-10scrapy不打印出异常堆栈跟踪
是否有一种特殊的机制来强制scrapy打印出所有python异常/堆栈跟踪。我犯了一个简单的错误,即弄错了一个列表属性,导致AttributeError出现,该错误未在日志中完整显示:2019-11-15 22:13:50 [scrapy] INFO: Dumping Scrapy stats:{'downloader/request_bytes': 264, 'downloader/request_count': 1, 'downloader/request_method_count/GET': 1, '...
2024-01-10scrapy如何设置引荐来源网址
我需要设置引荐来源网址,然后再抓取网站,该网站使用基于引用网址的身份验证,因此如果引荐来源无效,则不允许我登录。有人可以告诉我如何在Scrapy中执行此操作吗?回答:如果你想在Spider的请求中更改引荐来源网址,则可以DEFAULT_REQUEST_HEADERS在settings.py文件中进行更改:DEFAULT_REQUEST_HEADERS = { ...
2024-01-10关于scrapy爬虫AJAX页面
问题:爬取信息页面为:知乎话题广场当点击加载的时候,用Chrome 开发者工具,可以看到Network中,实际请求的链接为:FormData为:urlencode:然后我的代码为: ... data = response.css('.zh-general-list::attr(data-init)').extract() param = json.loads(data[0]) topic_id = param['params']['topic_id']...
2024-01-10浅谈scrapy 的基本命令介绍
如下所示:scrapy stratproject projectname ##创建一个项目scrapy genspider myspidername fider ##创建一个spider文件scrapy crawl spidername ## 执行一个spider程序scrapy shell url ## 动态执行代码以上这篇浅谈scrapy 的基本命令介绍就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。...
2024-01-10scrapy怎么实现自定爬取深度?
我想实现对一个网址的图片进行下载,然后对该网址里面所有a标签的链接页面的图片进行下载,以此类推,这是我写的代码,求教大佬怎么做到在spider里用循环实现自定义深度啊import scrapyfrom ..items import ImgspiderItemfull_img_list = []class TestSpiderSpider(scrapy.Spider): nam...
2024-02-10如何整合Flask&Scrapy?
我正在使用scrapy来获取数据,并且我想使用flask网络框架在网页中显示结果。但是我不知道如何在烧瓶应用程序中调用蜘蛛。我试图用它CrawlerProcess来称呼我的蜘蛛,但出现了这样的错误:ValueErrorValueError: signal only works in main threadTraceback (most recent call last)File "/Library/Python/2.7/site-packages/flask/app.py", line 1...
2024-01-10scrapy启动后未执行直接结束?
问题描述最近在学scrapy,再写一个爬取图片的项目的时候,发现启动爬虫后,未执行函数,直接结束了,找了好久没发现到底是那出问题,网上也没有相关答案同时调试也是直接结束 断点设置再parse_item函数的第一行,根本不给面子┭┮﹏┭┮调试提示↓pydev debugger: process 3331 is connectingConnected to pyde...
2024-01-10从脚本运行scrapy,不包括管道
我正在通过脚本运行scrapy,但它所做的只是激活spider。它不会通过我的商品渠道。我已经阅读了http://scrapy.readthedocs.org/en/latest/topics/practices.html,但是它并没有说明包括管道。我的设置:Scraper/ scrapy.cfg ScrapyScript.py Scraper/ __init__.py items.py pipelines.py settings.p...
2024-01-10创建管道来保存scrapy文件吗?
我需要保存一个文件(.pdf),但不确定如何执行。我需要保存.pdfs并以某种方式将它们存储在一个目录中,就像它们存储在我要删除的站点上一样。从我可以收集的信息来看,我需要建立一个管道,但是据我所知,管道保存的“ Items”和“ items”只是诸如字符串/数字之类的基本数据。保存文件是对管...
2024-01-10新手入门scrapy报错 求帮忙看看
D:\pythonProject2\Scrapy\bilibili_spider>scrapy crawl bilibili -o test.csv2020-11-25 10:26:00 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: bilibili_spider)2020-11-25 10:26:00 [scrapy.utils.log]...
2024-03-06为什么vs2013没有scrapy?
我在Windows的命令行里直接用Python可以发现import scrapy 不会报错但是如果在vs2013里编辑的话,scrapy下有波浪线然后运行的时候会出现no module called scrapy请问有什么解决办法?回答:看看你项目的“Python Environments”里有没有装 scrapy,有可能是创建了虚拟环境没装回答:那是因为VS里的python和你在cmd里...
2024-01-10Scrapy无法跳转到下一页
-- coding: utf-8 --import scrapyfrom mySpider.items import MyspiderItemclass ItcastSpider(scrapy.Spider):name = 'itcast'allowed_domains = ['dsxxcx.zstu.edu.cn']start_urls = ['http://dsxxcx.zstu....
2024-03-09如何强制scrapy爬行重复的URL?
我正在学习Scrapy一个Web爬网框架。默认情况下,它不会抓取重复的网址或scrapy已经抓取的网址。如何使Scrapy抓取重复的URL或已经抓取的URL?我尝试在Internet上查找,但找不到相关的帮助。我发现DUPEFILTER_CLASS = RFPDupeFilter和SgmlLinkExtractor自Scrapy-蜘蛛抓取重复网址,但这个问题是相反的我在寻找什么回答...
2024-01-10