java爬虫通过selenium+WebDriver遍历页面链接报错

Z时代
2024-01-10
分类：技术分享

背景

由于要爬取的页面，每个链接的请求都是点击之后js动态发起的，目标数据也多是js动态生成的，所以使用selenium工具+webdriver（调试用的是chrome，具体使用准备用phantomjs）.

模拟登录之后，模拟查询之后，得到如下列表

图片描述

可以看到链接是不能直接拿到的。

接下去步骤是这样的：

得到链接的集合

遍历集合，点击链接，得到对应的详情页面

通过页面句柄转到详情页面，拿到目标数据，再转回父页面

如上继续遍历

问题

按照如上逻辑，在执行到遍历步骤的时候，在第二次时报错了。

第一种报错：

org.openqa.selenium.StaleElementReferenceException: stale element

reference: element is not attached to the page document

我的代码：

// 获取查询按钮
            WebElement queryBtn = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/form/div[3]/div[13]/button[1]"));
//            jse.executeScript("arguments[0].scrollIntoView()", queryBtn);
            scrollToElementAndClick(queryBtn);
            Thread.sleep(500);  // 等待加载
            driver.manage().window().maximize();
            driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
            driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
            int pageIndex = Integer.parseInt(driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[3]")).getText());
            int pageSize = Integer.parseInt(driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[2]")).getText());
//            Actions actions = new Actions(driver);
            while (pageIndex <= pageSize) {
                pageIndex++;
                WebElement tbody = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));
                List<WebElement> links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));
                for (WebElement link : links) {
                    WebDriver window;
                    System.out.println("-------------- voucherNo: "+ link.getText());
                    scrollToElementAndClick(link);
//                    jse.executeScript("arguments[0].scrollIntoView()", link);
//                    Thread.sleep(1000);
//                    actions.moveToElement(link).click().perform();
                    currentWindow = driver.getWindowHandle();
                    //get all windows
                    Set<String> handles = driver.getWindowHandles();
                    for (String s : handles) {
                        //current page is don't close
                        if (s.equals(currentWindow) || s.equals(parentWindow))
                            continue;
                        else {
                            window = driver.switchTo().window(s);
                            window.manage().window().maximize();
                            window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
                            window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
                            //get all tables
                            String pageSource = window.getPageSource();
                            String jsonArray = parseDTO(pageSource);
                            System.out.println(jsonArray);
                            //close the table window
                            window.close();
                        }
                        //swich to current window
                        driver.switchTo().window(currentWindow);
                    }
                }
                // click next page
                if (pageIndex <= pageSize) {
                    WebElement nextPage = driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));
                    scrollToElementAndClick(nextPage);
                    //set next page to current page
                    driver = driver.switchTo().window(driver.getWindowHandle());
                    driver.manage().window().maximize();
                    driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
                    driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
                }            }

我在stackoverflow上面查到过类似问题，也去官网上面看到了对应报错的解释：原因应该是我在跳转到子页面的时候，父页面进行的刷新，虽然在ui上面还能到那些链接，但是集合里面的链接是原先定义的，和遍历一次之后回来的父页面对应不上了。（我是这么理解的，如果我理解错了，请大神指出）。

然后我就按照官方的建议，每次页面去页面上拿链接而不是从原先定义的链接集合中拿。

先说明：每个链接的xpath都是有规律的，如：

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[1]/td[2]/a
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[2]/td[2]/a
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[3]/td[2]/a//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a

这是我第二次的代码：

            while (pageIndex <= pageSize) {
                pageIndex++;
                WebElement tbody = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));
                List<WebElement> links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));
                int size = links.size();
                for (int i = 1; i <= size; i++) {
                    String href = String.format("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a", i);
                    WebElement link = driver.findElement(By.xpath(href));
                    WebDriver window;
                    System.out.println("-------------- voucherNo: "+ link.getText());
                    scrollToElementAndClick(link);
                    currentWindow = driver.getWindowHandle();
                    //get all windows
                    Set<String> handles = driver.getWindowHandles();
                    for (String s : handles) {
                        //current page is don't close
                        if (s.equals(currentWindow) || s.equals(parentWindow))
                            continue;
                        else {
                            window = driver.switchTo().window(s);
                            window.manage().window().maximize();
                            window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
                            window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
                            //get all tables
                            String pageSource = window.getPageSource();
                            String jsonArray = parseDTO(pageSource);
                            System.out.println(jsonArray);
                            //close the table window
                            window.close();
                        }
                        //swich to current window
                        driver.switchTo().window(currentWindow);
                    }
                }
                // click next page
                if (pageIndex <= pageSize) {
                    WebElement nextPage = driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));
                    scrollToElementAndClick(nextPage);
                    //set next page to current page
                    driver = driver.switchTo().window(driver.getWindowHandle());
                    driver.manage().window().maximize();
                    driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
                    driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
                }            }

这次报了第二种错误：

Caused by: org.openqa.selenium.NoSuchElementException: {"errorMessage":"Unable to find element with xpath

Emm...试了很多种办法都没有用，希望有大神能救救我

万分感谢！！！

回答：

很尴尬又来自答了，按照我第二种方法，页面跳转之后，返回到父页面时，通过xpath定位我要点击的下一个链接，这个方法是可行的。

问题是出在在返回到父页面之后，要切换iframe，不然就定位不到。

所以要执行一次driver.switchTo.frame()。这样才能定位到。

回答：

第一次的问题是因为元素失效，当循环中的第一个元素点击过后，其他全部失效，你可以尝试吧所有url放到list中再获取。第二个问题是元素不存在，页面跳转之后，相同的xpath是找不到对应的元素的。

以上是 java爬虫通过selenium+WebDriver遍历页面链接报错的全部内容，来源链接： utcz.com/a/167494.html

java爬虫通过selenium+WebDriver遍历页面链接报错

背景

问题

回答：

回答：

其他人也看了：