机械化 - 如何关注或“点击”导轨中的元刷新
机械化有点麻烦。机械化 - 如何关注或“点击”导轨中的元刷新
使用Mechanize提交表单时。我来到一个元刷新页面,没有链接。
我的问题是我如何遵循元刷新?
我试图让元刷新,但然后我得到一个套接字错误。 示例代码
require 'mechanize' agent = WWW::Mechanize.new
agent.get("http://euroads.dk")
form = agent.page.forms.first
form.username = "username"
form.password = "password"
form.submit
page = agent.get("http://www.euroads.dk/system/index.php?showpage=login")
agent.page.body
响应:
<html> <head>
<META HTTP-EQUIV=\"Refresh\" CONTENT=\"0;URL=index.php?showpage=m_frontpage\">
</head>
</html>
然后我尝试:
redirect_url = page.parser.at('META[HTTP-EQUIV=\"Refresh\"]')[ "0;URL=index.php?showpage=m_frontpage\"][/url=(.+)/, 1]
,但我得到:
NoMethodError: Undefined method '[]' for nil:NilClass
回答:
在内部,Mechanize使用Nokogiri来处理将HTML解析为DOM。您可以在Nokogiri文档中获得,以便您可以使用XPath或CSS访问器在返回的页面中进行挖掘。
这是如何仅引入nokogiri得到重定向URL:
require 'nokogiri' html = <<EOT
<html>
<head>
<meta http-equiv="refresh" content="2;url=http://www.example.com/">
</meta>
</head>
<body>
foo
</body>
</html>
EOT
doc = Nokogiri::HTML(html)
redirect_url = doc.at('meta[http-equiv="refresh"]')['content'][/url=(.+)/, 1]
redirect_url # => "http://www.example.com/"
doc.at('meta[http-equiv="refresh"]')['content'][/url=(.+)/, 1]
分解为:查找CSS访问为<meta>
标签与refresh
的http-equiv
属性的第一次出现(at
)。取该标记的content
属性并返回url=
后面的字符串。
这是典型使用的一些机械化代码。因为你没有给出示例代码,你的基础矿井必须先从这方面的工作:
agent = Mechanize.new page = agent.get('http://www.examples.com/')
redirect_url = page.parser.at('meta[http-equiv="refresh"]')['content'][/url=(.+)/, 1]
page = agent.get(redirect_url)
编辑:at('META[HTTP-EQUIV=\"Refresh\"]')
您的代码具有上述at()
。请注意,您正在使用单引号字符串转义双引号。这会导致一个反斜杠,然后在字符串中加双引号,这不是我样本使用的内容,而且是我为什么会得到错误的第一个猜测。 Nokogiri找不到标签,因为没有<meta http-equiv=\"Refresh\"...>
。
编辑:机械化有一个内置的方式通过设置来处理元刷新,:
agent.follow_meta_refresh = true
它还具有parse the meta tag的方法和返回的内容。从文档:
解析(内容,URI)
分析从meta标签的内容属性的延迟和网址。当没有指定网址时,Parse需要当前页面的URI来推断网址。如果给出了一个块,解析后的延迟和url将被传递给它进行进一步处理。 如果无法解析延迟和url,则返回nil。
# <meta http-equiv="refresh" content="5;url=http://example.com/" /> uri = URI.parse('http://current.com/')
Meta.parse("5;url=http://example.com/", uri) # => ['5', 'http://example.com/']
Meta.parse("5;url=", uri) # => ['5', 'http://current.com/']
Meta.parse("5", uri) # => ['5', 'http://current.com/']
Meta.parse("invalid content", uri) # => nil
回答:
Mechanize treats meta refresh elements just like links without text.因此,你的代码可以如此简单:
page = agent.get("http://www.euroads.dk/system/index.php?showpage=login") page.meta_refresh.first.click
以上是 机械化 - 如何关注或“点击”导轨中的元刷新 的全部内容, 来源链接: utcz.com/qa/260994.html