403禁止使用Java,但不能使用网络浏览器?

这通常是由XML声明前的空白引起的,但是它可以是任何文本,例如破折号或任何字符。我说这通常是由空白引起的,因为人们认为空白始终是可忽略的,但事实并非如此。

经常发生的另一件事是UTF-8 BOM(字节顺序标记),如果将文档作为字符流传递给XML解析器而不是字节流,则在将XML声明视为空白之前允许我正在编写一个小型Java程序,以获取给定Google搜索字词的结果数量。出于某种原因,在Java中我得到了403禁止访问,但在Web浏览器中却得到了正确的结果。码:

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.URL;

public class DataGetter {

public static void main(String[] args) throws IOException {

getResultAmount("test");

}

private static int getResultAmount(String query) throws IOException {

BufferedReader r = new BufferedReader(new InputStreamReader(new URL("https://www.google.com/search?q=" + query).openConnection()

.getInputStream()));

String line;

String src = "";

while ((line = r.readLine()) != null) {

src += line;

}

System.out.println(src);

return 1;

}

}

错误:

Exception in thread "main" java.io.IOException: Server returned HTTP response code: 403 for URL: https://www.google.com/search?q=test

at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)

at sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source)

at DataGetter.getResultAmount(DataGetter.java:15)

at DataGetter.main(DataGetter.java:10)

为什么这样做呢?使用UTF-8 BOM。

如果使用架构文件(.xsd)验证xml文件,并且其中一个架构文件具有UTF-8 BOM,则可能会发生同样的情况。

回答:

你只需要设置用户代理标头即可使其工作:

URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();

connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");

connection.connect();

BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));

StringBuilder sb = new StringBuilder();

String line;

while ((line = r.readLine()) != null) {

sb.append(line);

}

System.out.println(sb.toString());

从异常堆栈跟踪可以看出,已为你透明地处理了SSL。

但是,获取结果数量并不是真的那么简单,在此之后,你必须通过获取Cookie并解析重定向令牌链接来假冒你是浏览器。

String cookie = connection.getHeaderField( "Set-Cookie").split(";")[0];

Pattern pattern = Pattern.compile("content=\\\"0;url=(.*?)\\\"");

Matcher m = pattern.matcher(response);

if( m.find() ) {

String url = m.group(1);

connection = new URL(url).openConnection();

connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");

connection.setRequestProperty("Cookie", cookie );

connection.connect();

r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));

sb = new StringBuilder();

while ((line = r.readLine()) != null) {

sb.append(line);

}

response = sb.toString();

pattern = Pattern.compile("<div id=\"resultStats\">About ([0-9,]+) results</div>");

m = pattern.matcher(response);

if( m.find() ) {

long amount = Long.parseLong(m.group(1).replaceAll(",", ""));

return amount;

}

}

运行我得到的完整代码2930000000L。

以上是 403禁止使用Java,但不能使用网络浏览器? 的全部内容, 来源链接: utcz.com/qa/415012.html

回到顶部