Java基础-爬虫实战之爬去校花网网站内容

java

          Java基础-爬虫实战之爬去校花网网站内容

                               作者:尹正杰

版权声明:原创作品,谢绝转载!否则将追究法律责任。

  爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Python实现!下面是Java爬虫的代码如下:

 1 /*

2 @author :yinzhengjie

3 Blog:http://www.cnblogs.com/yinzhengjie/tag/Scala%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

4 EMAIL:y1053419035@qq.com

5 */

6 package cn.org.yinzhengjie.reptilian;

7

8 import java.io.FileOutputStream;

9 import java.io.IOException;

10 import java.io.InputStream;

11 import java.net.HttpURLConnection;

12 import java.net.URL;

13

14 public class ReptilianDemo {

15 public static void main(String[] args) throws IOException {

16 //定义需要爬取的网站

17 URL url = new URL("http://www.xiaohuar.com/");

18 //建立连接

19 HttpURLConnection conn = (HttpURLConnection) url.openConnection();

20 //设置请求方式

21 conn.setRequestMethod("GET");

22 //获取服务器响应的状态码

23 int code = conn.getResponseCode();

24 //判断状态码是否为200,如果是说明访问成功,那么就开始下载页面

25 if(code == 200){

26 InputStream in = conn.getInputStream() ;

27 FileOutputStream out = new FileOutputStream("D:\\BigData\\JavaSE\\yinzhengjieData\\校花网.html",false) ;

28 byte[] buf = new byte[1024] ;

29 int len = 0 ;

30 while((len = in.read(buf)) != -1){

31 // System.out.println(new String(buf ,0 ,len , "utf-8" ));

32 out.write(buf , 0 , len);

33 }

34 in.close();

35 out.close();

36 System.out.println("下载完成!");

37 }

38 }

39 }

40

41 /*

42 以上代码执行结果如下:

43 下载完成!

44 */

  查看爬去后的文件:

以上是 Java基础-爬虫实战之爬去校花网网站内容 的全部内容, 来源链接: utcz.com/z/391344.html

回到顶部