JAVA全系列 教程
3762个小节阅读:7089.3k
目录
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
网络爬虫(web crawler):自动抓取互联网信息的程序。
比如我们要开发一个网站,在网页的右上角需要显示今日天气,如果人工查询天气预报维护非常繁琐,我们就可以使用爬虫程序自动爬取天气网站的程序,自动更新。
Jsoup可以通过URL获取网页的HTML源文件,源文件中包含着网站数据,我们可以解析HTML源文件的数据来获取我们需要的信息。
爬虫步骤:
xxxxxxxxxx
public class CrawlerDemo {
public static void main(String[] args) {
int min = 9734020;
int max = 9734346;
// 循环爬取数据
for (int i = min; i <= max; i++) {
try {
//1. 使用Jsoup获取网页HTML源文件,转为Document对象
Document document = Jsoup.parse(new URL("http://daily.zhihu.com/story/"+i), 3000);
// System.out.println(document);
//2. 通过Document对象,获取需要的Element对象
Elements headerImgEle = document.getElementsByAttributeValue("alt", "头图");
Elements titleEle = document.select(".DailyHeader-title");
Elements authorEle = document.select(".author");
Elements contentELe = document.select(".content");
//3. 获取Element对象的数据。
System.out.println(headerImgEle.get(0).attr("src"));
System.out.println(titleEle.get(0).text());
System.out.println(authorEle.get(0).text());
System.out.println(contentELe.get(0).text());
}catch (Exception e){}
}
}
}