XML案例_循环爬取数据-【官方】百战程序员_IT在线教育培训机构_体系课程在线学习平台

目录

百战程序员，全站22050+开发课程+文档，学习精选优质好课快人一步！观看视频快捷键ALT+N

JAVA全系列教程

3762个小节阅读：7089.3k

赞

收藏

全部开发者教程

目录

Spring6

项目搭建_项目介绍

亿级高并发电商项目-新

Ajax技术详解-新

spring-security-新

Elasticsearch介绍_全文检索

Spring Cloud Alibaba-Dubbo新

SpringMVC封装参数_简单数据类型集合

分词器默认分词器

分词器_IK分词器

分词器拼音分词器

分词器_自定义分词器

SpringDataES_入门案例

SpringDataES_入门案例

SpringDataES_编写实体类

SpringDataES_编写实体类

SpringDataES_Repository接口

SpringDataES_Repository接口

SpringDataES_DSL查询文档

SpringDataES_按照规则命名查询方法

SpringDataES_分页查询

SpringDataES_分页查询

SpringDataES_结果排序

SpringDataES_template操作文档

SpringDataES_template查询文档

SpringDataES_template复杂条件查询

SpringDataES_template分页查询

SpringDataES_template结果排序

Spring Cloud Alibaba-Higress新

Spring Cloud Alibaba技术栈-Sentinel新

Elasticsearch集群_搭建集群

Elasticsearch集群_搭建集群(2)

Elasticsearch集群_配置kibana

Elasticsearch集群_测试集群状态

Elasticsearch集群_测试集群状态

Elasticsearch集群_故障应对&水平扩容

Elasticsearch优化_内存设置

Elasticsearch优化_磁盘选择

Elasticsearch优化_分片策略

Spring Cloud Alibaba技术栈-RocketMQ新

SpringDataES_template操作索引

分词器_IK分词器词典

Spring Cloud Alibaba技术栈-SkyWalking新

Elasticsearch案例_需求说明

Elasticsearch案例_ES自动补全

Elasticsearch案例_创建索引

Elasticsearch案例_创建索引

Elasticsearch案例_导入数据

Elasticsearch案例_项目搭建

Elasticsearch案例_创建实体类、Repository接口

Elasticsearch案例_自动补全功能

Elasticsearch案例_高亮搜索关键字

Elasticsearch案例_编写Controller

Elasticsearch案例_前端页面

Spring Cloud Alibaba技术栈-Seata新

NewRedis

01_JAVA入门和背景知识

02_变量、数据类型、运算符

03_IDEA的使用和第一个java项目

04_控制语句、方法、递归算法

05_面向对象详解和JVM底层内存分析

06_数组和数据存储

08_异常机制

09_【项目】飞机大战

11_数据库范式与表关系

12_计算机网络协议详解

13_Elasticsearch

14_Servlet技术详解

15_Git版本控制

17_Docker技术应用于实战新版

21_Dubbo

22_FastDFS分布式文件系统

23_Nginx入门到实战

24_Redis从入门到实战

25_数据库中间件Mycat实战

28_Maven

34_分布式医疗云平台

34_Mysql

35_Spring Cloud alibaba

37_面试和成功求职的秘技

38_shiro

39_Spring Security

40_预科阶段

41_HTML5

42_反射技术

46_网络编程

47_多线程与并发编程

48_Tomcat调优

49_百战旅游网

53_JavaScript语言

56_Lambda表达式

59_Elastic Stack

60_分布式全局ID

61_分布式事务

62_分布式锁

63_接口幂等

64_亿级高并发电商项目

67_微信支付

68_支付宝支付

70_高性能web平台

74_华为面试题

C语言快速入门

JAVA全系列教程

面向对象的程序设计语言

Python全系列教程

Python3.x版本，未来主流的版本

人工智能教程

顺势而为，AI创新未来

大厂算法教程

算法，程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务教程

目前业界流行的框架组合

web前端全系列教程

通向WEB技术世界的钥匙

大数据全系列教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(1.7k)

赞(0)

XML案例_使用Jsoup完成网页爬虫

网络爬虫（web crawler）：自动抓取互联网信息的程序。

比如我们要开发一个网站，在网页的右上角需要显示今日天气，如果人工查询天气预报维护非常繁琐，我们就可以使用爬虫程序自动爬取天气网站的程序，自动更新。

Jsoup可以通过URL获取网页的HTML源文件，源文件中包含着网站数据，我们可以解析HTML源文件的数据来获取我们需要的信息。

爬虫步骤：

引入jar包。
使用Jsoup获取网页HTML源文件，转为Document对象
通过Document对象，获取需要的Element对象
获取Element对象的数据。
设置循环自动爬取


xxxxxxxxxx
public class CrawlerDemo {
    public static void main(String[] args) {
        int min = 9734020;
        int max = 9734346;
       
         // 循环爬取数据
        for (int i = min; i <= max; i++) {
            try {
                //1. 使用Jsoup获取网页HTML源文件，转为Document对象
                Document document = Jsoup.parse(new URL("http://daily.zhihu.com/story/"+i), 3000);
                //        System.out.println(document);
                //2. 通过Document对象，获取需要的Element对象
                Elements headerImgEle = document.getElementsByAttributeValue("alt", "头图");
                Elements titleEle = document.select(".DailyHeader-title");
                Elements authorEle = document.select(".author");
                Elements contentELe = document.select(".content");
                //3. 获取Element对象的数据。
                System.out.println(headerImgEle.get(0).attr("src"));
                System.out.println(titleEle.get(0).text());
                System.out.println(authorEle.get(0).text());
                System.out.println(contentELe.get(0).text());
            }catch (Exception e){}
        }
    }
}

XML案例_使用Jsoup完成网页爬虫 XML案例_使用XML配置爬虫程序参数

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越（北京）科技有限公司 All Rights Reserved.

京ICP备14032124号-2