当前位置: 首页 > news >正文

Spring Boot 使用 WebMagic 爬虫框架入门

1. 创建 Spring Boot 项目

使用 Spring Initializr 创建一个 Spring Boot 项目,选择需要的依赖,如 Spring Web 等。

2. 添加 WebMagic 依赖

在项目的 pom.xml 文件中添加 WebMagic 的核心和扩展依赖:

<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.10.0</version>
</dependency>
<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.10.0</version>
</dependency>

3. 编写爬虫处理器

创建一个类实现 PageProcessor 接口,重写 process 方法和 getSite 方法。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;public class MyPageProcessor implements PageProcessor {// 抓取网站的相关配置private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);@Overridepublic void process(Page page) {// 定义如何抽取页面信息,并保存下来page.putField("title", page.getHtml().xpath("//title/text()").toString());page.putField("content", page.getHtml().css("div.content").toString());// 从页面发现后续的 url 地址来抓取page.addTargetRequests(page.getHtml().css("a", "href").all());}@Overridepublic Site getSite() {return site;}public static void main(String[] args) {Spider.create(new MyPageProcessor()).run();}
}

4. 配置 Pipeline

Pipeline 用于处理爬取到的数据。可以创建一个自定义的 Pipeline,将数据存储到数据库或其他位置。

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;public class MyPipeline implements Pipeline {@Overridepublic void process(ResultItems resultItems, Task task) {// 获取爬取的数据String title = resultItems.get("title");String content = resultItems.get("content");// 将数据存储到数据库或其他操作System.out.println("标题:" + title + ", 内容:" + content);}
}

5. 启动爬虫

在 Spring Boot 的启动类中,调用爬虫的启动方法。

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import us.codecraft.webmagic.Spider;@SpringBootApplication
public class Application {public static void main(String[] args) {SpringApplication.run(Application.class, args);// 启动爬虫Spider.create(new MyPageProcessor()).addPipeline(new MyPipeline()).run();}
}

6. 注意事项

  • 网站反爬虫机制:在爬取网站时,要注意遵守网站的规则和反爬虫机制,合理设置爬取的间隔时间和重试次数,避免对网站造成过大压力。

  • 数据存储:根据实际需求选择合适的数据存储方式,如数据库、文件等,并在 Pipeline 中实现相应的存储逻辑。

  • 异常处理:在爬虫过程中可能会出现网络异常、解析异常等情况,需要添加适当的异常处理逻辑,保证爬虫的稳定运行。

相关文章:

Spring Boot 使用 WebMagic 爬虫框架入门

1. 创建 Spring Boot 项目 使用 Spring Initializr 创建一个 Spring Boot 项目&#xff0c;选择需要的依赖&#xff0c;如 Spring Web 等。 2. 添加 WebMagic 依赖 在项目的 pom.xml 文件中添加 WebMagic 的核心和扩展依赖&#xff1a; <dependency><groupId>u…...

【软件设计师:复习】上午题核心知识点总结(二)

一、计算机网络(常考) 1.网络模型与协议(必考) 1.OSI七层模型 vs. TCP/IP四层模型 OSI七层TCP/IP四层核心协议/设备功能应用层(Application)应用层HTTP、FTP、DNS、SMTP提供用户接口和服务表示层(Presentation)SSL/TLS、JPEG、ASCII数据格式转换、加密/解密会话层(S…...

TensorRt10学习第一章

建立TensorRt时必须要有Public ILogger,因为createInferBuiler和createruntime要用&#xff0c;是一个接口 出错打印 和...

【LeetCode Hot100】回溯篇

前言 本文用于整理LeetCode Hot100中题目解答&#xff0c;因题目比较简单且更多是为了面试快速写出正确思路&#xff0c;只做简单题意解读和一句话题解方便记忆。但代码会全部给出&#xff0c;方便大家整理代码思路。 46. 全排列 一句话题意 给定一个无重复数字的序列&#xf…...

Go 语言中一个功能强大且广泛使用的数据验证库github.com/go-playground/validator/v10

github.com/go-playground/validator/v10 是 Go 语言中一个功能强大且广泛使用的数据验证库&#xff0c;主要用于对结构体字段进行数据校验&#xff0c;确保数据的合法性和完整性。以下是其核心作用、使用场景及代码案例的详细说明&#xff1a; 核心作用 数据校验 支持对结构体…...

Java 多线程进阶:线程安全、synchronized、死锁、wait/notify 全解析(含代码示例)

在 Java 并发编程中&#xff0c;“线程安全” 是核心议题之一。本文将深入讲解线程安全的实现手段、synchronized 的使用方式、可重入锁、死锁的成因与避免、wait/notify 通信机制等&#xff0c;并配合实际代码案例&#xff0c;帮助你彻底搞懂 Java 线程协作机制。 一、线程安全…...

windows电脑端SSH连接开termux的安卓端

&#xff08;确保你此前已经安装好了ssh&#xff09;在手机termux当中输入&#xff1a; 查看状态&#xff1a;ssh 启动服务&#xff1a;sshd 查看IP&#xff1a;ifconfig 然后在电脑端&#xff1a;...

Java 期中考试练习题

一、引言 Java 作为一门广泛应用的编程语言&#xff0c;在计算机相关专业的课程体系中占据重要地位。期中考试是检验同学们对 Java 知识掌握程度的重要环节。本文将呈现一些典型的 Java 期中考试试题&#xff0c;并进行详细讲解&#xff0c;希望能帮助大家更好地理解和掌握 Ja…...

【Unity】 组件库分类详解

1️⃣ Audio&#xff08;音频组件&#xff09; 用于处理游戏中的声音。 Audio Source 读音[ˈɔːdiəʊ ˈsɔːs]&#xff0c;音频源组件&#xff0c;用于播放音频文件&#xff0c;可设置音量、Pitch、循环播放等属性&#xff0c;是音频播放的核心组件。 Audio Listener 读音…...

Java 中使用正则表达式

1. 引入包 在使用正则表达式之前&#xff0c;需要引入包&#xff1a; import java.util.regex.Matcher; import java.util.regex.Pattern; 2. 常用模式规则 元字符 &#xff1a;这些是正则表达式中的特殊字符&#xff0c;用于匹配特定的模式。 . &#xff1a;匹配任意单个字…...

如何降低LabVIEW开发费用

在 LabVIEW 开发过程中&#xff0c;开发费用是用户和开发者共同关注的重点。过高的开发成本可能会压缩项目利润空间&#xff0c;甚至影响项目的可行性。下面将介绍降低 LabVIEW 开发费用的有效方法。 ​ 合理规划项目需求&#xff0c;避免后期增加​ 在项目启动阶段&#xff…...

WPF使用SQLSugar和Nlog

WPF应用中使用SQLSugar和NLog实现数据库操作与日志记录 1. 准备工作 首先,通过NuGet安装必要的包: Install-Package SQLSugarCore Install-Package NLog Install-Package NLog.Config Install-Package NLog.Targets.File 2. 配置NLog 在项目中添加nlog.config文件: <…...

Python10天冲刺-设计模型之策略模式

策略模式是一种行为设计模式&#xff0c;它允许你在运行时动态地改变对象的行为。这种模式的核心思想是将一组相关的算法封装在一起&#xff0c;并让它们相互替换。 下面是使用 Python 实现策略模式的一个示例&#xff1a; 示例代码 假设我们有一个简单的购物车系统&#xf…...

Js扩展DOM、BOM、AJAX、事件、定时器

BOM 操作 BOM指的是浏览器对象模型&#xff1a;Browser Object Mode&#xff0c;通过操作 window 对象的属性和方法来实现与浏览器的交互。 BOM的构成如下图所示&#xff1a; 其中&#xff0c;window对象是顶级对象&#xff0c;在 window 对象下面有一些重要的属性&#xff1…...

奥地利学派方法论的三个基础

主观价值论&#xff1a; 一切估价行为皆来自于个人&#xff0c;价格现象只能从主观估价中得到解释。 个人只在边际上做决策&#xff0c;边际价值是递减的。 罗斯巴德的等式&#xff1a;三个单位的某个东西的总效用 > 两个单位的总效用 > 一个单位的总效用&#xff0c;但…...

WPF之Image控件详解

文章目录 1. 概述2. Image控件的基本属性2.1 Source属性2.2 Stretch属性2.3 StretchDirection属性 3. 在XAML中使用Image控件3.1 基本用法3.2 设置拉伸模式3.3 设置图像对齐方式 4. 在代码中操作Image控件4.1 加载本地图像4.2 异步加载图像4.3 从流中加载图像4.4 控制图像的解码…...

如何将 VS Code 与 Linux 系统高效连接:从入门到进阶

引言 无论是开发服务器应用、管理远程主机&#xff0c;还是在本地 Linux 环境中提升开发效率&#xff0c;Visual Studio Code&#xff08;VS Code&#xff09; 凭借其强大的扩展能力&#xff0c;成为连接 Linux 系统的利器。本文将详细介绍 三种主流方法&#xff0c;助你无缝对…...

Matlab/Simulink - BLDC直流无刷电机仿真基础教程(五) - animateRotorPosition脚本讲解与使用

Matlab/Simulink - BLDC直流无刷电机仿真基础教程&#xff08;五&#xff09; - animateRotorPosition脚本讲解与使用 前言一、animateRotorPosition脚本内容二、脚本功能讲解三、脚本修改与模型配置四、可视化效果展示五、修改后脚本内容文章相关模型文件下载链接参考链接 前言…...

安川机器人常见故障报警及解决办法

机器人权限设置 操作权限设置(如果密码不对,就证明密码被人修改) 编辑模式密码:无(一把钥匙,默认) 管理模式密码:999999999(9个9,二把钥匙) 安全模式密码:555555555(9个5,三把钥匙,权限最高,有的型号机器人,没有此模式,但最高密码为安全模式密码) 示教器…...

【Quest开发】极简版!透视环境下抠出身体并能遮挡身体上的服装

前两天发了一个很复杂的版本&#xff0c;又鼓捣了一下发现完全没有必要。我之前的理解有点偏&#xff08;不是错误的但用法错了&#xff09;&#xff0c;但是有一些小伙伴收藏了&#xff0c;害怕里面的某些东西对谁有用&#xff0c;所以写了一篇新的&#xff0c;前两步配置环境…...

【Github仓库】Learn-Vim随笔

一、前言 学习vim的过程中发现了很多很好的资源&#xff0c;其中不乏bilibili上up主的精品教程。也在YouTube上看过很多教程。但Learn-Vim这个Github仓库实在让我受益良多。 本笔记便是出于此仓库&#xff1a; 仓库地址 附上个人.vimrc配置文件: syntax on " 开启语法高…...

【2025五一数学建模竞赛C题】社交媒体平台用户分析问题|建模过程+完整代码论文全解全析

你是否在寻找数学建模比赛的突破点&#xff1f;数学建模进阶思路&#xff01; 作为经验丰富的美赛O奖、国赛国一的数学建模团队&#xff0c;我们将为你带来本次数学建模竞赛的全面解析。这个解决方案包不仅包括完整的代码实现&#xff0c;还有详尽的建模过程和解析&#xff0c…...

Wireshark抓取SMTP协议报文

文章目录 1. 实验&#xff1a;网络仿真软件使用及网络分析2. SMTP协议2.1 SMTP协议简介2.2 SMTP协议的核心功能2.3 SMTP的相关命令和作用 3. Wireshark抓取报文3.1 抓取SMTP协议报文流程3.1.1 Email邮件服务器背景3.1.2 具体实现流程 3.2 过滤SMTP协议相关报文 4. 协议时序图4.…...

PS学习笔记(一)

课程地址&#xff1a;【B站第一&#xff01;】央美大佬198小时讲完的PS教程&#xff0c;全程干货无废话&#xff01;学完秒变大神&#xff01;还学不会&#xff0c;我不教设计了&#xff01;&#xff01;_哔哩哔哩_bilibili 第一章&#xff1a;基础知识 1.PS认识 一、PS应用领…...

部署.NET6.0 Web API项目到Docker

文章目录 介绍创建.NET WebAPI项目项目打包项目部署文件准备部署命令可能的问题与解决 介绍 使用VS2022创建一个.NET6的Web API项目&#xff0c;将其打包&#xff0c;并部署到Linux服务器上的Docker中。 Linux和Docker环境已经备好&#xff0c;本文不再赘述&#xff0c;主要记…...

前端函数防抖(Debounce)完整讲解 - 从原理、应用到完整实现

&#x1f337; 古之立大事者&#xff0c;不惟有超世之才&#xff0c;亦必有坚忍不拔之志 &#x1f390; 个人CSND主页——Micro麦可乐的博客 &#x1f425;《Docker实操教程》专栏以最新的Centos版本为基础进行Docker实操教程&#xff0c;入门到实战 &#x1f33a;《RabbitMQ》…...

React Redux 与 Zustand

Redux 一、Redux 核心概念 1. 为什么需要 Redux&#xff1f; 解决的问题&#xff1a;在大型 React 应用中&#xff0c;跨组件共享状态、管理复杂数据流。 优势&#xff1a; 单一数据源&#xff1a;全局状态集中存储在 Store 中。 可预测性&#xff1a;通过严格的规则&#…...

Webug4.0靶场通关笔记07- 第9关反射XSS和第10关存储XSS

目录 第09关 反射型XSS 1.打开靶场 2.源码分析 3.渗透实战 第10关 存储型XSS 1.打开靶场 2.源码分析 3.渗透实战 本系列为通过《Webug4.0靶场通关笔记》的渗透集合&#xff0c;本文为反射型和存储型XSS漏洞关卡的渗透部分&#xff0c;通过对XSS关卡源码的代码审计找到漏…...

react学习笔记4——React UI组件库与redux

流行的开源React UI组件库 material-ui(国外) 官网: http://www.material-ui.com/#/github: GitHub - mui/material-ui: Material UI: Comprehensive React component library that implements Googles Material Design. Free forever. ant-design(国内蚂蚁金服) 官网: Ant…...

Java学习手册:Spring 事务管理

一、事务管理的概念 事务是一组操作的集合&#xff0c;这些操作要么全部成功&#xff0c;要么全部失败。事务管理的目的是保证数据的一致性和完整性。在数据库操作中&#xff0c;事务管理尤为重要&#xff0c;例如银行转账、订单支付等场景都需要事务管理来确保数据的正确性。…...

SpringBoot研究生双选系统开发实现

概述 SpringBoot研究生双选信息发布系统​&#xff0c;该系统实现了研究生与导师双向选择的全流程管理&#xff0c;​​采用主流SpringBoot框架开发&#xff0c;是学习企业级教育管理系统开发的优质资源。适合作为计算机专业设计项目或高校信息化建设参考&#xff0c;完整实现…...

springboot中异步接口实现所有方式_20250501

几种异步接口实现demo package org.dromara.controller.app;// 导入必要的依赖库import cn.dev33.satoken.annotation.SaIgnore; import lombok.extern.slf4j.Slf4j; import org.springframework.core.io.Resource; import org.springframework.core.io.UrlResource; import o…...

【Linux网络】I/O多路转接技术 - epoll

&#x1f4e2;博客主页&#xff1a;https://blog.csdn.net/2301_779549673 &#x1f4e2;博客仓库&#xff1a;https://gitee.com/JohnKingW/linux_test/tree/master/lesson &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01; &…...

机器学习经典算法:用决策树原理优化新能源汽车续航能力

&#x1f525; “用决策树重构新能源车能量大脑&#xff01;算法推导代码实战全解&#xff0c;续航暴增15%” 决策树算法就像我们生活中做决策的 “流程指南”&#xff0c;通过层层判断得出最终结论。比如你去超市买水果&#xff0c;站在琳琅满目的货架前&#xff0c;就不自觉地…...

深入探讨宾馆一次性牙刷价格,市场价格区间差异大

在我们日常出行、住宿的时候&#xff0c;宾馆的一次性牙刷是常见的、标配的物品。许多人或许都会感到好奇&#xff0c;这些一次性牙刷到底值多少钱。下面就来深入探讨一下宾馆一次性牙刷价格方面的问题。 市场价格区间 宾馆一次性牙刷价格差距大&#xff0c;便宜的一支可能只…...

深入解析 .NET Kestrel:高性能 Web 服务器的架构与最佳实践

Kestrel 是 .NET 中用于处理 HTTP 请求的高性能 Web 服务器。作为 ASP.NET Core 的默认服务器&#xff0c;Kestrel 被设计为在高并发、高吞吐量的环境下表现优异&#xff0c;并且能够支持多种协议和跨平台操作。本文将深入探讨 Kestrel 的架构设计、工作原理、配置方式、性能优…...

ZYNQ 纯PL端逻辑资源程序固化流程

ZYNQ 纯PL端逻辑资源程序固化 ZYNQ的程序固化流程比传统的FPGA固化流程复杂很多&#xff0c;Vivado生成的bit文件无法直接固化在ZYNQ芯片中。因为ZYNQ 非易失性存储器的引脚&#xff08;如 SD 卡、QSPI Flash&#xff09;是 ZYNQ PS 部分的专用引脚。这些非易失性存储器由 PS …...

【树莓派Pico FreeRTOS】-FreeRTOS-SMP移植

FreeRTOS-SMP移植 文章目录 FreeRTOS-SMP移植1、Raspberry Pi Pico SDK准备2、下载最新FreeRTOS-Kernel源码3、Raspberry Pi Pico的开发环境搭建4、编译配置5、FreeRTOSConfig.h文件设置6、演示代码RP2040 由 Raspberry Pi 设计,具有双核 Arm Cortex-M0+ 处理器和 264KB 内部 …...

数字智慧方案5961丨智慧能源与运维云平台解决方案(52页PPT)(文末有下载方式)

详细资料请看本解读文章的最后内容。 资料解读&#xff1a;智慧能源与运维云平台解决方案 在当今数字化时代&#xff0c;能源管理与设备运维的智能化、高效化成为企业发展的关键。智慧能源与运维云平台解决方案应运而生&#xff0c;为企业提供了全面且先进的能源管理和运维手段…...

2025东三省C题深圳杯C题数学建模挑战赛数模思路代码文章教学: 分布式能源接入配电网的风险分析

完整内容请看文章最下面的推广群 数据整理与分析 表1&#xff1a;有源配电网62节点系统负荷参数 内容&#xff1a;列出了62个节点的有功负荷&#xff08;单位&#xff1a;kW&#xff09;。 特点&#xff1a; 负荷范围&#xff1a;24 kW&#xff08;节点19&#xff09;到420 …...

腾讯云BI VS quickbi 企业选型(从企业实际功能使用和费用对比)

腾讯云BI VS quickbi 选型 一、总结 前段时间领导让调研腾讯云BI&#xff0c;用来做BI选型&#xff0c;现根据公司实际使用功能做如下总结。 建议继续使用quickbi&#xff0c;不选择腾讯云BI 原因&#xff1a; 腾讯云BI专业版&#xff0c;官方价格最低101996元。并且只能选…...

WebDeveloper 流量分析、sudo提权,靶场通关WP

一、信息收集 1、主机探测 arp-scan -l netdiscover -i eth0 -r 192.168.33.0/24 nmap -sP 192.168.66.0/24 2、端口扫描 nmap -sS -sV 192.168.66.141 PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 7.6p1 Ubuntu 4 (Ubuntu Linux; protocol 2.0) 80/tcp op…...

编写教育网站后端页面笔记

callbacktitle.html 对应表: 对应的功能: 控制器层数据: 页面没有写内容 chapter.html 对应表: questionbank ,intofloortime,questionBank,title,didtitles,option,answer,analyse 对应的功能:问题反馈页面 控制器层数据(控制器类): ChapterQuestionbankTitle c…...

C++漫溯键值的长河:map set

文章目录 1.关联式容器2.set2.1 find2.2 lower_bound、upper_bound 3.multiset3.1 count3.2 equal_range 4.map4.1 insert4.2 operate->4.3 operate[ ]4.4 map的应用实践&#xff1a;随机链表的复制 5.multimap希望读者们多多三连支持小编会继续更新你们的鼓励就是我前进的动…...

西门子数字化研发设计制造一体化规划案例P87(87页PPT)(文末有下载方式)

资料解读&#xff1a;《西门子数字化研发设计制造一体化规划案例》 详细资料请看本解读文章的最后内容。 该文档围绕西门子为企业打造的智能化制造研发工艺生产一体化平台规划方案展开&#xff0c;全面阐述了从业务现状分析到项目实施及案例分享的整个过程。 业务现状与需求分析…...

Rust多线程性能优化:打破Arc+锁的瓶颈,效率提升10倍

一、引言 在 Rust 开发中&#xff0c;多线程编程是提升程序性能的重要手段。Arc&#xff08;原子引用计数&#xff09;和锁的组合是实现多线程数据共享的常见方式。然而&#xff0c;很多程序员在使用 Arc 和锁时会遇到性能瓶颈&#xff0c;导致程序运行效率低下。本文将深入剖…...

基于python的人工智能应用简述

基于Python的人工智能应用简述 Python已成为人工智能(AI)开发的首选语言,凭借其简洁性、丰富的库生态系统和强大的社区支持,广泛应用于各类AI应用场景。以下是Python在人工智能领域的主要应用领域和技术实现。 1. 机器学习(Machine Learning) Python通过Scikit-learn、Ten…...

《Android 应用开发基础教程》——第十章:使用 Gson 实现网络 JSON 数据解析与对象映射

目录 第十章&#xff1a;使用 Gson 实现网络 JSON 数据解析与对象映射 &#x1f539; 10.1 什么是 Gson&#xff1f; &#x1f538; 10.2 添加依赖 &#x1f538; 10.3 基础使用 ✦ 示例 JSON 字符串&#xff1a; ✦ 定义对应的 Java 类&#xff1a; ✦ JSON ➜ 对象&am…...

【Android】四大组件之BroadcastReceiver

目录 一、什么是BroadcastReceiver 二、创建和使用BroadcastReceiver 三、跨应用广播接收权限 四、广播方式 五、广播类型与特性 六、BroadcasReceiver注册方式 七、BroadcasReceiver工作流程 你可以把广播接收器想象成一个“收音机”。它的作用是监听系统或应用发出的“…...

[UVM]寄存器模型的镜像值和期望值定义是什么?他们会保持一致吗?

寄存器模型的镜像值和期望值定义是什么&#xff1f;他们会保持一致吗&#xff1f; 摘要&#xff1a;在 UVM (Universal Verification Methodology) 寄存器模型中&#xff0c;镜像值 (mirrored value) 和期望值 (desired value) 是两个非常重要的概念&#xff0c;用于管理寄存器…...