当前位置: 首页 > news >正文

使用 rvest 包快速抓取网页数据:从入门到精通

爬虫代理加强版

介绍

随着大数据和数据科学的迅速发展,互联网数据的抓取已经成为重要的信息获取手段之一。网页抓取(Web Scraping)可以帮助我们自动化地从网页中提取有价值的数据,应用广泛,包括新闻热点分析、金融数据采集等。在本篇文章中,我们将介绍如何使用 R 语言中的 rvest 包,结合代理 IP 技术,快速抓取新闻网站的数据。我们以 澎湃新闻(The Paper,网址:https://www.thepaper.cn)为例,展示如何抓取该网站的新闻热点,包括标题和摘要,并将其保存为文件。

澎湃新闻(The Paper)是中国领先的新闻网站之一,致力于为读者提供深度报道、时事新闻以及各类热点话题的最新动态。作为国内重要的媒体平台之一,澎湃新闻广泛涉及政治、经济、文化、科技等多个领域,并且具有较高的新闻质量和社会影响力。由于其内容广泛且实时更新,抓取其新闻热点成为数据分析与研究的一个常见应用场景。

本文将通过一个简单的示例,帮助读者从入门到精通地掌握 rvest 包的使用,并结合代理 IP、Cookie 和 User-Agent 的设置,提高爬虫抓取效率。

技术分析
1. 工具简介

rvest 包是 R 语言中专为网页抓取设计的工具,简洁高效,能够处理 HTML 页面内容的解析、数据提取等任务。通过 rvest,我们可以轻松地获取网页中的各种信息,例如文章标题、作者、内容、图片链接等。与其他网页抓取工具相比,rvest 更加适合 R 用户,提供了一系列直观的 API。

2. 使用代理 IP 技术

在实际抓取过程中,尤其是高频率抓取时,网站往往会对频繁访问的 IP 进行封锁或限制。为了规避此类问题,我们可以通过使用代理 IP 来隐匿真实 IP,从而避免被反爬虫机制检测到。本文以爬虫代理提供的代理IP服务为例,演示如何配置代理,保证爬虫能稳定抓取目标网页。

3. 目标分析

我们目标是抓取澎湃新闻(The Paper)网站的热点新闻,包括文章的标题和摘要。抓取的流程如下:

  • 配置代理 IP、Cookie 和 User-Agent。
  • 使用 rvest 解析网页结构。
  • 提取新闻文章的标题和摘要。
  • 将抓取的数据保存到本地 CSV 文件中。
实现代码

以下是完整的实现代码,包含详细的中文注释,帮助读者理解每个关键步骤。

# 加载必要的 R 包
library(rvest)
library(httr)# 设置代理 IP 配置(以亿牛云代理为例 www.16yun.cn)
proxy_url <- "http://proxy.16yun.cn:代理端口"
proxy_user <- "你的用户名"
proxy_password <- "你的密码"# 设置 User-Agent 和 Cookie
headers <- add_headers(`User-Agent` = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.5993.89 Safari/537.36",`Cookie` = "你的Cookie字符串"
)# 创建一个包含代理的会话对象
proxy_config <- use_proxy(url = proxy_url, port = 80, username = proxy_user, password = proxy_password)# 目标网页 URL,指向澎湃新闻热点页面
news_url <- "https://www.thepaper.cn/newsDetail_forward_1234567"  # 需要替换为实际新闻页面链接# 抓取数据的主要函数
scrape_news <- function(url) {# 获取网页内容response <- GET(url, proxy_config, headers)# 检查响应状态if (http_status(response)$category != "Success") {stop("无法访问目标网页,请检查代理或网络配置。")}# 解析 HTML 内容html <- content(response, "text") %>% read_html()# 提取标题和摘要titles <- html %>% html_nodes(".news_title") %>% html_text(trim = TRUE)summaries <- html %>% html_nodes(".news_summary") %>% html_text(trim = TRUE)# 合并为数据框news_data <- data.frame(标题 = titles, 摘要 = summaries, stringsAsFactors = FALSE)return(news_data)
}# 抓取新闻数据
news_data <- scrape_news(news_url)# 保存数据到文件
output_file <- "news_data.csv"
write.csv(news_data, output_file, row.names = FALSE, fileEncoding = "UTF-8")# 提示用户保存成功
cat("新闻数据已成功保存到文件:", output_file, "\n")
代码说明
  1. 代理 IP 的使用:通过 use_proxy 函数设置代理,使爬虫请求通过指定的代理服务器发送,从而避免被网站封锁 IP。
  2. User-Agent 和 Cookie 设置:通过 add_headers 函数设置 HTTP 请求头中的 User-AgentCookie,模拟真实浏览器的访问行为,有效绕过一些简单的反爬虫策略。
  3. 新闻标题和摘要提取:使用 html_nodeshtml_text 提取页面中的新闻标题和摘要。根据澎湃新闻网站的实际 HTML 结构,".news_title"".news_summary" 是新闻标题和摘要对应的 CSS 选择器。
  4. 数据存储:抓取的数据以 CSV 格式存储,方便后续查看和处理。
结论

使用 rvest 包进行网页抓取是一个高效且直观的方法,尤其适合 R 用户。通过结合代理 IP、Cookie 和 User-Agent 的设置,可以有效绕过反爬虫机制,保证爬虫的稳定性与高效性。本文以澎湃新闻为例,展示了如何抓取新闻热点数据,包括如何处理代理 IP、如何解析 HTML 页面并提取目标数据,最后将数据存储为文件。通过本篇教程,读者可以快速掌握使用 rvest 包抓取网页数据的基本技巧,并在实际项目中应用这些知识。

相关文章:

使用 rvest 包快速抓取网页数据:从入门到精通

介绍 随着大数据和数据科学的迅速发展&#xff0c;互联网数据的抓取已经成为重要的信息获取手段之一。网页抓取&#xff08;Web Scraping&#xff09;可以帮助我们自动化地从网页中提取有价值的数据&#xff0c;应用广泛&#xff0c;包括新闻热点分析、金融数据采集等。在本篇…...

青少年编程与数学 02-004 Go语言Web编程 01课题、Web应用程序

青少年编程与数学 02-004 Go语言Web编程 01课题、Web应用程序 课题摘要:一、Web应用程序二、Web服务器&#xff08;一&#xff09;什么是Web服务器&#xff08;二&#xff09;Web服务器配置1. 选择服务器软件2. 安装服务器软件3. 配置服务器4. 安全设置5. 部署网站内容6. 测试服…...

MybatisPlus(四)

五、条件构造器和常用接口 1、wapper介绍 Wrapper &#xff1a; 条件构造抽象类&#xff0c;最顶端父类 AbstractWrapper &#xff1a; 用于查询条件封装&#xff0c;生成 sql 的 where 条件 QueryWrapper &#xff1a; 查询条件封装 UpdateWrapper &#xff1a; Update 条件封…...

经典电荷泵/Charge pump——1998.JSSC

电路结构 工作原理 M3 and M4 are the series switches, and M5, M6 switch to the highest voltage. If M5 and M6 are missing, having a large capacitor is of absolute necessity, because must always stay between 2 Vin and 2Vin - Uj to avoid switching on the vert…...

搭建MongoDB

title: 搭建MongoDB date: 2024-11-30 23:30:00 categories: - 服务器 tags: - MongoDB - 大数据搭建MongoDB 环境&#xff1a;Centos 7-2009 1. 创建MongoDB的国内yum源 # 下载Centos7对应最新版7.0.15的安装包 cat >> /etc/yum.repos.d/mongodb.repo << &quo…...

2FA双因子验证技术实现原理

一、背景 随着关注数据安全的意识逐步提升&#xff0c;很多站点都开始强制用户不止使用用户名密码的形式进行登录&#xff0c;还会逐步引导用户开启2FA多因子验证。 Github就已经强制用户使用2FA多因子验证进行账号的登录&#xff0c;现在阿里云、腾讯云等也逐步往这个方向发展…...

boost之bind

简介 用于构造函数对象&#xff0c;其定义在文件bind.hpp中 bind 其底层使用通用的模板类bind_t template<class R, class F, class L> class bind_t { public:typedef bind_t this_type;bind_t(F f, L const & l): f_(f), l_(l) {}#define BOOST_BIND_RETURN re…...

simpleperf生成火焰图的步骤

1. simpleperf 命令抓取.data文件 adb shell simpleperf record --duration 30 -g -p 8734 --trace-offcpu --clockid monotonic -e cpu-clock -o /data/local/tmp/perf.data C:\Users\fadi.su>adb shell simpleperf record --duration 30 -g -p 8734 --trace-offcpu --cl…...

拥有人类情感的AI:未来还是幻想?

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…...

EAS的KDTextField 添加回车事件监听

1、控件绑定一个action&#xff08;可以在ui上配置&#xff09; 2、因为GUI设置的统一的控件切换键为TAB和ENTER两个&#xff0c;所以需要单独设置这个控件的切换键。 Set<KeyStroke> set new HashSet<KeyStroke>(); set.add(KeyStroke.getKeyStroke(KeyEvent.VK_…...

【Linux】Macvlan介绍及LInux下例子实现

Macvlan Macvlan 是一种网络虚拟化技术&#xff0c;允许在同一物理网络接口上创建多个虚拟网络接口&#xff0c;每个虚拟接口都有自己独立的 MAC 地址。这对于需要在同一物理主机上运行多个网络隔离的应用程序或容器时非常有用。 Macvlan 的特点和用途 独立的 MAC 地址 每个 …...

Kafka Streams 在监控场景的应用与实践

作者&#xff1a;来自 vivo 互联网服务器团队- Pang Haiyun 介绍 Kafka Streams 的原理架构&#xff0c;常见配置以及在监控场景的应用。 一、背景 在当今大数据时代&#xff0c;实时数据处理变得越来越重要&#xff0c;而监控数据的实时性和可靠性是监控能力建设最重要的一环…...

【计算机视觉基础CV】03-深度学习图像分类实战:鲜花数据集加载与预处理详解

本文将深入介绍鲜花分类数据集的加载与处理方式&#xff0c;同时详细解释代码的每一步骤并给出更丰富的实践建议和拓展思路。以实用为导向&#xff0c;为读者提供从数据组织、预处理、加载到可视化展示的完整过程&#xff0c;并为后续模型训练打下基础。 前言 在计算机视觉的深…...

Android实现RecyclerView边缘渐变效果

Android实现RecyclerView边缘渐变效果 1.前言&#xff1a; 是指在RecyclerView中实现淡入淡出效果的边缘效果。通过这种效果&#xff0c;可以使RecyclerView的边缘在滚动时逐渐淡出或淡入&#xff0c;以提升用户体验。 2.Recyclerview属性&#xff1a; 2.1、requiresFading…...

springboot结合AES和国密SM4进行接口加密

api接口加密 1.为什么需要api接口加密呢&#xff1f; 1.防止爬虫 2.防止数据被串改 3.确保数据安全 2.如何实现接口加密呢&#xff1f; 3.我们可以使用哪些加密算法来加密呢&#xff1f; AES 密码学中的高级加密标准&#xff08;Advanced Encryption Standard&#xff0c;…...

后端项目java中字符串、集合、日期时间常用方法

我这里只介绍了项目中最常用的哈,比如像集合有很多,但我们最常用的就是ArrayList。 然后我这里会以javascript中的字符串、数组的方法为基准来实现,有些方法js和java会有些区别也会介绍 字符串 每次修改 String 对象都会创建一个新的对象,而 StringBuffer 可以在同一个对象…...

前端框架Vue的路由机制

大家好&#xff0c;我是G探险者。 最近在调试前端代码的时候&#xff0c;遇到一个问题。首先我们有一个门户页面&#xff0c;该页面里面有很多的豆腐块&#xff0c;每个豆腐块会配置一个系统的跳转连接。 我的系统就是其中一个豆腐块&#xff0c;我第一次登录进来之后&#xf…...

flutter 快速实现侧边栏

首先我们写一个侧边栏工具类&#xff0c;示例如下&#xff1a; import package:flutter/material.dart;class Sidebar extends StatelessWidget {overrideWidget build(BuildContext context) {return Drawer(child: ListView(padding: EdgeInsets.zero,children: <Widget&…...

华为数通最新题库 H12-821 HCIP稳定过人中

以下是成绩单和考试人员 HCIP H12-831 HCIP H12-725 安全中级...

算法训练第二十三天|93. 复原 IP 地址 78. 子集 90. 子集 II

93. 复原 IP 地址--分割 题目 有效 IP 地址 正好由四个整数&#xff08;每个整数位于 0 到 255 之间组成&#xff0c;且不能含有前导 0&#xff09;&#xff0c;整数之间用 . 分隔。 例如&#xff1a;"0.1.2.201" 和 "192.168.1.1" 是 有效 IP 地址&…...

JS,递归,处理树形数据组件,模糊查询树形结构数据字段

JS递归如何模糊查询树形结构数据,根据数据中的某一个字段值&#xff0c;模糊匹配 直接拿去使用就行 function filterTreeLabel(arr, label) {let result []arr.forEach((item) > {// if (String(item.POBJECT_NAME).toLowerCase().indexOf(label)!-1) {if (String(item.P…...

前端大数字精度丢失?Choerodon UI 大数字解决方案:精确性与灵活性的结合!

01 引言 在企业项目开发中&#xff0c;数据的精确性是关键。Choerodon UI 的大数字解决方案&#xff0c;通过其高精度计算、数据一致性维护、灵活的数据交互、国际化支持、兼容性保障、定制化格式化等优势&#xff0c;为开发人员提供了一个强大的武器库&#xff0c;以确保在处…...

matlab凸包检测

% 创建一个3D点集 points [1 2 3; 4 5 6; 7 8 9; 10 11 12; 13 14 15]; % 使用convhull函数计算凸包 hull convhull(points); % 输出凸包点的索引 disp(Convex Hull Indices:); disp(hull); % 绘制点集和凸包 figure; scatter3(points(:,1), points(:,2), points(:,3),…...

单节点calico性能优化

在单节点上部署calicov3273后&#xff0c;发现资源占用 修改calico以下配置是资源消耗降低 1、因为是单节点&#xff0c;没有跨节点pod网段组网需要&#xff0c;禁用overlay方式网络(ipip&#xff0c;vxlan),使用route方式网络 配置calico-node的环境变量 CALICO_IPV4POOL_I…...

【芯片设计- RTL 数字逻辑设计入门 番外篇 7.1 -- 基于ATE的IC测试原理】

文章目录 ATE 测试概述Opens/Shorts测试Leakage测试AC测试转自:漫谈大千世界 漫谈大千世界 2024年10月23日 23:17 湖北 ATE 测试概述 ATE(Automatic Test Equipment)是用于检测集成电路(IC)功能完整性的自动测试设备。它在半导体产业中扮演着至关重要的角色,主要用于检…...

oracle 导入数据提示跳过表

imp system/orclorcl fileD:\oracle_back.dmp fully showy logD:\oracle_log.log 今天用上面的命令往 oracle 中导入数据出现一个奇怪的问题 就是所有导入的表都提示 正在跳过表XXX 最后提示成功终止导入, 没有出现警告。 最后select一个表也没导入进来 怪哉怪哉&#xff01;…...

鸿蒙开发(15)案例 排行榜

排行榜 准备图片 定义案例需要的数据模型 创建Models文件&#xff0c; //定义app需要的数据模型export class FruitData{name:string;vote:string;id:string;constructor(id:string,name:string,vote:string,) {this.id idthis.name namethis.vote vote}}排行榜头部 创…...

【Java Web】Axios实现前后端数据异步交互

目录 一、Promise概述 二、Promise基本用法 三、async和await关键字 四、Axios介绍 4.1 Axios基本用法 4.2 Axios简化用法之get和post方法 五、Axios拦截器 六、跨域问题处理 一、Promise概述 axios是代替原生的ajax实现前后端数据交互的一套新解决方案&#xff0c;而…...

SLAAC如何工作?

SLAAC如何工作&#xff1f; IPv6无状态地址自动配置(SLAAC)-常见问题 - 苍然满关中 - 博客园 https://support.huawei.com/enterprise/zh/doc/EDOC1100323788?sectionj00shttps://www.zhihu.com/question/6691553243/answer/57023796400 主机在启动或接口UP后&#xff0c;发…...

微信小程序UI自动化测试实践 !

微信小程序UI自动化测试实践 引言&#xff1a; 随着微信小程序的快速发展&#xff0c;越来越多的企业和开发者开始开发小程序来满足用户的需求。而在开发小程序的过程中&#xff0c;UI自动化测试是一个必不可少的环节&#xff0c;可以帮助开发者减少人工测试的工作量&#xff…...

代码随想录-笔记-其七

我们来到了贪心算法的章节。 贪心算法和其他部分不太一样的是&#xff0c;他更多的是突出一种思路&#xff1a;通过求局部最优解来求全局最优解。因为只是一个大的思想逻辑&#xff0c;针对不同题型总是有不同的解决方案&#xff0c;所以贪心算法也不想其他算法那样有一个很经…...

react身份证回显

1. 处理身份证号的函数 function getAgeSexAndBirthdate(idCard: string): { sex: 男 | 女 | null; birthdate: Date | null } {if (idCard.length ! 18) {console.error(身份证号码必须是18位。);return { sex: null, birthdate: null };}// 提取出生年月日const year parse…...

Hibernate、JPA、Spring DATA JPA、Hibernate 代理和架构

大家好&#xff0c;今天&#xff0c;我们将讨论 Hibernate 和 JPA 架构。 在开始我们的文章之前&#xff0c;我想回答一个重要的问题&#xff1a;为什么我们需要使用 Hibernate、Eclipse Link、EF core 等 ORM 工具&#xff1f; 事实上&#xff0c;这是一个非常好的问题。我们…...

leetcode----mysql

1179. 重新格式化部门表 - 力扣&#xff08;LeetCode&#xff09; 表 Department&#xff1a; ------------------------ | Column Name | Type | ------------------------ | id | int | | revenue | int | | month | varchar | ----…...

盛元广通畜牧与水产品检验技术研究所LIMS系统

一、系统概述 盛元广通畜牧与水产品检验技术研究所LIMS系统集成了检测流程管理、样品管理、仪器设备管理、质量控制、数据记录与分析、合规性管理等功能于一体&#xff0c;能够帮助实验室实现全流程的数字化管理。在水产、畜牧产品的质检实验室中&#xff0c;LIMS系统通过引入…...

EXCEL文件解析

[Excel文件名].xlsx (解压后) │ ├── _rels │ └── .rels (定义关系文件) ├── docProps │ ├── app.xml (应用程序属性) │ └── core.xml (核心文档属性) ├── xl │ ├── _rels │ │ └── workbook.xml.rels (工作簿关系文件) │ ├── …...

【C++】- 掌握STL List类:带你探索双向链表的魅力

文章目录 前言&#xff1a;一.list的介绍及使用1. list的介绍2. list的使用2.1 list的构造2.2 list iterator的使用2.3 list capacity2.4 list element access2.5 list modifiers2.6 list的迭代器失效 二.list的模拟实现1. list的节点2. list的成员变量3.list迭代器相关问题3.1…...

开源 AI 智能名片 S2B2C 商城小程序中运营与产品的关系剖析

摘要&#xff1a;本文聚焦于开源 AI 智能名片 S2B2C 商城小程序&#xff0c;深入探讨其中运营与产品之间的关系。通过分析运营与产品的多种关系认知&#xff0c;阐述在该特定小程序情境下运营与产品相互依存、相互作用的机制&#xff0c;包括运营对产品的需求以及产品对运营的依…...

flask_socketio 以继承 Namespace方式实现一个网页聊天应用

点击进入上一篇&#xff0c;可作为参考 实验环境 python 用的是3.11.11 其他环境可以通过这种方式一键安装&#xff1a; pip install flask3.1.0 Flask-SocketIO5.4.1 gevent-websocket0.10.1 -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple pip list 详情如下&am…...

DePIN潜力项目Spheron解读:激活闲置硬件,赋能Web3与AI

DePIN赛道作为今年加密资本关注的热点之一&#xff0c;不仅吸引了大量资金涌入&#xff0c;还凭借其灵活的资源调配、高效的运作方式和可靠的安全性能&#xff0c;逐渐渗透到多个领域和项目中。例如&#xff0c;Helium的无线网络协议、IoTeX的去中心化物联网、IO NET的去中心化…...

《Vue进阶教程》第十六课:深入完善响应式系统之单例模式

往期内容&#xff1a; 《Vue进阶教程》第五课&#xff1a;ref()函数详解(重点) 《Vue进阶教程》第六课&#xff1a;computed()函数详解(上) 《Vue进阶教程》第七课&#xff1a;computed()函数详解(下) 《Vue进阶教程》第八课&#xff1a;watch()函数的基本使用 《Vue进阶教…...

C++ —— const修饰指针

C —— const修饰指针 常量指针&#xff08;实际开发中用的很多&#xff09;指针常量&#xff08;了解即可&#xff09;常指针常量&#xff08;了解即可&#xff09; 常量指针&#xff08;实际开发中用的很多&#xff09; 语法&#xff1a;const 数据类型 *变量名; 不能通过解…...

【学习笔记】数据结构(八)

动态存储管理 文章目录 动态存储管理8.1 概述8.2 可利用空间表及分配方法8.3 边界标识法8.3.1 可利用空间表的结构8.3.2 分配算法8.3.3 回收算法 8.4 伙伴系统8.4.1 可利用空间表的结构8.4.2 分配算法8.4.3 回收算法 8.5 无用单元收集 - 垃圾回收机制8.6 存储紧缩 - 内存碎片化…...

maven-resources-production:ratel-fast: java.lang.IndexOutOfBoundsException

Maven生产环境中遇到java.lang.IndexOutOfBoundsException的问题&#xff0c;尝试了重启电脑、重启IDEA等常规方法无效&#xff0c;最终通过直接重建工程解决了问题。 Rebuild Project 再启动OK...

建投数据与腾讯云数据库TDSQL完成产品兼容性互认证

近日&#xff0c;经与腾讯云联合测试&#xff0c;建投数据自主研发的人力资源信息管理系统V3.0、招聘管理系统V3.0、绩效管理系统V2.0、培训管理系统V3.0通过腾讯云数据库TDSQL的技术认证&#xff0c;符合腾讯企业标准的要求&#xff0c;产品兼容性良好&#xff0c;性能卓越。 …...

后端-添加购物车和查看购物车

...

【HarmonyOS NEXT】Web 组件的基础用法以及 H5 侧与原生侧的双向数据通讯

关键词&#xff1a;鸿蒙、ArkTs、Web组件、通讯、数据 官方文档Web组件用法介绍&#xff1a;文档中心 Web 组件加载沙箱中页面可参考我的另一篇文章&#xff1a;【HarmonyOS NEXT】 如何将rawfile中文件复制到沙箱中_鸿蒙rawfile 复制到沙箱-CSDN博客 目录 如何在鸿蒙应用中加…...

7-2 排序

输入一批未排序的数据&#xff0c;数量不超过30个&#xff0c;请使用选择法或者冒泡法对其排序&#xff0c;并按照规定的要求输出。 输入格式: 先输入待排序的整形数的个数&#xff1b;然后输入所有的待排序的数据。 输出格式: 在一行中按照由大到小的顺序输出排序好的数据…...

Java通过反射破坏单例模式

有个第三方工具类&#xff0c;不支持多例模式。但是又不能直接改第三方工具类的代码&#xff0c;因此可以通过反射破坏第三方工具类的单例。 第三方工具类反编译如下 可以看到构造函数进行了私有化&#xff0c;不允许外部new&#xff0c;只能通过newInstance进行实例化。并且…...

FFmpeg第一话:FFmpeg 简介与环境搭建

FFmpeg 探索之旅 一、FFmpeg 简介与环境搭建 二、FFmpeg 解码详解 第一话&#xff1a;FFmpeg 简介与环境搭建 FFmpeg 探索之旅一、前言二、FFmpeg 是什么&#xff1f;三、简单介绍其历史背景四、为什么用 C学习 FFmpeg&#xff1f;&#xff08;一&#xff09;高性能优势&#…...