【Python爬虫】简单案例介绍3
本文继续接着我的上一篇博客【Python爬虫】简单案例介绍2-CSDN博客
目录
3.3 代码开发
3.3 代码开发
编写代码的步骤:
request请求科普中国网站地址url,解析得到类名为"list-block"的div标签。
for循环遍历这个div列表里的每个div,我们可以提取到文章标题,文章标题url,内容来源,内容来源url,发布时间,
再次request请求某个具体的文章的文章标题url,就可以请求得到具体文章的页面源代码,我们需要从中解析得到文章正文部分和图片的数量以及url链接。
这里主要介绍重要的函数。
(1)我们首先需要构建爬虫的大致框架,
# encoding=utf-8
import re, json, requests, xlwt, csv
import pandas as pd
from lxml import etree
from bs4 import BeautifulSoup
from openpyxl import Workbook
import numpy as np"""科普中国-图文"""class MySpider(object):"""科普中国-图文"""def __init__(self):self.base_url = 'https://cloud.kepuchina.cn/newSearch/imageText?s=&start_time=&end_time=&type=1&keyword=&can_down=0&category_id=0&page='self.url = self.base_url + str(0)self.headers = {'User-Agent': '此处为你的UA'}self.index_list = []self.index_article = {}def get(self, url):"""请求并返回网页源代码"""passdef parse(self, start_page, pages_num):"""解析科普中国网站地址url:param start_page: 开始页面:param pages_num: 想要爬取的页面数量:return:"""passdef writeDataToExcleFile(self, inputData, outPutFile):'''将列表数据写入excel表格文件inputData: 列表,含有多个字典;例如:[{'key_a':'123'},{'key_b':'456'}]outPutFile:输出文件名,例如:'data.xlsx''''passdef parse_page(self, title_url):"""进一步解析页面,得到页面的文本content和图片数量以及地址:param title_url: 文章标题的网页地址:return:"""passdef main(self):"""主函数:return:"""self.get()self.parse()if __name__ == "__main__":spider = MySpider()spider.main()
(2)编写get()函数,该函数的主要作用是request请求科普中国网站地址url并得到响应结果。
def get(self, url):"""请求并返回网页源代码"""try:response = requests.get(url, self.headers)if response.status_code == 200:return response.textexcept Exception as err:print('get():', err)
(3)编写save_excel()函数,该函数的主要作用是将我们获取到的数据写入excel表格文件。
def parse_page(self, title_url):"""进一步解析页面,得到页面的文本content和图片数量以及地址:param title_url: 文章标题的网页地址:return:"""response = requests.get(title_url, self.headers)try:if response.status_code == 200:response = response.textsoup = BeautifulSoup(response, 'html.parser')content = self.clean(soup.find('div', class_="video-box content-box").text) # 页面的文本content# 图片数量以及地址try:img_url = []for t in soup.findAll('img'):if 'logo' not in t["src"] and 'wechat' not in t["src"] and 'weibo' not in t["src"]:img_url.append(t["src"])except Exception as err:img_url = []img_num = len(img_url) # 图片数量self.index_article["content"] = contentself.index_article["img_num"] = img_numself.index_article["img_url"] = img_urlexcept Exception as err:print('parse_page:', err)
(4)现在开始正式编写parse()函数,该函数的主要作用是可以根据输入的参数(开始页面,想要爬取的页面数量),来对科普中国网站的页面进行请求(内部调用了self.get()函数)和解析,以及将解析得到的数据进行存储(内部调用了self.save_excel()函数)。
def parse(self, start_page, pages_num):"""解析科普中国网站地址url:param start_page: 开始页面:param pages_num: 想要爬取的页面数量:return: """for page in range(start_page, start_page+pages_num):# 将获取的页面源码加载到该对象中soup = BeautifulSoup(self.get(self.base_url + str(page)), 'html.parser')# 拿到数据列表for i in soup.findAll('div', class_="list-block _blockParma"):# 创建 BeautifulSoup 对象soup_i = BeautifulSoup(str(i), 'html.parser')# 提取文章标题和url、副标题、tag、发布者、发布时间title = soup_i.find('a', class_='_title').texttitle_url = soup_i.find('a', class_='_title')['href']subtitle = soup_i.find('p', class_='info').find('a').texttags = [a.text for a in soup_i.find_all('a', class_='typeColor')]publisher = soup_i.find('a', class_='source-txt').text.strip()publish_time = soup_i.find('span', class_='_time').textself.index_article = {"title": title, "title_url": title_url, "subtitle": self.clean(subtitle), "tag": tags, "publisher": publisher, "publish_time": publish_time}# 获得文章内容文本content和图片数量以及地址self.parse_page(title_url) if self.index_article not in self.index_list: # 存入列表self.index_list.append(self.index_article)print("已完成" + str(page+1) + "页的存储")# self.get_json(str(self.index_list), "1.json")self.save_excel(self.index_list, "result_" + str(start_page) + "_" + str(pages_num) + ".xlsx")
代码执行结果如下:
(5)编写parse_page()函数,我们需要进一步解析页面,因为需要得到页面的文本content和图片数量以及url。
def parse_page(self, title_url):"""进一步解析页面,得到页面的文本content、图片数量以及地址:param title_url: 文章标题的网页地址:return:"""response = requests.get(title_url, headers=self.headers)try:if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')# 获取文章主体内容,根据新HTML结构调整选择器content_div = soup.find('div', class_='content-box __imgtext-content')if content_div:content = self.clean(content_div.text)else:content = ""# 图片数量以及地址,过滤掉不需要的图片来源(如含特定关键词的图片)img_url = []all_imgs = soup.find_all('img')for img in all_imgs:src = img.get('src')if src and 'kepuyun' in src and 'logo' not in src and 'wechat' not in src and 'weibo' not in src:img_url.append(src)img_num = len(img_url)self.index_article["content"] = contentself.index_article["img_num"] = img_numself.index_article["img_url"] = img_urlelse:print(f"请求失败,状态码: {response.status_code}")except Exception as err:print('parse_page:', err)
代码执行结果如下:
OK,一个简单的案例就到此结束了。
相关文章:
【Python爬虫】简单案例介绍3
本文继续接着我的上一篇博客【Python爬虫】简单案例介绍2-CSDN博客 目录 3.3 代码开发 3.3 代码开发 编写代码的步骤: request请求科普中国网站地址url,解析得到类名为"list-block"的div标签。 for循环遍历这个div列表里的每个div࿰…...
对于客户端数据存储方案——SQLite的思考
SQLite 比较适合进行本地小型数据的存储,在功能丰富性和并发能力上不如 MySQL。 数据类型差异 SQLite 使用动态类型系统:只有 5 种基本存储类 (NULL, INTEGER, REAL, TEXT, BLOB) 类型亲和性:SQLite 会将声明的列类型映射到最接近的存储类 …...
基于Nacos+动态线程池的分布式系统弹性设计:投行交易与风控场景实战
业务痛点和需求分析 在投行高频交易系统和对公贷款风控计算引擎中,我们面临两大核心挑战: 流量洪峰波动剧烈 交易时段TPS可达10万/秒,非交易时段下降80%风控模型计算存在突发性批量任务(如月末集中评审) 架构设计与…...
高并发内存池(定长内存池基础)
定长内存池的设计 定长内存池定长内存池的原理讲解代码实现定义对象New对象的主要逻辑delete对象的主要逻辑完整代码 定长内存池 为什么我们要设计这个定长内存池呢?首先malloc是c标准库中向堆申请空间的接口,变相的说malloc是普遍性,而我们…...
element-ui plus 中 filter-method 函数多次触发问题解决
前情提要 点进这个文章的小伙伴,应该都是为了解决一个需求,把原本的前端过滤改为后端过滤,但是将filter-method修改为后端取数据后,发现其触发了很多次。博主也是在修改表格过滤时用到了这个坑,本篇文章为大家解决一下…...
物联网场景实战:智能电表数据管理与分析(一)
智能电表与物联网的融合 在当今数字化时代,随着物联网(IoT)技术的飞速发展,各行业都在积极探索如何利用这一技术实现转型升级 。电力行业也不例外,智能电表作为电力系统与物联网融合的关键节点,正发挥着越来…...
网络中的基本概念
这篇文章主要介绍我们在学习网络的过程中,会碰到的一系名词,对其概念进行解释,让大家知道这些都是干什么的。 网络:若干个节点和连接这些节点的链路组成的,用于实现信息交换资源共享。 节点:网络中各种接地…...
行锁(Row Locking)和MVCC(多版本并发控制)
在数据库系统中,**行锁(Row Locking)和MVCC(多版本并发控制)**是两种不同的并发控制机制,它们的使用场景和原理有显著区别。以下是详细对比和适用场景分析: 一、行锁(Row Locking&am…...
AlexNet神经网络详解及VGGNet模型和
AlexNet模型细节 一共8层,5个卷积层,3个全连接层 AlexNet工程技巧 多GPU训练,ReLU激活函数,LRN归一化,Dropout,重叠池化,数据增强等 多GPU训练 除了将模型的神经元进行了并行,还使…...
【Linux网络】Socket 编程TCP
🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343 🔥 系列专栏:https://blog.csdn.net/qinjh_/category_12891150.html 目录 TCP socket API 详解 socket(): bind(): listen(): accept(): connect V0…...
代码训练day27贪心算法p1
贪心的本质是选择每一阶段的局部最优,从而达到全局最优 贪心算法一般分为如下四步: 将问题分解为若干个子问题找出适合的贪心策略求解每一个子问题的最优解将局部最优解堆叠成全局最优解 1.分发饼干 先将饼干数组和小孩数组排序。 然后从后向前遍历…...
基于RV1126开发板的车辆检测算法开发
1. 车辆检测简介 车辆检测是一种基于深度学习的对人进行检测定位的目标检测,能广泛的用于园区管理、交通分析等多种场景,是违停识别、堵车识别、车流统计等多种算法的基石算法。 人脸检测算法mAP0.5CAR0.78029 基于EASY-EAI-Nano硬件主板的运行效率&…...
Leetcode——137 260找出只出现一次的数
文章目录 找出只出现一次的数引入Leetcode 260Leetcode 137 找出只出现一次的数 对于数组中有一类题,即某些数据在数组中只出现一遍,需要我们找出,今天我们来看看这个类型的题。 引入 想必大家应该见过这么一道题: 现给定一个数…...
【多线程-第四天-自己模拟SDWebImage的下载图片功能-看SDWebImage的Demo Objective-C语言】
一、我们打开之前我们写的异步下载网络图片的项目,把刚刚我们写好的分类拖进来 1.我们这个分类包含哪些文件: 1)HMDownloaderOperation类, 2)HMDownloaderOperationManager类, 3)NSString+Sandbox分类, 4)UIImageView+WebCache分类, 这四个文件吧,把它们拖过来…...
【5G学习】基本概念之多频资源以及子载波和信道
在5G通信中,子载波、信道以及时域、频域、码域、空域是构建无线传输系统的核心概念。它们共同定义了信号的传输方式、资源分配和多维复用技术。以下是详细解释及其相互关系: 一、核心概念定义 1. 子载波(Subcarrier) 定义&#…...
鸿蒙动画与交互设计:ArkUI 3D变换与手势事件详解
大家好,我是 V 哥。 在鸿蒙 NEXT 开发中,ArkUI 提供了丰富的 3D 变换和手势事件功能,可用于创建生动且交互性强的用户界面。下面详细介绍 ArkUI 的 3D 变换和手势事件,并给出相应的 ArkTS 案例代码。 1. ArkUI 3D 变换 ArkUI 支…...
敏感数据触发后怎么保障安全?
当敏感数据被触发或泄露时,需立即采取系统化措施控制风险。以下为分阶段应对策略,结合技术与管理手段: 一、即时响应阶段 阻断扩散 隔离受影响系统:立即断开网络连接、暂停服务或关闭相关端口。 终止可疑进程:通过华…...
【CVE-2024-10929】ARM CPU漏洞安全通告
安全之安全(security)博客目录导读 目录 一、概述 二、CVE详情 三、受影响产品 四、建议措施 五、致谢 六、版本历史 一、概述 在部分基于Arm架构的CPU中发现了一个潜在安全问题,称为Spectre-BSE(Branch Status Eviction,分支状态驱逐…...
高级java每日一道面试题-2025年4月06日-微服务篇[Nacos篇]-如何诊断和解决Nacos中的常见问题?
如果有遗漏,评论区告诉我进行补充 面试官: 如何诊断和解决Nacos中的常见问题? 我回答: 在Java高级面试中诊断和解决Nacos常见问题的综合回答 在Java高级面试中,当被问及如何诊断和解决Nacos中的常见问题时,可以从以下几个方面进行详细阐述…...
【模块化拆解与多视角信息3】教育背景:学历通胀时代的生存法则
教育背景:学历通胀时代的生存法则 写在最前 作为一个中古程序猿,我有很多自己想做的事情,比如埋头苦干手搓一个低代码数据库设计平台(目前只针对写java的朋友),比如很喜欢帮身边的朋友看看简历,讲讲面试技巧,毕竟工作这么多年,也做到过高管,有很多面人经历,意见还算…...
无人机3S与4S电池技术对比!
一、基础参数对比 1. 电芯与电压 3S电池:由3节锂电芯串联组成,标称电压为11.1V(单节3.7V3),满电电压约12.6V。 4S电池:由4节电芯串联,标称电压14.8V(3.7V4)&#…...
linux电源管理(二),内核的CPUFreq(DVFS)和ARM的SCPI
更多linux系统电源管理相关的内容请看:https://blog.csdn.net/u010936265/article/details/146436725?spm1011.2415.3001.5331 1 简介 CPUFreq子系统位于drivers/cpufreq目录下,负责进行运行过程中CPU频率和电压的动态调整,即DVFS (Dynami…...
短波红外高光谱相机:高光谱成像在塑料分选中的应用
随着塑料工业的迅猛发展,塑料包装制品需求量增长迅速,消耗量不断上升,废塑料产生量也急剧增加。由于塑料化学结构稳定,难以自然降解,不当使用和处置及累积会造成严重的环境污染和资源浪费。因此,快速、精准…...
通过OBD部署OceanBase社区版集群v4.3.5
以下内容结合OceanBase官方文档进行安装部署测试 官方文档地址:https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000002016072 一.环境准备 准备三台虚拟机,配置信息如下 192.168.232.8 centos7.9 4c16g 硬盘100g 192.168.232.9 …...
【Java学习笔记】注释
注释 为什么要写注释? 养成良好的编程习惯,方便后续阅读和查看,理顺思路,增加可读性 对自己的代码负责,对别人负责 说明 1. 被注释的文字,不会被 JVM(虚拟机)解释执行 2. 多行注…...
Python 调用 YOLO ONNX
Python 调用 YOLO ONNX 1 下载ONNX文件2 Python代码 1 下载ONNX文件 ONNX下载地址 2 Python代码 import cv2 from ultralytics import YOLO# 加载 YOLOv11 model YOLO(./yolo11n.pt)# 读取图片 image_path ./11.png img cv2.imread(image_path)# 推理(可以传…...
Linux 下 Module 工具的介绍与使用
参考: https://www.fasteda.cn/post/22.html https://modules.readthedocs.io/en/latest/module.html Linux 下 Module 工具的介绍与使用 一、前言 在 Linux 中,当同一款编辑器、运行库、软件存在多个版本且多个版本都需要在不同的场景或人员使用时&a…...
批量归一化(Batch Normalization)原理与PyTorch实现
批量归一化(Batch Normalization)是加速深度神经网络训练的常用技术。本文通过Fashion-MNIST数据集,演示如何从零实现批量归一化,并对比PyTorch内置API的简洁实现方式。 1. 从零实现批量归一化 1.1 批量归一化函数实现 import t…...
Flutter 文本组件深度剖析:从基础到高级应用
引言 在 Flutter 应用开发中,文本是向用户传达信息的重要媒介。Flutter 提供了丰富且强大的文本组件和相关属性,使开发者能够轻松实现多样化的文本展示效果。无论是简单的静态文本显示,还是复杂的富文本渲染,Flutter 都能满足需求…...
FABC是什么?
在销售和品牌营销领域,FABC 是一种用于构建销售话术和营销信息的框架,其全称为 Features(特点)、Advantages(优势)、Benefits(利益)、Case(案例)。该模型帮助…...
【MySQL】MVCC工作原理、事务隔离机制、undo log回滚日志、间隙锁
一、什么是MVCC? MVCC,即 Multiversion Concurrency Control(多版本并发控制),它是数据库实现并发控制的一种方式。 MVCC 的核心思想是: 为每个事务提供数据的“快照”版本,从而避免加锁&…...
Spring Boot 集成 RocketMQ 全流程指南:从依赖引入到消息收发
前言 在分布式系统中,消息中间件是解耦服务、实现异步通信的核心组件。RocketMQ 作为阿里巴巴开源的高性能分布式消息中间件,凭借其高吞吐、低延迟、高可靠等特性,成为企业级应用的首选。而 Spring Boot 通过其“约定优于配置”的设计理念&a…...
PCL 点云RANSAC提取平面(非内置函数)
文章目录 一、算法实现1.1实现步骤二、实现代码三、实现效果参考资料一、算法实现 1.1实现步骤 1、确定模型。三个点确定一个平面,方程式为 a x + b y + c z + 1 = 0 ax+by+cz+1=0...
中介者模式:理论、实践与 Spring 源码解析
摘要 本论文以中介者模式为核心,系统阐述其设计原理、应用场景及在 Spring 框架中的实现机制。通过机票预订系统、银行交易系统等典型案例,具象化展示模式如何解耦复杂对象交互;结合 Spring 5.3.29 源码,深入剖析事件驱动模型中ApplicationEventPublisher与ApplicationLis…...
2025.04.14【Table】| 生信数据表图技巧
Custom title A set of examples showing how to customize the titles of a table made with GT Custom footer How to customize the footer and the references section of a gt table 文章目录 Custom titleCustom footer 生信数据可视化:Table图表详解1. R语…...
Unified Modeling Language,统一建模语言
UML(Unified Modeling Language,统一建模语言)是一种标准化的图形化建模语言,用于可视化、规范和文档化软件系统的设计。UML 提供了一套通用的符号和规则,帮助开发者、架构师和团队成员更好地理解和沟通软件系统的结构…...
OCP证书有效期是永久,但需要更新
在数据库管理领域,OCP证书作为Oracle认证体系中的重要组成部分,一直是数据库专业人士追求的目标。许多考证者会有疑惑:OCP证书是永久有效的吗?需要更新吗? Oracle官方明确规定:OCP证书一经获得,终身有效。无…...
服务器本地搭建
socket函数 它用于创建一个新的套接字(socket)。 函数原型 #include <sys/socket.h> int socket(int domain, int type, int protocol);参数解释 domain:它指定了通信所使用的协议族,常见的取值如下: AF_INET…...
调节磁盘和CPU的矛盾——InnoDB的Buffer Pool
缓存的重要性 无论是用于存储用户数据的索引【聚簇索引、二级索引】还是各种系统数据,都是以页的形式存放在表空间中【对一个/几个实际文件的抽象,存储在磁盘上】如果需要访问某页的数据,就会把完整的页数据加载到内存中【即使只访问页中的一…...
[dp12_回文子串] 最长回文子串 | 分割回文串 IV
目录 1.回文子串 题解 2.最长回文子串 题解 3.分割回文串 IV 题解 dp[i][j] 表示 s 字符串 [i, j] 的子串,是否是回文串( 建始末表) 将两个 for 循环的结果,借助二维 dp 来存 1.回文子串 链接:647. 回文子串 给你一个字符…...
分布式应用架构的演变
整体演变过程 第一阶段:单一应用架构 单一应用架构,是把所有服务都放在一个项目中,进行打包部署到服务器上,如果流量特别大的话,就在另外的服务器上部署相同的功能模块用来分摊流量。但是这样的话,一旦有某…...
zephyr RTOS 中 bt_le_adv_start函数的功能应用
目录 概述 1 功能 1.1 功能介绍 1.2 函数原型 2 参数说明 2.1 广播参数(bt_le_adv_param) 2.2 常用广播选项(options) 2.3 广播数据(bt_data) 3 示例代码 3.1 启动可连接广播(带设备名…...
双按键控制LED(中断优先级)
1.启动时,两个LED灯熄灭,1秒钟后(定时器实现),LED自动点亮; 2.按键1按下后,通过中断int0把两个LED熄灭5s时间,int0优先级设置为最高(优先级必须设置,设置后才…...
美团即时零售大动作,将独立的闪购将会改变什么?
4月12日上午,美团核心本地商业CEO王莆中在社交媒体上发文,宣布美团将在下周正式发布即时零售品牌,标志着美团将进一步发展即时零售业务。 首先,从市场格局角度来看,美团将独立的闪购品牌推出,会进一步加剧…...
如何安装git?
以下是 Windows、macOS 和 Linux 系统安装 Git 的详细步骤: 一、Windows 系统安装 Git 下载安装包 访问 Git 官网下载页,点击下载 Windows 版安装程序(如 Git-2.45.1-64-bit.exe)。 运行安装程序 安装选项: 选择安装路…...
Ubuntu上docker、docker-compose的安装
今天来实践下Ubuntu上面安装docker跟docker-compose,为后面安装dify、fastgpt做准备。 一、安装docker sudo apt-get updatesudo apt-get install docker.io 然后系统输入 docker --version 出现下图即为docker安装成功。 二、安装docker-compose 我先看下系统…...
ubuntu如何设置静态ip
服务器有时是通过dhcp动态获取ip的,有时出于远程登录方便的考虑,会将其设置为静态ip,以下是设置静态ip的方法 在 Ubuntu 中设置静态 IP 的方法取决于你使用的网络管理工具(如 netplan、NetworkManager 或 ifconfig)。…...
js原型和原型链
js原型: 1、原型诞生的目的是什么呢? js原型的产生是为了解决在js对象实例之间共享属性和方法,并把他们很好聚集在一起(原型对象上)。每个函数都会创建一个prototype属性,这个属性指向的就是原型对象。 …...
大数据 - 2. Hadoop - HDFS
前言 HDFS:分布式文件系统 为什么海量数据需要分布式存储技术? 文件过大时,单台服务器无法承担,要靠数量来解决。数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的提升。 众多的服务器一起工作,如何保证…...
嵌入式硬件常用总线接口知识体系总结和对比
0.前言 在嵌入式工程实现中,多多少少我们都使用过总线,各种各样的总线应用于不同场合,不同场景有不同的优势,但是我们在作为工程师过程中在如何选择项目合适的总线,根据什么来选?需要我们对项目全局和总线特征有所了解,本文目的就是对比多种总线的关键特征 我们在聊到…...