当前位置：首页 > news >正文

Python星球日记 - 第16天：爬虫基础（仅学习使用）

news 来源：原创 2025/9/20 2:18:03

🌟引言：

上一篇：Python星球日记 - 第15天：综合复习（回顾前14天所学知识）

名人说：不要人夸颜色好，只留清气满乾坤（王冕《墨梅》）
创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder😊）

目录

一、爬虫的概念与原理
1. 什么是网络爬虫
2. 爬虫的工作原理
3. 爬虫的法律和道德考量⚠️

二、使用 requests 库获取网页数据
1. `requests`库介绍
2. 发送GET请求
3. 处理响应内容
4. 设置请求头和参数

三、使用 BeautifulSoup 解析HTML
1. BeautifulSoup简介
2. 安装和导入
3. 解析HTML文档
4. 选择和提取元素

四、实战练习：爬取网站标题列表
1. 目标分析
2. 编写爬虫代码
3. 运行和结果分析
4. 优化和扩展

五、练习（仅学习用途）
六、总结
参考资源

专栏介绍： Python星球日记专栏介绍（持续更新ing）
更多Python知识，请关注我、订阅专栏《 Python星球日记》，内容持续更新中…

欢迎来到Python星球🪐的第16天！

在学习完Python基础知识并进行了复习后，我们今天将探索一个非常实用的Python应用领域：网络爬虫。通过今天的学习，你将了解如何使用Python抓取互联网上的数据，这是数据分析、人工智能和自动化任务的重要基础。

一、爬虫的概念与原理

1. 什么是网络爬虫

网络爬虫（Web Crawler）是一种自动获取网页内容的程序。它可以访问互联网上的网页，获取其中的数据，并根据需要进行分析和存储。爬虫就像是我们派出去的"数字蜘蛛"，它们在互联网的"网络"上爬行，收集我们需要的信息。

在这里插入图片描述

2. 爬虫的工作原理

爬虫的基本工作原理可以概括为以下几个步骤：

发送请求：爬虫向目标网站发送HTTP请求，就像我们在浏览器中输入网址一样。
获取响应：服务器返回响应，通常包含HTML、JSON或其他格式的数据。
解析数据：爬虫解析获取到的数据，提取出需要的信息。
数据处理：对提取的数据进行清洗、转换和存储。
应用数据：将处理后的数据用于分析、展示或其他用途。

在这里插入图片描述

3. 爬虫的法律和道德考量⚠️

在进行网络爬虫活动时，我们需要注意以下几点🌟：

尊重robots.txt：许多网站都有一个名为robots.txt的文件，用于告诉爬虫哪些页面可以访问，哪些不能。
控制请求频率：过于频繁的请求可能会给服务器带来负担，甚至被误认为是DoS攻击（拒绝服务攻击）。
遵守法律法规：不要爬取受版权保护的内容或个人隐私数据。
注意使用条款：某些网站在使用条款中明确禁止爬虫活动。

二、使用 requests 库获取网页数据

1. `requests`库介绍

requests是Python中最受欢迎的 HTTP客户端库 ，它使得发送HTTP请求变得简单而直观。该库的设计理念是"为人类准备的HTTP库"，因此使用起来非常友好。

首先，我们需要安装requests库：

pip install requests

2. 发送GET请求

使用requests库发送GET请求非常简单：

import requests# 发送GET请求
response = requests.get('https://www.example.com')# 检查请求是否成功
if response.status_code == 200:print('请求成功！')
else:print(f'请求失败，状态码: {response.status_code}')

例如，访问 www.baidu.com，向百度搜索主页发送GET请求

import requests# 发送GET请求
response = requests.get('https://www.baidu.com')# 检查请求是否成功
if response.status_code == 200:print('请求成功！')
else:print(f'请求失败，状态码: {response.status_code}')

可以看到，“请求成功！”，说明我们向百度搜索主页发送成功了请求。

在这里插入图片描述

3. 处理响应内容

成功发送请求后，我们可以通过多种方式访问响应内容：

import requestsresponse = requests.get('https://www.example.com')# 获取响应文本
html_content = response.text# 获取二进制内容（如图片）
binary_content = response.content# 如果响应是JSON格式，可以直接获取JSON数据
if 'application/json' in response.headers.get('Content-Type', ''):json_data = response.json()print(json_data)

例如，访问 www.baidu.com，向百度获取响应文本

import requestsresponse = requests.get('https://www.baidu.com')# 检查请求是否成功
if response.status_code == 200:print('请求成功！')
else:print(f'请求失败，状态码: {response.status_code}')# 获取响应文本
html_content = response.text# 获取二进制内容（如图片）
binary_content = response.content# 如果响应是JSON格式，可以直接获取JSON数据
if 'application/json' in response.headers.get('Content-Type', ''):json_data = response.json()print(json_data)

可以看到，“请求成功！”，说明我们向百度搜索主页发送成功了请求，但没有显示JSON数据，这说明中间存在某种机制在阻挡着。

在这里插入图片描述

这种机制是 反爬虫措施，会拒绝不像普通浏览器的请求。

那为什么会出现这个问题？ 可能是因为：

缺少浏览器标识：网站可以检测到您的请求不是来自常规浏览器
反爬虫机制：大型网站如百度有复杂的反爬虫系统
重定向处理：网站可能将您重定向到其他页面而不直接返回内容

该怎么解决呢？我们可以设置一下请求头事实。

4. 设置请求头和参数

有时我们需要自定义请求头或传递参数：

import requests# 设置请求头，模拟真实浏览器
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','Connection': 'keep-alive'
}try:# 发送带有浏览器标识的请求response = requests.get('https://www.baidu.com', headers=headers, timeout=10)# 检查请求是否成功print(f'状态码: {response.status_code}')# 查看请求是否被重定向if response.history:print(f'请求被重定向了 {len(response.history)} 次')print(f'最终URL: {response.url}')# 获取部分响应头信息print(f'内容类型: {response.headers.get("Content-Type", "未知")}')print(f'内容长度: {response.headers.get("Content-Length", "未知")}')# 检查内容if response.text:print(f'响应长度: {len(response.text)} 字符')print('前100个字符预览:')print(response.text[:100])else:print('没有获取到文本内容')# 检查是否有内容编码可能影响解析if response.encoding:print(f'内容编码: {response.encoding}')# 显示所有cookiesprint('Cookies:')for cookie in response.cookies:print(f'  {cookie.name}: {cookie.value}')except requests.exceptions.RequestException as e:print(f'请求异常: {e}')

之后我们就能看到获取到的响应内容了。

在这里插入图片描述

三、使用 BeautifulSoup 解析HTML

1. BeautifulSoup简介

BeautifulSoup是一个强大的 HTML和XML解析库，它可以将HTML文档转换成树形结构，方便我们提取需要的信息。

在这里插入图片描述

2. 安装和导入

首先，我们需要安装 BeautifulSoup 库和一个解析器（这里使用lxml）：

pip install beautifulsoup4 lxml

然后在代码中导入：

import requests
from bs4 import BeautifulSoup

3. 解析HTML文档

获取网页内容后，我们可以使用 BeautifulSoup 进行解析：

import requests
from bs4 import BeautifulSoup# 获取网页内容
response = requests.get('https://www.example.com')
html_content = response.text# 创建BeautifulSoup对象
soup = BeautifulSoup(html_content, 'html.parser')# 打印格式化后的HTML
print(soup.prettify())

同样地，访问 www.baidu.com，我们借助 BeautifulSoup 来解析HTML文档

import requests
from bs4 import BeautifulSoup# 获取网页内容
response = requests.get('https://www.baidu.com')
html_content = response.text# 使用内置的 html.parser
soup = BeautifulSoup(html_content, 'html.parser')# 打印格式化后的HTML
print(soup.prettify())

可以看到，终端处已经出现了格式化后的HTML：

在这里插入图片描述

补充一点：解析器选择建议

对于网络爬虫和大多数 Web 开发工作：

如果性能和准确性是优先事项，安装并使用 lxml
如果只是简单脚本或不想有外部依赖，使用内置的 html.parser
如果需要处理非常复杂或格式不规范的 HTML，考虑安装 html5lib

4. 选择和提取元素

BeautifulSoup提供了多种方法来选择和提取HTML元素：

import requests
from bs4 import BeautifulSoup# 设置请求头，模拟浏览器
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}try:# 发送请求获取网页内容response = requests.get('https://www.baidu.com', headers=headers)# 检查请求是否成功if response.status_code == 200:# 打印响应内容的前100个字符，帮助诊断print("响应内容预览: ", response.text[:100])# 解析HTMLsoup = BeautifulSoup(response.text, 'lxml')# 安全地获取元素 - 方法一：使用条件判断if soup.title:title_text = soup.title.textprint(f"网页标题: {title_text}")else:print("网页中没有找到<title>标签")# 安全地获取元素 - 方法二：使用.get()方法获取属性first_paragraph = soup.find('p')if first_paragraph:paragraph_text = first_paragraph.textprint(f"第一个段落: {paragraph_text}")else:print("网页中没有找到<p>标签")# 安全地获取元素 - 方法三：使用try-except捕获可能的错误try:first_link = soup.find('a')if first_link:link_href = first_link.get('href', '无链接')  # 使用get方法提供默认值print(f"第一个链接: {link_href}")else:print("网页中没有找到<a>标签")except Exception as e:print(f"处理链接时出错: {e}")# 方法四：链式调用与默认值结合content_div_text = soup.select_one('div.content').text if soup.select_one('div.content') else "未找到内容区块"print(f"内容区块: {content_div_text}")else:print(f"请求失败，状态码: {response.status_code}")except Exception as e:print(f"程序执行出错: {e}")

访问 www.baidu.com，我们来选择和提取元素，可以看到，我们已经提取到了我们要找的元素。

在这里插入图片描述

四、实战练习：爬取网站标题列表

现在，让我们将学到的知识应用到实际案例中：爬取CSDN首页的文章标题列表。

1. 目标分析

我们的目标是爬取百度新闻首页（https://news.baidu.com/）的文章标题。在开始编写代码前，我们可以通过浏览器的开发者工具检查页面结构，找出包含标题的HTML元素。

2. 编写爬虫代码

import requests
from bs4 import BeautifulSoup
import time# 设置请求头，模拟浏览器访问
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}# 发送请求获取百度新闻页面的内容
url = 'https://news.baidu.com/'
response = requests.get(url, headers=headers)# 检查请求是否成功
if response.status_code == 200:# 使用BeautifulSoup解析HTMLsoup = BeautifulSoup(response.text, 'lxml')# 查找所有文章标题元素# 注意：以下选择器可能需要根据实际网页结构调整title_elements = soup.select('a.title')# 提取并打印标题print(f"共找到 {len(title_elements)} 篇文章")for i, title in enumerate(title_elements, 1):print(f"{i}. {title.text.strip()}")# 适当延时，避免请求过快if i % 5 == 0 and i < len(title_elements):time.sleep(0.5)
else:print(f"请求失败，状态码: {response.status_code}")

我们可以看到，并没有获取到百度新闻的文章列表，此时我们需要考虑其它方案来解决。

在这里插入图片描述

3. 运行和结果分析

运行上面的代码，你应该能看到百度新闻页面的文章标题列表。如果遇到问题，可能是因为网站结构发生了变化，需要调整选择器。

4. 优化和扩展

我们可以对代码进行一些优化和扩展：

import requests
from bs4 import BeautifulSoup
import csvdef crawl_with_requests():headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.9'}try:# 尝试访问本地或国内网站，可能更容易成功url = 'https://news.baidu.com/'  # 例如使用百度新闻response = requests.get(url, headers=headers, timeout=20)response.raise_for_status()soup = BeautifulSoup(response.text, 'html.parser')# 获取新闻标题articles = []news_links = soup.select('.hotnews a, .ulist a')for link in news_links:title = link.text.strip()href = link.get('href', '')if title and href and len(title) > 5:articles.append({'title': title,'link': href})# 保存结果with open('news_titles.csv', 'w', encoding='utf-8', newline='') as f:writer = csv.DictWriter(f, fieldnames=['title', 'link'])writer.writeheader()writer.writerows(articles)print(f"成功爬取 {len(articles)} 条新闻标题，已保存到 news_titles.csv")except Exception as e:print(f"发生错误: {e}")import tracebacktraceback.print_exc()if __name__ == "__main__":crawl_with_requests()

在这里插入图片描述

这个优化版本增加了：

异常处理：捕获各种可能的异常
超时设置：防止请求长时间等待
数据存储：将结果保存为CSV文件
功能封装：将爬虫代码封装为函数

五、练习（仅学习用途）

修改本文提供的代码，爬取你喜欢的技术博客网站的文章标题和发布日期。
尝试使用requests和BeautifulSoup爬取一个简单的图片网站，并将图片保存到本地。
研究CSDN的robots.txt文件，了解该网站对爬虫的规定。
思考：如何爬取需要登录才能访问的网页内容？

六、总结

今天，我们学习了网络爬虫的基本概念和原理，掌握了使用requests库获取网页数据和BeautifulSoup解析HTML的方法。通过实战练习，我们成功爬取了百度新闻的文章标题列表。

爬虫的知识还有很多，本篇仅入门了解，详细地大家可以查看官方文档使用，谢谢理解。

网络爬虫是一个强大的工具，它可以帮助我们自动化数据收集过程，为数据分析和机器学习提供原材料。然而，我们也要记住，务必注意！！！使用爬虫时需要遵守法律法规和网站的使用条款，尊重数据提供者的权益！

在接下来的学习中，我们将深入探索更多方向的基础知识，敬请期待《Python星球日记》的后续内容！

参考资源

requests官方文档：https://requests.readthedocs.io/
BeautifulSoup官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
《Python网络数据采集》—— Ryan Mitchell 著
网络爬虫与信息提取：https://www.icourse163.org/course/BIT-1001870001

祝你在Python爬虫的旅程中收获满满！

创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder😊）
如果你对今天的内容有任何问题，或者想分享你的学习心得，欢迎在评论区留言讨论！

Python星球日记 - 第16天：爬虫基础（仅学习使用）

🌟引言： 上一篇：Python星球日记 - 第15天：综合复习（回顾前14天所学知识） 名人说：不要人夸颜色好，只留清气满乾坤（王冕《墨梅》） 创作者：Code_流苏…...

编程日记 2025/9/20 2:18:03

【回眸】Linux 内核 (十四)进程间通讯之信号量

前言信号量概念信号量常用API 1.创建/获取一个信号量 2.改变信号量的值 3. 控制信号量信号量函数调用运行结果展示前言上一篇文章介绍的共享内存有局限性，如：同步与互斥问题、内存管理复杂性问题、数据结构限制问题、可移植性差问题、调试困难问题。本篇博文介…...

编程日记 2025/9/20 2:16:42

Python 字典和集合（字典的变种）

本章内容的大纲如下： 常见的字典方法如何处理查找不到的键标准库中 dict 类型的变种set 和 frozenset 类型散列表的工作原理散列表带来的潜在影响（什么样的数据类型可作为键、不可预知的顺序，等等） 字典的变种这一节总结了…...

编程日记 2025/9/20 2:16:41

LeetCode】寻找重复子树：深度解析与高效解法

📖 问题描述给定一棵二叉树的根节点 root ，返回所有重复的子树。若两棵树结构相同且节点值相同，则认为它们是重复的。对于同类重复子树，只需返回其中任意一棵的根节点。 🌰 示例解析示例1 输入： 1/ …...

编程日记 2025/9/19 22:02:57

[蓝桥杯] 挖矿（CC++双语版）

题目链接 P10904 [蓝桥杯 2024 省 C] 挖矿 - 洛谷题目理解我们可以将这道题中矿洞的位置理解成为一个坐标轴，以题目样例绘出坐标轴： 样例： 输入的5为矿洞数量，4为可走的步数。第二行输入是5个矿洞的坐标。输出结果为在要求步数…...

编程日记 2025/9/18 19:23:34

Appium如何实现移动端UI自动化测试？

🍅 点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快 Appium是一个开源跨平台移动应用自动化测试框架。既然只是想学习下Appium如何入门，那么我们就直奔主题。文章结构如下： 为什么要使用A…...

编程日记 2025/9/19 22:16:40

在集合中哪些可以为null，哪些不能为null；Java 集合中 null 值允许情况总结与记忆技巧

Java 集合中 null 值允许情况总结与记忆技巧一、核心集合对 null 的支持情况集合类型Key 是否可为 nullValue 是否可为 null原因/备注HashMap✅ 是✅ 是对 null key 有特殊处理（存放在数组第 0 个位置）LinkedHashMap✅ 是✅ 是继承自 HashMapTreeMap…...

编程日记 2025/9/19 17:44:09

Python 并发编程指南：协程 vs 多线程及其他模型比较

Python 并发编程指南：协程 vs 多线程及其他模型比较并发编程是指在单个程序中同时处理多个任务的能力，这些任务可以交替进行（同一时刻并不一定真的同时运行），而并行则强调在同一时刻真正同时运行多个任务&#xff08…...

编程日记 2025/9/19 1:59:49

WPS JS宏编程教程（从基础到进阶）-- 第五部分：JS数组与WPS结合应用

目录摘要第5章 JS数组与WPS结合应用5-1 JS数组的核心特性核心特性解析5-2 数组的两种创建方式（字面量与扩展操作符）1. 字面量创建2. 扩展操作符创建5-3 数组创建应用：提取字符串中的数字需求说明代码实现5-4 用函数创建数组（new Array、Array.of、Array.from）1. new Arra…...

编程日记 2025/9/17 6:46:47

STM32定时器完全指南：从基础原理到高级应用 | 零基础入门STM32第九十六步

主题内容教学目的/扩展视频TIM定时器重点课程定时器，捕获器，比较器，PWM，单脉冲。高级TIM。定时器中断。了解TIM使用师从洋桃电子，杜洋老师 📑文章目录一、定时器核心原理1.1 硬件架构解析1.2 核心参数公式…...

编程日记 2025/9/20 0:18:35

Kafka分区机制详解：原理、策略与应用

#作者：张桐瑞文章目录一、分区的作用二、分区策略（一）轮询策略（二）随机策略（三）按消息键保序策略三、实际案例：消息顺序问题的解决四、其他分区策略：基于地理位置的分…...

编程日记 2025/9/13 21:22:47

最小K个数

文章目录题意思路代码题意题目链接思路代码 class Solution { public:vector<int> smallestK(vector<int>& arr, int k) {priority_queue<int> Q;for (auto &index:arr){Q.push(index);if (Q.size() > k)Q.pop();}vector<int> ans…...

编程日记 2025/9/19 6:36:16

文章目录 1.关于list2.使用2.1 list的构造2.2 list 迭代器的使用2.3 list 容量操作2.3.1 size()2.3.2 empty()2.3.3 resize() 2.4 list 元素访问2.4.1 front()2.4.2 back() 2.5 list 修改操作2.5.1 push_front()2.5.2 pop_front()2.5.3 push_back()2.5.4 pop_back()2.5.5 inser…...

编程日记 2025/9/19 7:55:22

音视频生命探测仪，救援现场的“视听先锋”|鼎跃安全

地震等自然灾害的突发性和破坏性对人类生命构成严重威胁。据统计，地震后的“黄金72小时”内，被困者的存活率随时间的推移急剧下降，因此快速、精准的搜救技术至关重要。传统搜救手段依赖人耳识别呼救声或手动挖掘，效率低且易造成二…...

编程日记 2025/9/19 4:19:47

Arch视频播放CPU占用高

Arch Linux配置视频硬件加速 - DDoSolitary’s Blog 开源神器：加速你的视频体验 —— libvdpau-va-gl-CSDN博客 VDPAU（Video Decode and Presentation API for Unix） VA-API（Video Acceleration API） OpenGL 我的电…...

编程日记 2025/9/19 19:13:51

Python技巧：二维列表和二维矩阵的区别

np.vstack 是 NumPy 中的一个函数，用于将多个数组沿垂直方向（行方向）堆叠。它可以处理二维列表和二维矩阵，但它们之间有一些关键区别。以下是详细说明： 1. 二维列表定义: 二维列表是 Python 原生的数据结构&#x…...

编程日记 2025/9/20 1:26:18

Linux 命令清单（Linux Command List）

测试人员必备的 Linux 命令清单文件管理 ls —— 显示目录内容。 ls -l 使用 -l 选项查看详细信息。 cd —— 改变当前工作目录。 cd /path/to/directory mkdir —— 创建新目录。 mkdir new_directory rm —— 删除文件或目录。 rm filename rm -r directory 使用 …...

编程日记 2025/9/19 4:39:03

Wallaby‘s: Nightmare (v1.0.2)靶场渗透

Wallabys: Nightmare (v1.0.2) 来自 <Wallabys: Nightmare (v1.0.2) ~ VulnHub> 1，将两台虚拟机网络连接都改为NAT模式 2，攻击机上做namp局域网扫描发现靶机 nmap -sn 192.168.23.0/24 那么攻击机IP为192.168.23.182，靶场IP192.168.23…...

编程日记 2025/9/19 18:34:41

java基础可拆分迭代器 Spliterator＜T＞

Spliterator Spliterator介绍核心方法tryAdvanceforEachRemainingtrySplitestimateSizetrySplit 结合并行流（Parallel Stream）关键注意事项总结 Spliterator介绍 Spliterator（Splittable Iterator）是 Java 8 引入的接口&#xff…...

编程日记 2025/9/19 20:53:13

【AI提示词】决策专家

提示说明决策专家可以帮助你进行科学决策，尽可能避免错误，提升决策成功的概率。提示词 # Role : 决策专家决策，是面对不容易判断优劣的几个选项，做出正确的选择。说白了，决策就是拿个主意。决策专家是基于科学决策…...

编程日记 2025/9/17 21:58:50

VectorBT量化入门系列：第二章 VectorBT核心功能与数据处理

VectorBT量化入门系列：第二章 VectorBT核心功能与数据处理本教程专为中高级开发者设计，系统讲解VectorBT技术在量化交易中的应用。通过结合Tushare数据源和TA-Lib技术指标，深度探索策略开发、回测优化与风险评估的核心方法。从数据获取到策略…...

编程日记 2025/9/19 19:04:34

Spring Boot 配置文件加载优先级全解析

精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取 Spring Boot 配置文件加载优先级全解析 Spring Boot 的配置文件加载机制是开发者管理不同环境配置的核心功能之一。其通过外部化配置（Externaliz…...

编程日记 2025/9/18 12:18:29

System V 信号量：控制进程间共享资源的访问

System V 信号量：控制进程间共享资源的访问在多进程操作系统中，当多个进程需要共享资源时，必须确保对资源的访问是有序的，以避免竞争条件（Race Condition）和数据不一致性问题。System V 信号量&#xff0…...

编程日记 2025/9/19 15:56:53

海运货代系统哪家好？能解决了哪些常见管理难题？

随着跨境电商的迅速发展，货代行业在全球供应链中扮演着越来越重要的角色。随着市场需求的多样化和国际运输环境的复杂化，货代企业面临的挑战也愈发复杂。为了应对这些挑战，数字化管理工具成为货代行业不可或缺的一部分。如今先进的海运货代系…...

编程日记 2025/9/18 2:01:12

预测性维护+智能优化：RK3568的储能双保险

在碳中和目标推动下，储能行业正经历前所未有的发展机遇。作为储能系统的核心组件，储能柜的智能化水平直接影响着整个系统的效率和安全性。RK3568智慧边缘控制器凭借其强大的计算能力、丰富的接口和高效的能源管理特性，正在成为工商储能柜的&q…...

编程日记 2025/9/19 9:27:20

蓝桥20257-元宵分配

#include <iostream> #include <bits/stdc.h> using namespace std; const int N1e910; typedef long long LL; int main() {// 请在此输入您的代码//将强其中的一碗全部倒进另一个中，将所有汤圆排序，最后选择前（N/2）…...

编程日记 2025/9/17 9:29:53

How to connect a mobile phone to your computer?

How to connect a mobile phone to your computer? 1. Background /ˈbkɡraʊnd/2. How to connect a mobile phone to your computer?References 1. Background /ˈbkɡraʊnd/ Let me introduce the background first. Today we will talk about this topic: How to conn…...

编程日记 2025/9/17 8:41:18

目录

一、爬虫的概念与原理

1. 什么是网络爬虫

2. 爬虫的工作原理

3. 爬虫的法律和道德考量⚠️

二、使用 requests 库获取网页数据

1. requests库介绍

2. 发送GET请求

3. 处理响应内容

4. 设置请求头和参数

三、使用 BeautifulSoup 解析HTML

1. BeautifulSoup简介

2. 安装和导入

3. 解析HTML文档

4. 选择和提取元素

四、实战练习：爬取网站标题列表

1. 目标分析

2. 编写爬虫代码

3. 运行和结果分析

4. 优化和扩展

五、练习（仅学习用途）

六、总结

参考资源

相关文章：

1. `requests`库介绍