当前位置：首页 > news >正文

Python爬虫基础总结

news 来源：原创 2025/7/19 12:40:49

Python爬虫基础总结

一、爬虫概述

1.1 什么是爬虫

网络爬虫（Web Crawler）是一种自动浏览万维网的程序或脚本，它按照一定的规则，自动抓取互联网上的信息并存储到本地数据库中。

1.2 爬虫工作流程

URL管理器：管理待抓取和已抓取的URL
网页下载器：下载网页内容
网页解析器：提取所需数据
数据存储：将提取的数据存储到数据库或文件中

二、Python爬虫常用库

2.1 requests（HTTP请求库）

import requests# 基本GET请求
response = requests.get('https://example.com')
print(response.text)  # 获取网页内容# 带参数的GET请求
params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get('https://example.com', params=params)# POST请求
data = {'key1': 'value1', 'key2': 'value2'}
response = requests.post('https://example.com', data=data)# 设置请求头
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get('https://example.com', headers=headers)# 处理响应
print(response.status_code)  # 状态码
print(response.headers)      # 响应头
print(response.cookies)      # Cookies

2.2 BeautifulSoup（HTML解析库）

from bs4 import BeautifulSouphtml = """
<html><body><div class="content"><p>这是一个段落</p><a href="https://example.com">链接</a></div></body>
</html>
"""soup = BeautifulSoup(html, 'html.parser')# 查找元素
print(soup.p.text)  # 获取第一个p标签的文本
print(soup.a['href'])  # 获取a标签的href属性# 查找所有元素
for p in soup.find_all('p'):print(p.text)# CSS选择器
print(soup.select_one('.content p').text)  # 类名为content下的p标签

2.3 Scrapy（爬虫框架）

# 安装: pip install scrapy# 创建项目
scrapy startproject myproject# 创建爬虫
scrapy genspider example example.com# 在spiders/example.py中编写爬虫
import scrapyclass ExampleSpider(scrapy.Spider):name = 'example'start_urls = ['https://example.com']def parse(self, response):yield {'title': response.css('title::text').get(),'links': response.css('a::attr(href)').getall()}

三、爬虫实战技巧

3.1 处理动态加载内容

from selenium import webdriver
from selenium.webdriver.common.by import By
import time# 初始化浏览器
driver = webdriver.Chrome()# 打开网页
driver.get('https://example.com')# 等待页面加载
time.sleep(3)# 获取动态内容
content = driver.find_element(By.CSS_SELECTOR, '.dynamic-content').text
print(content)# 关闭浏览器
driver.quit()

3.2 处理反爬机制

# 1. 设置请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...','Referer': 'https://www.google.com/','Accept-Language': 'en-US,en;q=0.9'
}# 2. 使用代理IP
proxies = {'http': 'http://your_proxy_ip:port','https': 'https://your_proxy_ip:port'
}response = requests.get(url, headers=headers, proxies=proxies)# 3. 控制请求频率
import time
time.sleep(2)  # 每次请求间隔2秒# 4. 使用验证码识别
from PIL import Image
import pytesseract# 截图并识别验证码
image = Image.open('captcha.png')
captcha_text = pytesseract.image_to_string(image)

3.3 数据存储

# 1. 存储到CSV文件
import csvwith open('data.csv', 'w', newline='', encoding='utf-8') as f:writer = csv.writer(f)writer.writerow(['标题', '链接'])writer.writerow([title, link])# 2. 存储到JSON文件
import jsondata = {'title': title, 'link': link}
with open('data.json', 'w', encoding='utf-8') as f:json.dump(data, f, ensure_ascii=False, indent=4)# 3. 存储到MySQL数据库
import pymysqlconn = pymysql.connect(host='localhost', user='root', password='123456', db='test')
cursor = conn.cursor()sql = "INSERT INTO articles(title, link) VALUES(%s, %s)"
cursor.execute(sql, (title, link))
conn.commit()
conn.close()

四、爬虫进阶知识

4.1 正则表达式

import retext = "Python is great, version 3.9.0"
pattern = r'\d+\.\d+\.\d+'  # 匹配版本号match = re.search(pattern, text)
if match:print(match.group())  # 输出: 3.9.0

4.2 XPath解析

from lxml import etreehtml = """
<html><body><div class="content"><p>这是一个段落</p></div></body>
</html>
"""tree = etree.HTML(html)
result = tree.xpath('//div[@class="content"]/p/text()')
print(result)  # 输出: ['这是一个段落']

4.3 多线程/多进程爬虫

import threadingdef crawl(url):print(f"正在爬取: {url}")urls = ['https://example.com/page1', 'https://example.com/page2']threads = []
for url in urls:t = threading.Thread(target=crawl, args=(url,))threads.append(t)t.start()for t in threads:t.join()

五、爬虫项目实战

5.1 简单新闻爬虫

import requests
from bs4 import BeautifulSoup
import csvdef get_news():url = 'https://news.example.com'headers = {'User-Agent': 'Mozilla/5.0'}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')news_list = []for item in soup.select('.news-item'):title = item.select_one('.title').text.strip()link = item.select_one('a')['href']news_list.append({'title': title, 'link': link})# 保存到CSVwith open('news.csv', 'w', newline='', encoding='utf-8') as f:writer = csv.DictWriter(f, fieldnames=['title', 'link'])writer.writeheader()writer.writerows(news_list)get_news()

5.2 商品价格监控爬虫

import requests
from bs4 import BeautifulSoup
import time
import smtplib
from email.mime.text import MIMETextdef check_price():url = 'https://product.example.com'headers = {'User-Agent': 'Mozilla/5.0'}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')price = float(soup.select_one('.price').text.strip().replace('$', ''))return pricedef send_email(subject, content):sender = 'your_email@example.com'password = 'your_password'receiver = 'receiver@example.com'msg = MIMEText(content)msg['Subject'] = subjectmsg['From'] = sendermsg['To'] = receiverwith smtplib.SMTP_SSL('smtp.example.com', 465) as server:server.login(sender, password)server.sendmail(sender, receiver, msg.as_string())# 监控价格
target_price = 100.0
while True:current_price = check_price()if current_price <= target_price:send_email('价格提醒', f'商品价格已降至${current_price:.2f}')breaktime.sleep(3600)  # 每小时检查一次

六、爬虫注意事项

遵守robots.txt协议：检查目标网站的robots.txt文件，尊重网站的爬取规则
设置合理的请求频率：避免对服务器造成过大压力
处理异常情况：网络错误、页面结构变化等
数据去重：避免重复爬取相同数据
法律合规：确保爬取行为符合相关法律法规

七、学习资源推荐

官方文档：
- requests: https://docs.python-requests.org/
- BeautifulSoup: https://www.crummy.com/software/BeautifulSoup/
- Scrapy: https://scrapy.org/
在线教程：
- 菜鸟教程: https://www.runoob.com/
- 廖雪峰Python教程: https://www.liaoxuefeng.com/
书籍：
- 《Python网络数据采集》
- 《Web Scraping with Python》
工具推荐：
- Postman: 测试API接口
- Fiddler: 抓包分析
- Xpath Helper: Chrome插件，辅助XPath编写

通过系统学习这些基础知识和实战技巧，你将能够构建自己的Python爬虫程序，高效地从互联网上获取所需数据。记住，爬虫技术是一把双刃剑，使用时务必遵守法律法规和道德规范。

Python爬虫基础总结

Python爬虫基础总结一、爬虫概述 1.1 什么是爬虫网络爬虫（Web Crawler）是一种自动浏览万维网的程序或脚本，它按照一定的规则，自动抓取互联网上的信息并存储到本地数据库中。 1.2 爬虫工作流程 URL管理器&#xff1…...

编程日记 2025/7/19 12:40:49

如何构建跨平台可复用的业务逻辑层（Web、App、小程序）

从传统的Web应用到移动端的App，再到近年来快速崛起的小程序，用户的触点变得异常分散且多样化。这种多端并存的现状一方面为企业提供了更广阔的市场机会，另一方面也对开发团队提出了更高的要求：如何在不同平台间实现高效开发、降低…...

编程日记 2025/7/19 12:24:40

本地大模型编程实战(32)用websocket显示大模型的流式输出

在与 LLM(大语言模型) 对话时，如果每次都等 LLM 处理完毕再返回给客户端，会显得比较卡顿，不友好。如何能够像主流的AI平台那样：可以一点一点吐出字符呢？ 本文将模仿后端流式输出文字，前端一块一块的显示文字…...

编程日记 2025/6/29 5:19:06

MySQL数据库上篇

#作者：允砸儿 #日期：乙巳青蛇年四月初五笔者好久没有更新。今天来写一下MySQL数据库的内容还是老样子分为上中下三篇来写，话不多说咱们直接进入正题。什么是数据库数据库是统一管理的、长期储存在计算机内非仍、有组织的相关数据集合…...

编程日记 2025/7/10 9:35:20

Webug4.0靶场通关笔记13- 第22关越权修改密码

目录第22关越权修改密码 1.打开靶场 2.源码分析 3.越权修改密码 （1）获取渗透账号 （2）越权修改aaaaa账号的密码 （3）修改aaaaa用户密码渗透成功 （4）水平越权修改mooyuan账号…...

编程日记 2025/6/29 5:21:34

Python 基于 lstm，cnn 算法的网络舆情可视化系统

大家好，我是Python徐师兄，一个有着7年大厂经验的程序员，也是一名热衷于分享干货的技术爱好者。平时我在 CSDN、掘金、华为云、阿里云和 InfoQ 等平台分享我的心得体会。 🍅文末获取源码联系🍅 2025年最全的计算机软件毕…...

编程日记 2025/6/29 6:28:40

【免费】2007-2021年上市公司对外投资数据

2007-2021年上市公司对外投资数据 1、时间：2007-2021年 2、指标：股票代码、统计截止日期、货币编码、货币类型、投资事件类型编码、投资事件类型、报告期末投资金额总计、占报告期对外投资总额的比例(%) 3、范围：上市公司 4、来源&#x…...

编程日记 2025/6/29 5:26:15

每天学一个 Linux 命令（33）：uniq

每天学一个 Linux 命令（33）：uniq 命令简介 uniq 是 Linux 系统中一个非常实用的文本处理命令，全称为 “unique”。它主要用于从已排序的文本文件中检测、过滤或统计重复的行。该命令通常与 sort 命令配合使用，是 Shell 脚本编程和日常文本处理中的常用工具之一。命令语…...

编程日记 2025/7/19 12:40:49

WebRtc11:SDP详解

SDP规范会话层（全局）媒体层（局部） 会话层会话的名称和目的会话的存活时间会话中包含多个媒体信息 SDP媒体信息媒体格式传输协议传输IP和端口媒体负载类型 SDP格式由多个< type > < value > 组成一个会话级…...

编程日记 2025/7/19 12:40:48

51单片机驱动矩阵键盘

连接方式为8-1顺序连接P1端口P10-P17，代码返回键值 0-15. // 矩阵键盘扫描 uchar key_scan(void) {u8 key_value 255;u8 row, col;// 设置P1.0-P1.3为输出，P1.4-P1.7为输入P1 0xF0; // 1111 0000if((P1 & 0xF0) ! 0xF0) { // 有按键按下delay_m…...

编程日记 2025/6/29 8:26:02

解决The‘InnoDB’feature is disabled； you need MySQL built with ‘InnoDB’ to have it

出现如下语句：The ‘InnoDB feature is disabled; you need MySQL built with ‘InnoDB to have it working； 是mysql配置文件禁掉了这个选项！ 关闭mysql数据库在mysql的安装目录中找到my.ini文件找到skip-innodb，在前面加上#号…...

编程日记 2025/6/29 8:16:28

大模型压缩技术详解（2025最新进展）

在2025年的AI技术格局中，像DeepSeek这样的顶尖模型开源已成为现实。那是否存在一种可行路径，让企业能够使用专注于自身领域的强力AI模型，同时大幅降低部署成本，仅需一张普通的4090显卡？本文将深入探讨两种主流的模型压…...

编程日记 2025/6/29 5:38:28

第 5 篇：红黑树：工程实践中的平衡大师

上一篇我们探讨了为何有序表需要“平衡”机制来保证 O(log N) 的稳定性能。现在，我们要认识一位在实际工程中应用最广泛、久经考验的“平衡大师”——红黑树 (Red-Black Tree)。如果你用过 Java 的 TreeMap 或 TreeSet，或者 C STL 中的 map 或 s…...

编程日记 2025/7/8 13:03:29

spring-- 事务失效原因及多线程事务失效解决方案

事务失效原因类的自调用：直接调用本类的方法，没有通过代理对象来调用方法，代理对象内部的事务拦截器不会拦截到这次行为。则不可能开启事务使用私有方法：因为spring的事务管理是基于AOP实现的，AOP代理无法拦截目标对…...

编程日记 2025/6/29 6:30:16

MLPerf基准测试工具链定制开发指南：构建领域特异性评估指标的实践方法

引言：基准测试的领域适配困局 MLPerf作为机器学习性能评估的"黄金标准"，其通用基准集在实际科研中常面临‌领域适配鸿沟‌：医疗影像任务的Dice系数缺失、NLP场景的困惑度指标偏差等问题普遍存在。本文通过逆向工程MLPerf v3.1工具…...

编程日记 2025/6/29 5:45:33

深度理解linux系统—— 进程切换和调度

前言： 了解了进程的状态和进程的优先级，我们现在来看进程是如何被CPU调度执行的。在单CPU的系统在，程序是并发执行的；也就是说在一段时间呢，进程是轮番执行的； 这也是说一个进程在运行时不会一直占用CPU直…...

编程日记 2025/6/29 7:40:52

【凑修电脑的小记录】vscode打不开

想把vscode的数据和环境从c盘移到d盘大概操作和这篇里差不多修改『Visual Studio Code（VS Code）』插件默认安装路径的方法 - 且行且思 - 博客园在原地址保留了个指向新地址的链接文件。重新安装vscode后双击管理员身份运行均无法打开&#xff0…...

编程日记 2025/6/29 5:19:07

2025五一数学建模竞赛A题完整分析论文（共45页）（含模型、可运行代码、数据）

2025年五一数学建模竞赛A题完整分析论文摘要一、问题分析二、问题重述三、模型假设四、符号定义五、模型建立与求解 5.1问题1 5.1.1问题1思路分析 5.1.2问题1模型建立 5.1.3问题1参考代码 5.1.4问题1求解结果 5.2问题2 5.2.1问题2思路分析 …...

编程日记 2025/6/29 7:38:14

0. 架构总览： 1. 位置编码模块： import torch import torch.nn as nn import mathclass PositonalEncoding(nn.Module):def __init__ (self, d_model, dropout, max_len5000):super(PositionalEncoding, self).__init__()self.dropout nn.Dropout(pdrop…...

编程日记 2025/6/29 6:46:41

生物化学笔记：神经生物学概论07 躯体感受器传入方式自主神经系统

功能各异的躯体感受器解释张力： 形形色色的传入方式脑中的“倒立小人” 自主神经系统...

编程日记 2025/6/29 7:22:40

滑动窗口leetcode 209和76

一、leetcode 209. 长度最小的子数组代码： class Solution { public:int minSubArrayLen(int target, vector<int>& nums) {int n nums.size();int left 0;int sum 0;int res 100001;for(int right 0;right <n;right){sum nums[right];while(s…...

编程日记 2025/6/29 6:16:49

FPGA：介绍几款高速ADC及其接口形式

本文介绍了几款采样率至少为500Msps的高速ADC芯片，并详细介绍ADC与FPGA之间的常见接口形式，以及FPGA如何正确读取高速ADC的输出数据。以下内容基于当前的高速ADC技术趋势和常见的工程实践。一、推荐的高速ADC芯片（采样率≥500Msps&#xff0…...

编程日记 2025/6/29 8:11:13

未使用连接池或配置不当的性能陷阱与优化实践

目录前言一、传统连接管理的性能缺陷与风险1. 未使用连接池的致命代价2. 连接池配置不当的典型表现二、高性能连接池选型与核心参数优化1. HikariCP：零开销连接池的标杆2. Druid：功能完备的国产连接池三、连接池性能调优的黄金法则1. 科学设定最大连接…...

编程日记 2025/6/29 7:38:00

亚马逊云服务器性能深度优化方案（2025版）

亚马逊云服务器性能深度优化方案（2025版） 一、计算架构全面升级 1. 新一代AI算力引擎 • Trn2 UltraServer实例：搭载64颗第二代Trainium芯片，单节点FP8算力达83.2 PFlops，支持千亿参数大模型训练，训…...

编程日记 2025/6/29 6:09:59

【IPMV】图像处理与机器视觉：Lec9 Laplace Blending 拉普拉斯混合

【IPMV】图像处理与机器视觉本系列为2025年同济大学自动化专业**图像处理与机器视觉**课程笔记 Lecturer: Rui Fan、Yanchao Dong Lec0 Course Description Lec3 Perspective Transformation Lec7 Image Filtering Lec8 Image Pyramid Lec9 Laplace Blending 持续更新中 …...

编程日记 2025/6/29 6:09:55

【东枫电子】AMD / Xilinx Alveo™ UL3422 加速器

AMD / Xilinx Alveo™ UL3422 加速器 AMD / Xilinx Alveo™ UL3422 加速器提供超低延迟网络和灵活应变的硬件，支持纳秒级交易策略。AMD Virtex™ UltraScale™ VU2P FPGA 为 AMD / Xilinx Alveo UL3422 加速器提供强大的支持。该加速器采用延迟优化的收发器技术&am…...

编程日记 2025/6/29 6:11:25

Linux架构篇、第一章_03安装部署nginx

Linux_基础篇欢迎来到Linux的世界，看笔记好好学多敲多打，每个人都是大神！ 题目：安装部署nginx 版本号: 1.0,0 作者: 老王要学习日期: 2025.05.02 适用环境: Centos7 文档说明本文档聚焦于 CentOS 7 环境下 Nginx 的安装部…...

编程日记 2025/6/29 8:00:42

Semantic Kernel 快速入门

文章目录 Semantic Kernel 快速入门一、什么是 Semantic Kernel？1.1 核心特性二、安装和配置2.1 安装 .NET SDK2.2 创建新的 .NET 项目2.3 安装 Semantic Kernel 三、快速入门3.1 导入依赖包3.2 添加 AI 服务3.3 添加企业服务3.4 生成内核并检索服务3.5 添加插件创…...

编程日记 2025/6/29 7:22:30

MySQL进阶(一)

一、存储引擎 1. MySQL体系结构连接层： 最上层是一些客户端和链接服务，主要完成一些类似于连接处理、授权认证、及相关的安全方案。服务器也会为安全接入的每个客户端验证它所具有的操作权限服务层： 第二层架构主要完成大多数的核心服务…...

编程日记 2025/6/29 9:00:38

ThreadLocal理解

1.thread是线程，threadLocal是对象？ 在 Java 中： Thread 是线程类，其实例代表线程：Thread 类用于创建和管理线程，每个线程都是 Thread 类的一个实例，用于执行具体的任务，例如&…...

编程日记 2025/6/29 6:49:02

PyTorch、Flash-Attn、Transformers与Triton技术全景解析+环境包

PyTorch、Flash-Attn、Transformers与Triton技术全景解析包好难找这里是下载链接添加链接描述摘要本文系统性地介绍了深度学习领域的四大关键技术框架：PyTorch、Flash-Attn、Hugging Face Transformers和Triton，分别从核心特性、技术优势、应用场…...

编程日记 2025/6/29 6:06:40

mindyolo填坑

1、按照gitee上的文档跑预测代码，跑不通更改： 将predict.py复制到跟目录。如果是cpu（本地测试比较常见），那么正确的命令行是： python predict.py --device_targetCPU --config ./configs/yolov7/yolov7.…...

编程日记 2025/6/29 6:44:56

【C++】平衡二叉树(AVL树)迭代版

目录前言： 一：判断一棵树是否为平衡二叉树二：明确思路 1.为什么使用平衡二叉树 2.旋转 2.1 左旋 2.2 右旋 3.冲突节点 4.平衡因子 5.双旋 5.1 左右双旋(LR) 5.2 右左双旋(RL) 6.平衡因子的更新 7.冲突节点问题补充三&…...

编程日记 2025/6/29 7:38:17

双链表详解

一、双向链表介绍二、实现双向链表 1.定义双向链表的结构 2.双向链表的初始化 3.双向链表的尾插 4.双向链表的头插 5.双向链表的打印 6.双向链表的尾删 7.双向链表的头删 8.查找指定位置的数据 9.在指定位置之后插入数据 10.删除指定位置的数据 11.链表的销毁三、…...

编程日记 2025/6/29 7:18:45

6.9.单源最短路径问题-BFS算法

一.前言： 问题1： 以上述图片为例，比如从G港到Y城，可以是G港->R城->Y城，也可以是G港->P城->Y城等，有很多条路径都可以实现从G港到Y城，但要从中找出G港到Y城距离最短的那一条路径&am…...

编程日记 2025/7/14 9:21:55

react js 查看字体效果

起因， 目的: 想查看某个字体，对中英文的支持情况。效果图: 完整项目见这里， 需要积分下载，不然的话，显得太水了。过程: AI 对话， 生成代码。我检查运行， 来回修改。写个博客，…...

编程日记 2025/6/29 8:20:55

GZIPInputStream 类详解

GZIPInputStream 类详解 GZIPInputStream 是 Java 中用于解压缩 GZIP 格式数据的流类，属于 java.util.zip 包。它是 InflaterInputStream 的子类，专门处理 GZIP 压缩格式（.gz 文件）。 1. 核心功能解压 GZIP 格式数据（RFC 1952 标准）自动处理 GZIP 头尾信息（校验和、时…...

编程日记 2025/6/29 7:22:22

数字智慧方案6206丨智慧园区大数据整体解决方案（45页PPT）（文末有下载方式）

资料解读：智慧园区大数据整体解决方案详细资料请看本解读文章的最后内容。在数字化快速发展的当下，智慧园区成为推动产业升级和城市发展的关键力量。这份智慧园区大数据整体解决方案，融合前沿技术与创新理念，为园区的高效管理、…...

编程日记 2025/6/29 7:15:36

Linux系统常用命令、标准C库函数和系统调用

目录一、常用命令 env echo $name 键值 export name unset name gcc -c xxx.c ar 命令 ar -r libxxx.a xxx1.o xxx2.o gcc -c -fpic xxx.c gcc -shared -fpic xxx1.c xxx2.c -o libxxx.so kill [-信号] PID kill -l 软链接：ln -s xxx yyy 硬链接&…...

编程日记 2025/7/17 9:59:09

【Linux】基础指令（2）

man linux中有很多指令，我们不可能全部记住，man是linux/unix系统中的手册页指令，当我们遇到不熟悉的命令可以用man来查看命令，函数，配置文件的详细使用说明。 man手册分为多个章节，详情如下： …...

编程日记 2025/6/29 8:20:34

“会话技术”——Cookie_(2/2)原理与使用细节

经过Cookie的快速入门与代码使用。如果想深入理解Cookie的技术实现，就得去理解它的原理。且有些时候使用Cookie，还要根据需求设置存活期限以及确定Cookie获取范围等其他细节。最后，我们会总结Cookie这门客户端会话技术的作用。一、原理注…...

编程日记 2025/6/29 8:00:31

Linux操作系统--进程间通信(中)(命名管道)

目录 1.命名管道： 1.1创建一个命名管道 1.2匿名管道与命名管道的区别 1.3命名管道的打开规则 1.4例子1-用命名管道实现文件拷贝 1.5例子2-用命名管道实现server&client通信 1.命名管道： 毫不相关的进程进行进程间通信管道应用的一个限制就是只能…...

编程日记 2025/6/29 7:18:08

数据结构6 · BinaryTree二叉树模板

代码函数功能顺序如下： 1：destroy：递归删除树 2：copy：复制二叉树 3：preOrder：递归前序遍历 4：inOrder：递归中序遍历 5：postOrder：递归后续遍…...

编程日记 2025/6/29 5:18:44

ubuntu的libc 库被我 sudo apt-get --reinstall install libc6搞没了

我系统的libc 没了今天为了运行一个开源的yuv 播放器，在运行的时候提醒 Inconsistency detected by ld.so: dl-call-libc-early-init.c: 37: _dl_call_libc_early_init: Assertion sym ! NULL failed!然后听从AI 的建议当我去执行ls 时，系统提示就这…...

编程日记 2025/6/29 6:17:35

cat file.tar.gz | tar -xzf - -C /target/dir两个减号之间为什么有个空格？是写错了吗？（管道命令后续）

在 tar 命令的参数 -xzf - -C 中，两个减号（-）之间的空格是故意保留的语法，没有写错。具体原因如下： 1. -xzf - 的语法解析 -xzf 是 tar 命令的组合参数： x：表示解压（extract&#x…...

编程日记 2025/6/29 5:18:45

手机的数据楚门世界是如何推送的

手机推送，也叫茧影算法，手机的数据“楚门世界”：信息推送机制的深度剖析与社会影响在数字化时代，手机已然成为人们生活中不可或缺的伴侣。当我们沉醉于手机带来的便捷与娱乐时，或许未曾察觉，自己正置身于…...

编程日记 2025/6/29 6:18:01

体系结构论文（八十二）：A Comprehensive Analysis of Transient Errors on Systolic Arrays

研究背景与动机 TPU架构（Tensor Processing Unit）广泛应用于DNN推理，其核心是脉动阵列，由大量的乘加单元（MAC）组成。由于使用了纳米级CMOS技术，TPU对辐射引发的瞬态错误（SET&#…...

编程日记 2025/6/29 6:31:46

综合案例:使用vuex对购物车的商品数量和价格等公共数据进行状态管理

文章目录 0.实现需求1.新建购物车模块cart2.使用json-server模拟向后端请求数据3.在vuex请求获取并存入数据,并映射到组件中,在组件中渲染【重点】3.1.安装axios3.2.准备actions和mutations,获取和存入数据到vuex中3.3.动态渲染:用mapState映射其他1.为什么在axios在项目中要局…...

编程日记 2025/6/29 6:35:00

二叉搜索树的判断（双指针解决）

98. 验证二叉搜索树 - 力扣（LeetCode） class Solution { public:TreeNode*preNULL;bool isValidBST(TreeNode* root) {if(rootNULL){return true;}bool leftisValidBST(root->left);if(pre!NULL&&pre->val>root->val){return fals…...

编程日记 2025/6/29 6:34:48

关于CSDN创作的常用模板内容

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息文章目录好文评论新文推送 📃文章前言 &…...

编程日记 2025/6/29 5:48:27

Python爬虫基础总结

一、爬虫概述

1.1 什么是爬虫

1.2 爬虫工作流程

二、Python爬虫常用库

2.1 requests（HTTP请求库）

2.2 BeautifulSoup（HTML解析库）

2.3 Scrapy（爬虫框架）

三、爬虫实战技巧

3.1 处理动态加载内容

3.2 处理反爬机制

3.3 数据存储

四、爬虫进阶知识

4.1 正则表达式

4.2 XPath解析

4.3 多线程/多进程爬虫

五、爬虫项目实战

5.1 简单新闻爬虫

5.2 商品价格监控爬虫

六、爬虫注意事项

七、学习资源推荐

相关文章：