第三章 爬虫提速、selenium模块、requests模块进阶(终)
目录
一.requests进阶
(二)防盗链
(三)代理
二.爬虫提速
(一)线程池和进程池
(二)协程
(三)异步http请求-aiohttp
三. selenium模块
此章节讲解,如今市面大多数爬虫最后技术,分别:处理cookie、防盗链、代理、线程、进程、协程、异步http请求aiohttp模块、selenium模块。
一.requests进阶
我们在之前的爬虫中其实已经使用过headers了.header为HTTP协议中的请求头,一般存放一些和请求内容无关的数据.有时也会存放一些安全验证信息.比如常见的User-Agent,token,cookie等。
通过requests发送的请求,我们可以把请求头信息放在headers中.也可以单独进行存放,最终由requests自动帮我们拼接成完整的http请求头
本小节内容
1.模拟浏览器登录->处理cookie
2.防盗链处理->抓取梨视频数据
3.代理 ->防止被封IP
(一)处理cookie
Cookies是服务器存储在客户端的一些信息,用于保持会话状态。处理Cookies可以让爬虫更像一个真实的用户,从而降低被封禁的风险。
在Python中,可以通过requests库的Session对象来处理Cookies。
例:
注:
get是获取Cookie
(二)防盗链
要防止盗链,使用合适的User-Agent、设置合理的爬取频率、使用代理IP、处理Cookies、遵守网站的Robots协议、模拟人类行为等策略都很重要。使用合适的User-Agent是最基本的一步,因为它能让服务器认为你的请求来自一个真实的浏览器,从而避免被识别为爬虫。以下是关于如何防止盗链的详细描述。
- 使用合理User-Agent
- 设置合理的爬取频率
- 使用代理IP
防盗链处理代码如下:
(三)代理
在Python爬虫中为了更好地绕过反爬机制,获取网页信息,有时可能需要在Python中应用代理服务,这样做的目的就是防止自己的ip被服务器封禁,造成程序运行时中断连接,那么如何在python中设置代理呢?
如下是requests的代理处理方式如下:
注:
你需要去网上找免费给代理的IP的网站,筛选它是否可以支持https和post,一定要学会开发者模式去查看网页。站大爷 - 企业级高品质代理IP云服务
如果你要访问的IP域名是https,那么你用的代理IP要写上https,若不需要https,只需要http即可。
二.爬虫提速
到目前为止,我们可以解决爬虫的基本抓取流程了,但是抓取效率还是不够高 如何提高抓取效率呢?我们可以选择多
线程,多进程,协程等操作完成异步爬虫.
何为异步?这里我们不讨论蹩脚的概念性问题.直接说效果
打个比方,我们目前写的爬虫可以理解为单线程,比喻为单车道公路,如何提高效率呢? 很简单,搞成多车道就OK了啊异步爬虫你就可以理解为多车道同时进行爬取。
本小节涉及内容:
1.线程池和进程池
2.协程
3.多任务异步协程实现
4.aiohttp模块详解
(一)线程池和进程池
线程和进程的区别。
线程是一个执行单位,而进程是一个资源单位。每一个进程至少需要一个线程。
注:
input()程序也是处于阻塞状态
requests.get(bilibili)在网络请求返回数据之前,程序也是处于阻塞状态的
一般情况下,当程序处于 I0操作的时候。线程都会处于阻塞状态。
由此协程可以解决这个问题。
协程:当程序遇见了I0操作的时候。可以选择性的切换到其他任务上。
协程在微观上是一个任务一个任务的进行切换,切换条件一般就是IO操作。
协程在宏观上,我们能看到的其实是多个任务一起在执行。这样的称作“多任务异步”操作
以上都是在单线程的条件下。
此小节可以看我之前Python基础篇第十一章 Python语言-高阶技巧(终章)-CSDN博客
多进程的代码如下:
线程提速代码案例如下:
(二)协程
input()程序也是处于阻塞状态
requests.get(bilibili)在网络请求返回数据之前,程序也是处于阻塞状态的
一般情况下,当程序处于 I0操作的时候。线程都会处于阻塞状态
协程:当程序遇见了工0操作的时候,可以选择性的切换到其他任务上。
协程代码如下:
注:
asyncio是异步操作代码块。
py3.7以前协程同步代码如下:
注:
time.sleep是个同步操作,当程序出现了同步操作的时候,异步就中断了。
异步操作如下:
Py3.8以后协程的写法如下:
注:
ayncio需要第三方安装,需要在命令提示符下输入 pip install -i ayncio下载ayncio库
(三)异步http请求-aiohttp
requests.get()同步的代码->异步操作aiohttp
aiohttp需要第三方安装,需要在命令提示符下输入 pip install aiohttp 下载aiohttp库
aiohttp代码如下:
三. selenium模块
selenium:自动化测试工具
可以:打开浏览器。然后像人一样去操作浏览器,程序员可以从selenium中直接提取网页上的各种信息
环境搭建:
pip install selenium -i 清华源
下载浏览器驱动:https://npm,taobao.org/mirrors/chrcmedriver
把解压缩的浏览器驱动 chromedriver 放在python解释器所在的文件夹。
让selenium启动谷歌浏览器如下:
注:
selenium模块一定需要配置相应的浏览器驱动,根据浏览器的驱动,在import后面输入相应的代码,在创建对象的时候同理。
selenium实战演示代码如下:
相关文章:
第三章 爬虫提速、selenium模块、requests模块进阶(终)
目录 一.requests进阶 (一)处理cookie (二)防盗链 (三)代理 二.爬虫提速 (一)线程池和进程池 (二)协程 (三)异步http请求-aio…...
unity使用内建组件给刚体增加重力
2019年3月9日11:10:24 unity开发中,有时候发现刚体上的重力不能满足我们的需要,可以通过使用内建组件Constant Force来增加重力: 在游戏对象上。请按照以下操作: 为Player添加一个名为Constant Force组件,选择Player在…...
Java开发中的设计模式之观察者模式详细讲解
观察者模式(Observer Pattern)是一种行为型设计模式,它定义了对象之间的一种一对多的依赖关系。当一个对象的状态发生改变时,所有依赖于它的对象都会自动收到通知并更新。这种模式在Java开发中非常常见,尤其是在事件驱…...
【学习笔记】计算机网络(九)—— 无线网络和移动网络
第9章 无线网络和移动网络 文章目录 第9章 无线网络和移动网络9.1 无线局域网WLAN9.1.1 无线局域网的组成9.1.2 802.11局域网的物理层9.1.3 802.11局域网的MAC层协议CSMA 协议CSMA/CD 协议 - 总线型 - 半双工CSMA/CA 协议 9.1.4 802.11局域网的MAC帧 9.2 无线个人区域网WPAN9.3…...
一个基于Django的写字楼管理系统实现方案
一个基于Django的写字楼管理系统实现方案 用户现在需要我用Django来编写一个写字楼管理系统的Web版本,要求包括增删改查写字楼的HTML页面,视频管理功能,本地化部署,以及人员权限管理,包含完整的代码结构和功能实现&am…...
C++面试考点:类(class)
1、类的定义 C中的类提供了面向对象编程、继承与多态的机制。其构成包括成员(各种自定义数据)、行为(定义的函数操作)、封装(private、public、protected)。核心是了解类的继承机制,以及各种封装…...
ThreadPoolExecutor 多线程用requests请求一个地址的时候为什么会报错,而多进程用requests请求一个地址的时候不会报错,为什么?
网络请求行为 多线程:requests 库底层依赖 urllib3,而 urllib3 使用连接池管理网络请求。在多线程环境中,连接池可能会因为线程间的竞争导致连接泄漏或超时。 多进程:每个进程独立管理自己的连接池,因此不会出现线程间…...
数据库脱裤
假设你已经getshell 找到mysql账号密码。 网站要连接mysql,就需要把mysql的账号密码保存在一个php文件中,类似config.php、common.inc.php等,在shell中,读取这些文件,找到其中信息即可 下面是一些常见平台的配置文…...
十二,<FastApi>中间件
什么是中间件? "中间件"是一个函数,它在每个请求被特定的路径操作处理之前,以及在每个响应之后工作. 代码示例: from fastapi import FastAPI, Response from fastapi import Request import uvicornapp FastAPI()app.middleware("http") async def m2…...
欢迎使用Markdown编辑器
使用Markdown编辑器 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个注…...
RabbitMQ架构原理及消息分发机制
RabbitMQ架构原理及消息分发机制 在现代分布式系统中,消息队列是不可或缺的组件之一。它不仅能够解耦系统模块,还能实现异步通信和削峰填谷。在众多消息队列中,RabbitMQ 因其高并发、高可靠性和丰富的功能而备受青睐。本文将从 RabbitMQ 的基…...
智能麻将出牌组件
开篇引言 麻将作为一款风靡全球的策略性游戏,其复杂的规则和多变的牌局给玩家带来了无尽乐趣。在数字化时代,运用编程技术为麻将游戏赋予智能,实现自动出牌功能,不仅能提升玩家体验,还能深入探索算法在博弈游戏中的…...
python脚本补充
本文是对实用的 Python 小脚本_python写脚本-CSDN博客的一点补充。对简单脚本的一些操作上的优化。 ###Utilities ### ###重命名文件名 import os import tkinter as tk from tkinter import filedialog, simpledialog, messageboxdef batch_rename():# 弹出文件夹选择对话框d…...
【经验记录贴】活用shell,提高工作效率
背景 最近在做测试的时候,需要手动kill服务的进程,然后通过命令重启服务,再进行测试。每次重启都会涉及到下面三个命令的执行: 1)检索进程ID $ ps -elf | grep programname root 1123 112 1234 0 0 0 0:00…...
出现 ERR_CERT_COMMON_NAME_INVALID | 301 302 重定向的解决方法
目录 前言1. 问题所示2. 原理分析3. 解决方法前言 🤟 找工作,来万码优才:👉 #小程序://万码优才/r6rqmzDaXpYkJZF 爬虫神器,无代码爬取,就来:bright.cn 1. 问题所示 执行代码时,出现如下提示: GET https://xxxx/admin-api/system...
解决本地浏览器访问服务器端语音识别项目显示“麦克风未授权”的问题
解决本地浏览器访问服务器端语音识别项目显示“麦克风未授权”的问题 在 chrome://flags 启用特殊权限(不推荐长期启用) 在浏览器地址栏输入: chrome://flags然后搜索: Insecure origins treated as secure 找到类似项ÿ…...
【数论】线性筛质数
线性筛质数 在之前的一篇筛质数的文章中只解释了埃式筛质数的方法,没有解释线性筛质数的方法 我们先看一下线性筛质数的代码 【例题】 给定一个正整数 n,请你求出 1∼n 中质数的个数。 输入格式 共一行,包含整数 n。 输出格式 共一行…...
视频孪生重构施工逻辑:智慧工地的数字化升级
当"智慧工地"概念在2017年首次写入《建筑业发展"十三五"规划》时,行业普遍将其等同于摄像头与传感器的简单叠加。十年数字浪潮冲刷下,智慧工地的内涵已发生本质跃迁:从工具层面的信息化改造,进化为基于视频数…...
【Lerobot】加载本地数据LeRobotDataset数据、读取并解析parquet
官方例子:https://github.com/huggingface/lerobot/blob/main/examples/1_load_lerobot_dataset.py https://github.com/NVIDIA/Isaac-GR00T/blob/main/getting_started/LeRobot_compatible_data_schema.md 使用SO100机械臂进行数据采集后,得到如下格式…...
卷积神经网络 CNN 模型介绍
卷积神经网络 CNN 模型介绍 一、经典CNN模型1. LeNet-5(基础模型)2. AlexNet3. VGGNet(VGG16/VGG19)4. ResNet(残差网络) 二、轻量化CNN模型1. MobileNet系列2. EfficientNet3. ShuffleNet 三、改进型CNN模…...
Vue —— 实用的工具函数
目录 响应式数据管理1. toRef 和 torefs2. shallowRef 和 shallowReactive3. markRaw 依赖追踪与副作用1. computed2. watch 和 watchEffect 类型判断与优化1. unref2. isRef 、isReactive 和 isProxy 组件通信与生命周期1. provide 和 inject2. nextTick 高级工具1. useAttrs …...
Langchain + Gemini API调用基本操作
本文参考Langchain中ChatGoogleGenerativeAI的官方文档,在本地的jupyter notebook中运行。 关于API的细节在官方文档最开头给出: 我们在使用时,可以选择model"gemini-2.0-flash-001"或者生成图片的ChatGoogleGenerativeAI(model“…...
软件线上故障复盘报告
软件线上故障复盘报告 故障编号:INC-2024XXX 复盘日期:YYYY-MM-DD 参与人员:研发/运维/测试/产品/客服负责人 一、故障概况 1.1 基础信息 字段内容数据来源故障等级P0/P1/P2(参考SLA分级标准)运维告警…...
分享:批量提取图片文字并自动命名文件,ocr识别图片指定区域并重命名文件名工具,基于WPF和腾讯OCR识别的接口的视线方案
一、项目背景 在处理大量图片时,常常需要从图片中提取特定区域的文字信息,并依据这些信息对图片进行重命名。例如,在档案管理领域,大量纸质文件被扫描成图片后,需要从图片中提取关键信息(如文件编号、日期等)来重命名图片,以便后续的检索和管理;在电商领域,商家可能…...
SIMULIA-Abaqus有限元分析软件针对汽车行业的解决方案
汽车行业是Abaqus软件的一个重要应用领域,许多知名的汽车企业都是Abaqus的用户,本文为您重点介绍Abaqus针对汽车行业有哪些应用及其解决方案。 Abaqus是一款什么软件: Abaqus公司是世界知名的计算机仿真行业的软件公司,成立于197…...
linux下使用php修改php.ini的session.save_path无效的解决办法
linux下安装php的组合还是php-fpm和nginx,其实已经安装好了,网站已经能够跑起来了,但是遇到后台登录的时候验证码一直不对,看了下报错,session无法存储,于是新增了一个phpinfo文件,使用web查看下…...
脚本-QQ批量发送消息(图片和文字)
目录 代码 代码功能详解 注意事项 致谢 代码 import io import traceback import win32clipboard import pyautogui import pyperclip import win32gui # 替换为pywin32的正确模块名 import pandas as pd import time from PIL import Imageclass QQAutoMessage:def __in…...
高等数学A1 期末救济(导数)
基于song复习 闭区间上连续函数的性质 在闭区间里,f(x)连续> f(x)有界 导数 导数三种定义及不同写法 常用导数公式 可导→连续,但连续❎→可导 切线类问题求解 求某点切线方程与求过某点的切线方程 反函数求导法则 反函数的导数直接函数导数的导数 例…...
前端VUE框架理论与应用(7)
一、用 v-for 把一个数组对应为一组元素 我们可以用 v-for 指令基于一个数组来渲染一个列表。v-for 指令需要使用 item in items 形式的特殊语法,其中 items 是源数据数组,而 item 则是被迭代的数组元素的别名。 在 v-for 块中,我们可以访问所有父作用域的属性。v-for 还…...
argparse
argparse.add_argument 完全指南 🧱 基础篇:命令行参数解析入门 1. 模块初始化 import argparse# 创建参数解析器(所有操作的基础容器) parser argparse.ArgumentParser( progMyApp, # 程序名称(默认从sys.argv[0]…...
力扣-hot100(移动零)
283. 移动零 简单 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0] 示例 2: 输…...
优先级队列的实模拟实现
优先级队列底层默认用的是vector来存储数据,实现了类似我们数据结构中学习过的堆的队列,他的插入和删除都是优先级高先插入和删除。下面我们来模拟实现它们常见的接口来熟悉优先级队列。 仿函数 在介绍优先级队列之前,我们先熟悉一个概念&a…...
ES6的`class`中,`super`关键字在构造函数和非构造函数中的行为有何不同?
在 ES6 的 class 中,super 关键字的行为在 构造函数 和 非构造函数(普通方法) 中有显著区别,主要体现在以下方面: 1. 构造函数中的 super 行为规则 必须显式调用: 在子类的构造函数中,必须先调…...
从 BI 与 SQL2API 的差异,看数据技术的多元发展路径
在数据驱动的商业世界里,商业智能(BI)与 SQL2API 如同两颗闪耀的星星,各自散发着独特的光芒。BI 早已在企业中广泛应用,成为数据分析领域的中流砥柱;而 SQL2API 作为新兴技术,虽潜力巨大&#x…...
UNet脑瘤医学影像分割训练实战(PyTorch 完整代码)
UNet是一种基于卷积神经网络(CNN)的医学影像分割模型,由Ronneberger等人于2015年提出。本文我们将简要介绍基于PyTorch框架,使用UNet模型在脑瘤医学影像分割数据集上进行训练,同时通过SwanLab监控训练过程,…...
MySQL事务隔离级别详解
MySQL事务隔离级别详解 1. 基本概念 1.1 什么是事务隔离级别? 事务隔离级别是数据库管理系统为了保证数据一致性,在多个事务并发访问时提供的不同级别的保护机制。 1.2 事务并发问题 脏读(Dirty Read): 一个事务读…...
2025年K8s最新高频面试题
目录 Kubernetes的核心组件有哪些,各自作用是什么? Pod和Deployment的区别? Service有哪些类型,分别适用于什么场景? ConfigMap和Secret有什么区别? StatefulSet 和 Deployment 的主要区别是什么? 什么是 Ingress,有哪些常用实现方式? 如何限制 Kubernetes 中 Pod …...
CobaltStrike
概述 Cobalt Strike是⼀款基于java的渗透测试神器,常被业界⼈称为CS神器。⾃3.0以后已经不在使用 Metasploit框架⽽作为⼀个独⽴的平台使用,分为客户端与服务端,服务端是⼀个,客户端可以有 多个,⾮常适合团队协同作战…...
Web前端 (CSS篇)
什么是CSS? css(Cascading Style Sheets)是层叠样式表或级联样式表,是一组设置规则,用于控制web页面外观。 为什么使用CSS? CSS 用于定义网页的样式,包括针对不同设备和屏幕尺寸的设计和布局。 CSS 实例 body {background-col…...
回归测试中常见的问题:如何避免“越改越错“的陷阱
修复一个Bug,引入三个新Bug "我们只是改了个小功能,为什么整个系统都出问题了?"——这是回归测试失败的典型症状。据IBM研究显示,约40%的线上缺陷源自不充分的回归测试。本文将深入剖析回归测试中的常见陷阱࿰…...
红宝书第四十六讲:Node.js基础与API设计解析
红宝书第四十六讲:Node.js基础与API设计解析 资料取自《JavaScript高级程序设计(第5版)》。 查看总目录:红宝书学习大纲 一、Node.js基础概念 1. 流(Streams)的核心地位 12 Node.js的文件读写和网络通信依…...
IT运维常用的软件工具有哪些
IT运维常用的软件工具主要包括:监控工具、自动化运维工具、日志管理工具、网络管理工具、资产管理工具、服务台工具。这些工具分别用于保障IT系统稳定运行、提升运维效率、快速响应故障。其中,监控工具至关重要,它能实时监测系统运行状态、资…...
eplan许可证迁移到其他计算机
随着电气设计项目的不断扩大和变更,您可能需要将EPLAN许可证从一台计算机迁移到另一台计算机上。然而,在迁移过程中,确保您的软件始终保持最佳状态至关重要。本文将为您提供一份详尽的EPLAN许可证迁移指南,帮助您轻松完成这一操作…...
服务器部署静态页面
前言 需要先下载nginx,然后上传你的静态网页文件,最后设置nginx展示静态页面 安装nginx 第一步:在服务器上下载nginx服务 sudo dnf install nginx 第二步:启动nginx sudo systemctl start nginx 第三步:验证ngin…...
Spring boot 知识整理
一、SpringBoot 背景内容梳理 SpringBoot是一个基于Spring框架的开源框架,用于简化Spring应用程序的初始搭建和开发过程。它通过提供约定优于配置的方式,尽可能减少开发者的工作量,使得开发Spring应用变得更加快速、便捷和高效。 SpringBoot…...
软件测试面试题汇总---实时更新
1. java垃圾回收机制 2. 类为什么不能多继承,而接口可以 参考为什么类之间只能单继承不能多继承,接口之间可以多继承,类与接口之间可以多实现_内部可以多继承而接口可以多实现-CSDN博客 3. java面向对象的三大特性 继承、封装、多态 4. …...
2025海外代理IP测评:Bright Data,ipfoxy,smartproxy,ipipgo,kookeey,ipidea哪个值得推荐?
近年来,随着全球化和跨境业务需求的不断扩大“海外代理IP”逐渐成为企业和个人在多样化场景中的重要工具。无论是进行数据采集、广告验证、社交媒体管理,还是跨境电商平台运营,选择合适的代理IP服务商都显得尤为重要。然而,市场上…...
蓝桥杯 8. 分巧克力
分巧克力 原题目链接 问题描述 儿童节那天有 K 位小朋友到小明家做客。小明拿出了珍藏的巧克力招待小朋友们。 小明一共有 N 块巧克力,其中第 i 块是 Hᵢ Wᵢ 的长方形。为了公平起见,小明需要从这 N 块巧克力中切出 K 块巧克力分给小朋友们。 要求…...
计算机组成原理—————计算机运算方法精讲<3>反码及移码的表示
第一部分:反码表示法 这里我们直接给出整数反码的计算公式 我们实际计算中其实不用死记硬背公式,小编在这里介绍一下求反码的秒杀技 反码秒杀技:定号取反 第一步:确定符号位是0还是1 第二步:符号位不变,…...
关于STM32创建工程文件启动文件选择
注意启动文件只要选择这几个 而不是要把所有都选上...