如何避免爬虫因Cookie过期导致登录失效
1. Cookie的作用及其过期机制
1.1 什么是Cookie?
Cookie是服务器发送到用户浏览器并保存在本地的一小段数据,用于维持用户会话状态。爬虫在模拟登录后,通常需要携带Cookie访问后续页面。
1.2 Cookie为什么会过期?
- 会话Cookie(Session Cookie):浏览器关闭后失效。
- 持久Cookie(Persistent Cookie):设置
**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Expires</font>**
或**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Max-Age</font>**
属性,超时后失效。 - 服务器主动失效:如用户修改密码、长时间未操作等。
如果爬虫未正确处理Cookie过期问题,会导致:
- 请求返回
**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">401/403</font>**
状态码 - 被重定向到登录页面
- 触发网站反爬机制(如封禁IP)
2. 检测Cookie是否过期的策略
2.1 直接检测HTTP响应
- 检查返回状态码(如
**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">302</font>**
重定向到登录页)。 - 检查响应内容是否包含登录提示(如
**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">"请先登录"</font>**
)。
import requestsdef check_cookie_valid(session):test_url = "https://example.com/user/profile" # 需要登录才能访问的页面response = session.get(test_url)if response.status_code == 200 and "个人中心" in response.text:return True # Cookie有效else:return False # Cookie失效
2.2 检查Cookie的Expires属性
如果服务器返回的Cookie带有**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Expires</font>**
字段,可以解析并判断是否已过期。
from datetime import datetimedef is_cookie_expired(cookie):if "expires" in cookie:expires_time = datetime.strptime(cookie["expires"], "%a, %d-%b-%Y %H:%M:%S GMT")return expires_time < datetime.now()return False # 无过期时间或会话Cookie
3. 自动刷新Cookie的解决方案
3.1 重新登录获取新Cookie
当检测到Cookie失效时,自动调用登录接口更新Cookie。
def login(username, password):login_url = "https://example.com/login"session = requests.Session()payload = {"username": username, "password": password}response = session.post(login_url, data=payload)if "登录成功" in response.text:return session # 返回带新Cookie的Sessionelse:raise Exception("登录失败")
3.2 使用Session对象持久化Cookie
**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">requests.Session()</font>**
可自动管理Cookie,但需结合存储机制(如文件、数据库)实现长期有效。
import pickledef save_session(session, filename="session.pkl"):with open(filename, "wb") as f:pickle.dump(session.cookies, f)def load_session(filename="session.pkl"):session = requests.Session()try:with open(filename, "rb") as f:session.cookies.update(pickle.load(f))except FileNotFoundError:pass # 首次运行无缓存return session
3.3 结合Redis缓存Cookie(分布式爬虫适用)
import redis
import pickleredis_client = redis.StrictRedis(host="localhost", port=6379, db=0)def save_session_to_redis(session, key="example_cookie"):redis_client.set(key, pickle.dumps(session.cookies))def load_session_from_redis(key="example_cookie"):session = requests.Session()cookie_data = redis_client.get(key)if cookie_data:session.cookies.update(pickle.loads(cookie_data))return session
4. 进阶优化方案
4.1 使用Selenium处理动态Cookie
某些网站采用JavaScript动态生成Cookie,可使用**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">selenium</font>**
模拟浏览器登录。
from selenium import webdriver
from selenium.webdriver.common.by import Bydef selenium_login(username, password):driver = webdriver.Chrome()driver.get("https://example.com/login")driver.find_element(By.NAME, "username").send_keys(username)driver.find_element(By.NAME, "password").send_keys(password)driver.find_element(By.XPATH, "//button[@type='submit']").click()# 获取Cookie并转为requests可用的格式cookies = driver.get_cookies()session = requests.Session()for cookie in cookies:session.cookies.set(cookie["name"], cookie["value"])driver.quit()return session
4.2 结合代理IP和User-Agent轮换
避免因频繁登录触发反爬。
import requests
from requests.auth import HTTPProxyAuth# 爬虫配置
LOGIN_URL = "https://example.com/login" # 登录页面的 URL
DATA_URL = "https://example.com/data" # 需要爬取数据的 URL
USERNAME = "your_username" # 用户名
PASSWORD = "your_password" # 密码# 代理配置
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 构造代理地址
proxies = {"http": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}","https": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}",
}# 请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
}# 登录函数
def login():session = requests.Session()login_data = {"username": USERNAME,"password": PASSWORD}response = session.post(LOGIN_URL, data=login_data, headers=headers, proxies=proxies, auth=HTTPProxyAuth(proxyUser, proxyPass))if response.status_code == 200:print("登录成功,获取到新的 Cookie")return sessionelse:print("登录失败")return None# 检测 Cookie 是否过期
def check_cookie(session):response = session.get(DATA_URL, headers=headers, proxies=proxies)if response.status_code == 401 or response.status_code == 403:print("Cookie 过期,需要重新登录")return Falseelif "登录已失效" in response.text:print("Cookie 过期,需要重新登录")return Falseelse:print("Cookie 仍然有效")return True# 主爬虫逻辑
def main():session = login() # 首次登录获取 Cookieif session is None:print("无法登录,爬虫终止")returnwhile True:if check_cookie(session): # 检测 Cookie 是否过期# 如果 Cookie 有效,继续爬取数据response = session.get(DATA_URL, headers=headers, proxies=proxies)if response.status_code == 200:print("成功获取数据")# 处理数据print(response.text)else:print("数据获取失败")else:# 如果 Cookie 过期,重新登录session = login()if session is None:print("重新登录失败,爬虫终止")breakif __name__ == "__main__":main()
5. 结论
- Cookie过期检测:通过状态码、页面内容或
**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Expires</font>**
字段判断。 - 自动刷新Cookie:重新登录或使用
**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">Session</font>**
持久化存储。 - 分布式爬虫:可采用Redis共享Cookie,避免重复登录。
- 动态网站:结合
**<font style="color:rgb(64, 64, 64);background-color:rgb(236, 236, 236);">selenium</font>**
获取动态生成的Cookie。
通过合理管理Cookie,爬虫可以长期稳定运行,避免因登录失效导致的数据抓取中断。
相关文章:
如何避免爬虫因Cookie过期导致登录失效
1. Cookie的作用及其过期机制 1.1 什么是Cookie? Cookie是服务器发送到用户浏览器并保存在本地的一小段数据,用于维持用户会话状态。爬虫在模拟登录后,通常需要携带Cookie访问后续页面。 1.2 Cookie为什么会过期? 会话Cookie&…...
集成方案 | Docusign + 甄零科技,赋能企业海外业务高效增长!
本文将详细介绍 Docusign 与甄零科技的集成步骤及其效果,并通过实际应用场景来展示 Docusign 的强大集成能力,以证明 Docusign 集成功能的高效性和实用性。 甄零科技是一家专注于数字化合同管理系统的 SaaS 解决方案提供商,致力于为企业打造“…...
【Arxiv 2025】Single Image Iterative Subject-driven Generation and Editing
文章目录 文章标题作者及研究团队介绍01 在论文所属的研究领域,有哪些待解决的问题或者现有的研究工作仍有哪些不足?02 这篇论文主要解决了什么问题?03 这篇论文解决问题采用的关键解决方案是什么?04 这篇论文的主要贡献是什么&am…...
CoOAG:首个捕捉学术研究兴趣动态演变的数据集
2025-04-24,由西安交通大学基于学术合作网络构建一种新的动态图数据集CoOAG,用于研究动态图中的节点分类问题。该数据集通过捕捉作者研究兴趣的动态变化,为动态图学习领域提供了新的研究方向和测试平台,特别是在标签受限的动态节点…...
决策树随机深林
决策树和随机森林是机器学习中常用的两种模型,以下是对它们的简单介绍: 决策树 - 原理:通过一系列的条件判断对样本进行分类或预测。它由节点(内部节点是属性上的测试,叶节点是类别或值)和边组成࿰…...
Unity 和 Unreal Engine(UE) 两大主流游戏引擎的核心使用方法
以下是 Unity 和 Unreal Engine(UE) 两大主流游戏引擎的核心使用方法和对比分析,帮助开发者快速上手并根据项目需求选择合适工具: 一、Unity 使用指南 1. 安装与配置 安装:从 Unity Hub 下载,选择长期支持…...
Maven 依赖范围(Scope)详解
Maven 依赖范围(Scope)详解 Maven 是一个强大的项目管理工具,广泛用于 Java 开发中构建、管理和部署应用程序。在使用 Maven 构建项目时,我们经常需要引入各种第三方库或框架作为项目的依赖项。通过在 pom.xml 文件中的 <depe…...
博物馆除湿控湿保卫战:M-5J1R 电解除湿科技如何重塑文物守护的未来
在卢浮宫幽深的长廊里,达芬奇的《蒙娜丽莎》正经历着一场看不见的战争——不是来自时间的侵蚀,而是空气中无形的水分子。每一件文物都在与湿度进行着无声的抗争,这场抗争关乎人类文明的延续。湿度,这个看不见的文物杀手࿰…...
消防应急物资智能调用立库:豪越科技助力消防“速战速决”
在消防救援的战场上,时间就是生命,每一秒都关乎着人民群众的生命财产安全。然而,在过去的紧急救援中,应急物资无法及时到位的情况时有发生,成为制约救援效率的关键难题,给救援工作带来了巨大的困境。 想象一…...
机器学习基础理论 - 分类问题评估指标
几个定义:混淆矩阵 TP: True Positives, 表示实际为正例且被分类器判定为正例的样本数FP: False Positives, 表示实际为负例且被分类器判定为正例的样本数FN: False Negatives, 表示实际为正例但被分类器判定为负例的样本数TN: True Negatives, 表示实际为负例且被分类…...
深度学习4.1 多层感知机
基本概念 多层感知机(Multilayer Perceptron, MLP)是一种前馈人工神经网络,由输入层、至少一个隐藏层和输出层组成。 核心特点: 采用全连接结构(相邻层神经元全部相连; 通过非线性激活函数…...
解决两个技术问题后小有感触-QZ Tray使用经验小总结
老朋友都知道,我现在是一家软件公司销售部门的项目经理和全栈开发工程师,就是这么“奇怪”的岗位,大概我是公司销售团队里比较少有技术背景、销售业绩又不那么理想的销售。 近期在某个票务系统项目上驻场,原来我是这个项目的项目…...
非计算机专业如何利用AI开展跨学科和交叉研究
对于非计算机专业的研究者,利用AI开展跨学科研究既充满机遇也面临挑战。以下是一份系统化的指南,帮助您高效入门并找到交叉研究的突破口: 一、认知重塑:理解AI的本质与局限 AI不是“黑箱”:现代AI以数据驱动为核心&a…...
Python 数据可视化进阶:精准插入图表到指定 Excel 工作表
Python 数据可视化进阶:精准插入图表到指定 Excel 工作表 在处理数据的过程中,我们常常需要将生成的图表精准地插入到已存在数据的 Excel 文件的指定工作表中。借助 Python 的强大库组合,这一操作得以高效实现。以下是经过优化和注释补充的代…...
MQTT - MQTT 实践(Windows EMQX、MQTTX、客户端认证、连接与主题)
概述 -说明概括MQTT消息队列遥测传输协议一种规则EMQX一款大规模分布式物联网接入平台一个平台MQTTXMQTT 客户端一个工具 工具(MQTTX)和平台(EMQX)间遵循规则(MQTT)即可进行双向通信 一、Windows EMQX 下…...
【计算机网络物理层】从信号传输到介质选型的核心技术解析
目录 前言技术背景与价值当前技术痛点解决方案概述目标读者说明 一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明技术选型对比 二、实战演示环境配置要求核心代码实现(信号模拟)运行结果验证 三、性能对比测试方法论量化数据对比结果分析 四、…...
云原生--核心组件-容器篇-5-Docker核心之-容器
1、Docker容器的定义与核心概念 定义: Docker容器是基于Docker镜像运行的轻量级、独立、可移植的运行环境,它封装了应用程序及其依赖项,提供了一个隔离的执行空间。容器化应用比传统的虚拟机更加高效,因为它们共享主机操作系统的内…...
一、I/O的相关概念
I/O的相关概念 1、I/O I/O即Input和Output,用户进程执行I/O操作,归结起来,也就是向操作系统发出请求,读请求就把数据填到缓冲区里,写数据就把缓冲区里数据排干,目的地可以是磁盘也可以是其他通道。进程通…...
django filter 日期大于当前日期的
在Django中,如果你想要过滤出日期大于当前日期的记录,你可以使用Django的QuerySet API中的__gt(大于)操作符。这里是如何做到这一点的步骤: 确定你的模型:首先,确保你有一个模型(Mo…...
Unreal Engine 实现智慧水库周边环境以及智慧社区模拟的实例
下面分别为你介绍使用 Unreal Engine 实现智慧水库周边环境以及智慧社区模拟的实例。 智慧水库周边环境模拟 1. 场景搭建 地形与地理特征:利用 Unreal Engine 的地形编辑工具,依据水库实际的地理测绘数据构建地形。模拟山脉、丘陵、河流等周边地貌&am…...
[MCU]SRAM
MCU存储体系 1.SRAM 2.FLASH 3.TCM SRAM SRAM(Static Random-Access Memory):静态随机存取存储器. 特点:访问速度快、断电丢失、不 SRAM分类 1.系统SRAM:连接在系统总线上,所有外设和CPU都可访问 2.TCM SRAM&…...
【dockerredis】用docker容器运行单机redis
一、实验环境 操作系统:CentOS7.5 Minimal docker版本:18.06-ce redis版本:6.0.6 二、安装docker 关闭selinux # setenforce 0 # sed -i s/^SELINUX.*/SELINUXpermissive/g /etc/selinux/config 下载docker二进制安装包 # yum -y install…...
游戏引擎学习第247天:简化DEBUG_VALUE
欢迎。关于纹理传输的详细情况。 上周我们刚刚完成了纹理下载的相关工作,但实际上并没有完全解决这个问题。问题的核心是,当前关于纹理下载的正确方式仍然存在较大的不确定性。尽管我们在进行纹理下载的工作时已有一定进展,但依旧有不少模糊…...
Super Sample Tasker 学习-1
一、Super-Simple Tasker (SST) 是一个基于事件的、抢占式的、优先级基础的实时操作系统(RTOS)内核,完全符合 Rate Monotonic Analysis/Scheduling (RMA/RMS) 的要求。 此STT RTOS主要分成两大类,分别是抢占式SST和非抢占式STT0&…...
【C++】类和对象【中上】
目录 一、类与对象1、构造函数2、析构函数3、拷贝构造函数 个人主页<—请点击 C专栏<—请点击 一、类与对象 默认成员函数就是用户没有显式实现,编译器会自动生成的成员函数称为默认成员函数。⼀个类,我们不写的情况下编译器会默认生成以下6个默…...
概率论与统计(不确定性分析)主要应用在什么方面?涉及到具体知识是什么?
用户问的是概率论与统计(不确定性分析)的主要应用方面,涉及的具体知识以及具体公式。首先,我需要确定概率论与统计在哪些领域有应用,比如工程、金融、医学、数据科学等等。然后,具体知识部分应该包括概率论…...
java面向对象编程【高级篇】之多态
目录 🚀前言🤔什么是多态?🌟多态的优缺点💯优点💯缺点 🌟类型转换💯自动类型转换💯强制类型转换 🚀前言 大家好!我是 EnigmaCoder。 本文介绍java…...
低压电工常见知识点
一.工厂用电 1.工厂一般有电源380V和220V。 三相:黄绿红 蓝 双色 助记符:王力宏 分别对应第一相(R),第二相(S),第三相(T),零线(N),地线(PE) 单相:红 黑 对应火线(L) 零线(N) 左零右火 二.人体安全电压是36V 三.变压器的讲解 变压器的符号…...
【Android】硬件合成器 HWC
硬件合成器(HWC) 深度解析 一、HWC 基本概念 硬件合成器(Hardware Composer, HWC)是Android显示系统的核心组件,负责高效管理图形层的合成与显示。作为SurfaceFlinger的关键模块,HWC通过硬件加速实现图层合成,显著提升性能并降低功耗。 二…...
【Android】dialogX对话框框架
文章目录 DialogX一、引入二、基础对话框 MessageDialog 和 输入对话框 InputDialog2.1.0 显示一个简单对话框2.1.1 构造对话框2.1.2 按钮点击回调2.2 输入对话框按钮点击回调2.3自定义布局2.4自定义进入和关闭动画 三、等待框WaitDialog和提示框TipDialog3.1 等待框3.2 提示框…...
解决 Elasticsearch 启动错误:failed to obtain node locks
1.遇到的问题: 在使用 Elasticsearch 时,可能会遇到以下错误: java.lang.IllegalStateException: failed to obtain node locks, tried [[path_to_data]] with lock id [0]; maybe these locations are not writable or multiple nodes were…...
DeepSeek:重构人类文明的智能引擎
一、技术革命:从通用智能到认知跃迁 1.1 架构创新:混合专家系统的突破 DeepSeek的混合专家(MoE)架构实现了对传统Transformer的颠覆性革新。其256个专家模块通过动态路由算法,在处理文本、图像、代码等多模态数据时&…...
(云计算HCIP)HCIP全笔记(九)本篇介绍操作系统基础,内容包含:操作系统组成、分类和定义,Linux的特性结构和Linux版本分类
1. 操作系统基础 1.1 操作系统的定义 操作系统(Operating System,简称OS),是管理和控制计算机硬件与软件资源的计算机程序(系统软件)。 1.2 操作系统的组成 通常站在用户角度,操作系统由内核和…...
Nginx的默认主配置文件 “/etc/nginx/nginx.conf“ 解读
安装Nginx后的默认主配置文件 “/etc/nginx/nginx.conf” 解读 详见如下配置及注释: # 指定 Nginx 工作进程运行的用户和用户组。这里指定以www - data用户来运行 Nginx 工作进程。 # 在基于 Debian 和 Ubuntu 的系统中,www-data 用户是默认存在的&…...
【AI模型学习】GPT——从v1到v3
文章目录 GPT-1GPT vs BERTGPT-2GPT-3Ai代码 GPT-1 GPT-1(Generative Pretrained Transformer 1)是 OpenAI 在2018年发布的第一个大规模预训练生成模型。它开创了基于 Transformer 的 预训练-微调 (pretraining-finetuning) 框架,在自然语言…...
用Function Calling让GPT查询数据库(含示例)
在本文中,我们通过一个简单的示例,介绍了 GPT模型结合Function Calling技术查询数据库 的基本流程。 Function Calling 是OpenAI推出的一项功能,允许大模型根据用户提问,自动生成函数调用指令,并由程序端实际执行外部操…...
DHCP 服务器运行流程图
以常见的 DHCP v4 为例,其完整流程如下: 一、客户端请求 IP 地址阶段 DHCPDiscover:客户端启动后,会以广播的形式发送 DHCPDiscover 报文,目的是在网络中寻找可用的 DHCP 服务器。该报文中包含客户端的 MAC 地址等信息,以便服务器能够识别客户端。DHCPOffer:网络中的 D…...
3. 使用idea将一个git分支的部分提交记录合并到另一个git分支
目录 1. 需求: 2. 操作步骤: (1)步骤一:idea切换项目分支到test上 (2)步骤二:在log窗口筛选出dev分支的提交记录 (3)步骤三:选中需要合并的记…...
GAEA情感坐标的技术架构与系统集成
为构建 AI 情感数据层,GAEA 整合了DePIN 网络、GODHOOD ID和情感坐标系三大核心组件,有效安全地整合用户数据,确保数据处理透明、高效、去中心化。架构如下: DePIN 网络:该去中心化基础设施为安全的数据传输和存储提供…...
04.通过OpenAPI-Swagger规范让Dify玩转Agent
dify安装 cd dify cd docker cp .env.example .env docker compose up -d准备自定义工具 我自建的PowerDNS,它的swagger如下: https://github.com/PowerDNS/pdns/blob/master/docs/http-api/swagger/authoritative-api-swagger.yaml 但需要加上&#x…...
idea软件配置移动到D盘
默认idea的配置在c盘,我现在软件配置已经15G了_(ཀ」 ∠)__ 。 需要关闭idea 移动软件 若是免安装版的直接移动本地软件目录就行了, 安装版的可以使用c盘搬家软件迁移。 移动配置本地文件 原位置: C:\Users\用户\AppData\Local\JetBrains…...
本安型交换机 + TSN:煤矿智能化的关键拼图
第二十三届太原煤炭(能源)工业技术与装备展览会于4月24日在潇河国际会展中心圆满落幕。作为矿山通信领域的创新企业,光路科技(Fiberroad)携多款核心产品集中亮相,涵盖万兆TSN矿用交换机、全千兆多光电融合交…...
基于SpringBoot+PostgreSQL+ROS Java库机器人数据可视化管理系统
以下是系统设计的详细方案: 1. 系统架构 ----------------- ------------------------ --------------------- -------------------- | 用户浏览器 | ---->| 前端应用 (SPA) | ---> | Spring Boot 后端 | ---> | ROS…...
机器学习算法-支持向量机SVM
支持向量机-python实现 由于本菜鸟目前还没有学习到软间隔和核函数的处理,so,先分享的硬间隔不带核函数,也就是不涉及非线性可分转化成线性可分的逻辑,后续如果学的懂,就在本篇文章的代码中继续拓展核函数等。 先来看…...
【仿Mudou库one thread per loop式并发服务器实现】服务器边缘测试+性能测试
服务器边缘测试性能测试 1. 长连接连续请求测试2. 超时连接释放测试13. 超时连接释放测试24. 超时连接释放测试35. 数据中多条请求处理测试6. PUT大文件上传测试7. 服务器性能测试 #include "httpserver.hpp" #define WWWROOT "./wwwroot"std::string Requ…...
【Spring Boot】Maven中引入 springboot 相关依赖的方式
Maven中引入 springboot 相关依赖的方式 1. 不使用版本管理(不推荐) 如果项目中没有统一版本管理,那么每个依赖都必须显式声明 <version>。 示例: <dependency><groupId>org.springframework.boot</group…...
SpringCloud核心组件Eureka菜鸟教程
关于Spring Cloud Eureka的核心概念 Eureka 是 Netflix 开源的一款基于 REST 的服务发现工具,主要用于中间层服务器的云端负载均衡。它通过维护一个服务注册表来实现服务之间的通信1。在 Spring Cloud 中,Eureka 提供了一个高可用的服务注册与发现机制&a…...
DuckDB:现代数据分析的“SQLite“内核革命
在数据工程、数据科学快速演进的今天,一个新的名字正在快速蹿红:DuckDB。 有人称它是数据分析领域的SQLite,也有人称它为下一代轻量级OLAP引擎。 无论哪种称呼,都离不开一个事实: DuckDB 重新定义了小型数据仓库和本地…...
【计算机网络分类全解析】从局域网到广域网的工程实践
目录 前言技术背景与价值当前技术痛点解决方案概述目标读者说明 一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明技术选型对比 二、实战演示环境配置要求核心代码实现案例1:局域网IP扫描案例2:VLAN配置 运行结果验证 三、性能对比测试方法论量…...
Spark 技术体系深度总结
一、核心技术架构 1. 分布式计算模型 Spark基于弹性分布式数据集(RDD,Resilient Distributed Dataset)构建核心抽象,通过分区(Partition)实现数据分布式存储,每个分区可独立进行并行计算。RDD…...