【爬虫】DrissionPage-7
官方文档:
https://www.drissionpage.cn/browser_control/get_page_info/
1. 页面信息
📌 html
- 描述:返回当前页面的 HTML 文本。
- 注意:不包含
<iframe>
元素的内容。 - 返回类型:
str
示例:
html_content = tab.html
print(html_content)
📌 json
- 描述:将请求内容解析为 JSON 格式。如果访问的 URL 返回的是
*.json
文件,浏览器会直接显示 JSON 数据,此属性可以将这些数据转换为dict
格式。 - 返回类型:
dict
示例:
json_data = tab.json
print(json_data)
📌 title
- 描述:返回当前页面的标题文本。
- 返回类型:
str
示例:
page_title = tab.title
print(page_title)
📌 user_agent
- 描述:返回当前页面的
user agent
信息。 - 返回类型:
str
示例:
user_agent_info = tab.user_agent
print(user_agent_info)
📌 save()
-
描述:将当前页面保存为文件,同时返回保存的内容。如果
path
和name
参数都为None
,则只返回内容,不保存文件。 -
参数:
参数名称 类型 默认值 说明 path
str
/Path
None
保存路径。如果为 None
且name
不为None
,则保存到当前路径。name
str
None
保存的文件名。如果为 None
且path
不为None
,则使用title
值。as_pdf
bool
False
为 True
时保存为 PDF,否则保存为 MHTML,并忽略kwargs
参数。**kwargs
多种 无 PDF 生成参数,如 landscape
,displayHeaderFooter
,printBackground
等。 -
返回类型:
类型 说明 str
当 as_pdf
为False
时返回 MHTML 文本。bytes
当 as_pdf
为True
时返回文件字节数据。
示例:
# 保存为 PDF
pdf_data = tab.save(as_pdf=True, path='path/to/save', name='page.pdf')# 保存为 MHTML
mhtml_content = tab.save(path='path/to/save', name='page.mhtml')
2. 运行结果信息
📌 url
- 描述:返回当前访问的 URL。
- 返回类型:
str
示例:
current_url = tab.url
print(current_url)
📌 tab_id
- 描述:返回当前标签页的 ID。
- 返回类型:
str
📌 states.is_loading
- 描述:返回页面是否正在加载状态。
- 返回类型:
bool
示例:
is_loading = tab.states.is_loading
print(is_loading)
📌 states.is_alive
- 描述:返回页面是否仍然可用,标签页已关闭则返回
False
。 - 返回类型:
bool
示例:
is_alive = tab.states.is_alive
print(is_alive)
📌 states.ready_state
-
描述:返回页面当前加载状态,有以下四种:
'connecting'
:网页连接中'loading'
:文档还在加载中'interactive'
:DOM 已加载,但资源未加载完成'complete'
:所有内容已完成加载
-
返回类型:
str
示例:
ready_state = tab.states.ready_state
print(ready_state)
📌 url_available
- 描述:以布尔值返回当前链接是否可用。
- 返回类型:
bool
📌 states.has_alert
- 描述:以布尔值返回页面是否存在弹出框。
- 返回类型:
bool
示例:
has_alert = tab.states.has_alert
print(has_alert)
3. 窗口信息
📌 rect.size
- 描述:以
tuple
返回页面大小,格式为(宽, 高)
。 - 返回类型:
Tuple[int, int]
示例:
page_size = tab.rect.size
print(page_size)
📌 rect.window_size
- 描述:以
tuple
返回窗口大小,格式为(宽, 高)
。 - 返回类型:
Tuple[int, int]
📌 rect.window_location
- 描述:以
tuple
返回窗口在屏幕上的坐标,左上角为(0, 0)
。 - 返回类型:
Tuple[int, int]
📌 rect.window_state
- 描述:返回窗口当前状态,有
'normal'
、'fullscreen'
、'maximized'
、'minimized'
几种。 - 返回类型:
str
示例:
window_state = tab.rect.window_state
print(window_state)
📌 rect.viewport_size
- 描述:以
tuple
返回视口大小,不含滚动条,格式为(宽, 高)
。 - 返回类型:
Tuple[int, int]
📌 rect.viewport_size_with_scrollbar
- 描述:以
tuple
返回浏览器窗口大小,含滚动条,格式为(宽, 高)
。 - 返回类型:
Tuple[int, int]
📌 rect.page_location
- 描述:以
tuple
返回页面左上角在屏幕中坐标,左上角为(0, 0)
。 - 返回类型:
Tuple[int, int]
📌 rect.viewport_location
- 描述:以
tuple
返回视口在屏幕中坐标,左上角为(0, 0)
。 - 返回类型:
Tuple[int, int]
📌 rect.scroll_position
- 描述:返回页面滚动条位置,格式为
(x, y)
。 - 类型:
Tuple[float, float]
示例:
scroll_position = tab.rect.scroll_position
print(scroll_position)
4. 配置参数信息
📌 timeout
- 描述:整体默认超时时间(秒),包括元素查找、点击、处理提示框、列表选择等需要用到超时设置的地方,都以这个数据为默认值。默认为
10
。 - 返回类型:
int
或float
示例:
default_timeout = tab.timeout
print(default_timeout)
📌 timeouts
-
描述:以字典方式返回三种超时时间(秒):
'base'
:与timeout
属性是同一个值'page_load'
:用于等待页面加载'script'
:用于等待脚本执行
-
返回类型:
dict
示例:
timeouts_info = tab.timeouts
print(timeouts_info)
输出:
{'base': 10, 'page_load': 30.0, 'script': 30.0}
📌 retry_times
- 描述:网络连接失败时的重试次数,默认为
3
。 - 返回类型:
int
📌 retry_interval
- 描述:网络连接失败时的重试等待间隔秒数,默认为
2
。 - 返回类型:
int
或float
📌 load_mode
-
描述:返回页面加载策略,有以下三种:
'normal'
:等待页面所有资源完成加载'eager'
:DOM 加载完成即停止'none'
:页面完成连接即停止
-
返回类型:
str
示例:
load_strategy = tab.load_mode
print(load_strategy)
5. Cookies 和缓存信息
📌 cookies()
-
描述:以列表方式返回 Cookies 信息。
-
参数:
参数名称 类型 默认值 说明 all_domains
bool
False
是否返回所有 Cookies,为 False
只返回当前 URL 的。all_info
bool
False
返回的 Cookies 是否包含所有信息, False
时只包含name
、value
、domain
信息。 -
返回类型:
CookiesList
(Cookies 组成的列表)
示例:
from DrissionPage import Chromiumtab = Chromium().latest_tab
tab.get('https://www.baidu.com')for cookie in tab.cookies():print(cookie)
输出:
{'domain': '.baidu.com', 'domain_specified': True, ......}
......
📌 指定返回类型
cookies().as_str()
:返回'name1=value1; name2=value2'
格式的字符串。cookies().as_dict()
:返回{name1: value1, name2: value2}
格式的字典。cookies().as_json()
:返回 JSON 格式的字符串。
说明: as_str()
和 as_dict()
都只会保留 'name'
和 'value'
字段。
示例:
cookies_str = tab.cookies().as_str()
print(cookies_str)cookies_dict = tab.cookies().as_dict()
print(cookies_dict)cookies_json = tab.cookies().as_json()
print(cookies_json)
📌 session_storage()
-
描述:用于获取
sessionStorage
信息,可获取全部或单个项。 -
参数:
参数名称 类型 默认值 说明 item
str
None
要获取的项目,为 None
则返回全部项目组成的字典。 -
返回类型:
类型 说明 dict
item
参数为None
时返回所有项目。str
指定 item
时返回该项目内容。
示例:
session_storage_info = tab.session_storage()
print(session_storage_info)session_storage_item = tab.session_storage(item='key_name')
print(session_storage_item)
📌 local_storage()
-
描述:用于获取
localStorage
信息,可获取全部或单个项。 -
参数:
参数名称 类型 默认值 说明 item
str
None
要获取的项目,为 None
则返回全部项目组成的字典。 -
返回类型:
类型 说明 dict
item
参数为None
时返回所有项目。str
指定 item
时返回该项目内容。
示例:
local_storage_info = tab.local_storage()
print(local_storage_info)local_storage_item = tab.local_storage(item='key_name')
print(local_storage_item)
相关文章:
【爬虫】DrissionPage-7
官方文档: https://www.drissionpage.cn/browser_control/get_page_info/ 1. 页面信息 📌 html 描述:返回当前页面的 HTML 文本。注意:不包含 <iframe> 元素的内容。返回类型:str 示例: html_co…...
系统架构设计(十二):统一过程模型(RUP)
简介 RUP 是由 IBM Rational 公司提出的一种 面向对象的软件工程过程模型,以 UML 为建模语言,是一种 以用例为驱动、以架构为中心、迭代式、增量开发的过程模型。 三大特征 特征说明以用例为驱动(Use Case Driven)需求分析和测…...
深入解析Java事件监听机制与应用
Java事件监听机制详解 一、事件监听模型组成 事件源(Event Source) 产生事件的对象(如按钮、文本框等组件) 事件对象(Event Object) 封装事件信息的对象(如ActionEvent包含事件源信息…...
QT聊天项目DAY11
1. 验证码服务 1.1 用npm安装redis npm install redis 1.2 修改config.json配置文件 1.3 新建redis.js const config_module require(./config) const Redis require("ioredis");// 创建Redis客户端实例 const RedisCli new Redis({host: config_module.redis_…...
Python训练营---Day29
知识点回顾 类的装饰器装饰器思想的进一步理解:外部修改、动态类方法的定义:内部定义和外部定义 作业:复习类和函数的知识点,写下自己过去29天的学习心得,如对函数和类的理解,对python这门工具的理解等&…...
Flask-SQLAlchemy_数据库配置
1、基本概念(SQLAlchemy与Flask-SQLAlchemy) SQLAlchemy 是 Python 生态中最具影响力的 ORM(对象关系映射)库,其设计理念强调 “框架无关性”,支持在各类 Python 项目中独立使用,包括 Flask、D…...
世界银行数字经济指标(1990-2022年)-社科数据
世界银行数字经济指标(1990-2022年)-社科数据https://download.csdn.net/download/paofuluolijiang/90623839 https://download.csdn.net/download/paofuluolijiang/90623839 此数据集涵盖了1990年至2022年间全球各国的数字经济核心指标,数据…...
Redis进阶知识
Redis 1.事务2. 主从复制2.1 如何启动多个Redis服务器2.2 监控主从节点的状态2.3 断开主从复制关系2.4 额外注意2.5拓扑结构2.6 复制过程2.6.1 数据同步 3.哨兵选举原理注意事项 4.集群4.1 数据分片算法4.2 故障检测 5. 缓存5.1 缓存问题 6. 分布式锁 1.事务 Redis的事务只能保…...
NY337NY340美光固态颗粒NC010NC012
NY337NY340美光固态颗粒NC010NC012 在存储技术的浩瀚星空中,美光的NY337、NY340、NC010、NC012等固态颗粒宛如璀璨星辰,闪耀着独特的光芒。它们承载着先进技术与无限潜力,正深刻影响着存储行业的格局与发展。 一、技术架构与核心优势 美光…...
DAY26 函数定义与参数
浙大疏锦行-CSDN博客 知识点回顾: 1.函数的定义 2.变量作用域:局部变量和全局变量 3.函数的参数类型:位置参数、默认参数、不定参数 4.传递参数的手段:关键词参数 5.传递参数的顺序:同时出现三种参数类型时 函数的定义…...
系统安全及应用
目录 一、账号安全控制 1.基本安全措施 (1)系统账号清理 (2)密码安全控制 (3)历史命令,自动注销 2.用户提权和切换命令 2.1 su命令用法 2.2 sudo命令提权 2.3通过是sudo执行特权命令 二、系统引导和登录控制…...
微信小程序 地图 使用 射线法 判断目标点是否在多边形内部(可用于判断当前位置是否在某个区域内部)
目录 射线法原理简要逻辑代码 小程序代码调试基础库小程序配置地图数据地图多边形点与多边形关系 射线法 原理 使用射线法来判断,目标点是否在多边形内部 这里简单说下,具体细节可以看这篇文章 平面几何:判断点是否在多边形内(…...
第三十七节:视频处理-视频读取与处理
引言:解码视觉世界的动态密码 在数字化浪潮席卷全球的今天,视频已成为信息传递的主要载体。从短视频平台的爆火到自动驾驶的视觉感知,视频处理技术正在重塑人类与数字世界的交互方式。本指南将深入探讨视频处理的核心技术,通过Python与OpenCV的实战演示,为您揭开动态影像…...
什么是 Flink Pattern
在 Apache Flink 中,Pattern 是 Flink CEP(Complex Event Processing)模块 的核心概念之一。它用于定义你希望从数据流中检测出的 事件序列模式(Event Sequence Pattern)。 🎯 一、什么是 Flink Pattern&am…...
ADB基本操作和命令
1.ADB的含义 adb 命令是 Android 官方提供,调试 Android 系统的工具。 adb 全称为 Android Debug Bridge(Android 调试桥),是 Android SDK 中提供的用于管理 Android 模拟器或真机的工具。 adb 是一种功能强大的命令行工具&#x…...
NSString的三种实现方式
oc里的NSString有三种实现方式,为_ _NSCFConstantString、__NSCFString、NSTaggedPointerString 1._ _NSCFConstantString(字面量字符串) 从字面意思上可以看出,_ _NSCFContantString可以理解为常量字符串,这种类型的字符串在编译期就确定了…...
2025年PMP 学习二十 第13章 项目相关方管理
第13章 项目相关方管理 序号过程过程组过程组1识别相关方启动2规划相关方管理规划3管理相关方参与与执行4监控相关方参与与监控 相关方管理,针对于团队之外的相关方的,核心目标是让对方为了支持项目,以达到项目目标。 文章目录 第13章 项目相…...
学习黑客Kerberos深入浅出:安全王国的门票系统
Kerberos深入浅出:安全王国的门票系统 🎫 作者: 海尔辛 | 发布时间: 2025-05-18 🔑 理解Kerberos:为什么它如此重要? Kerberos是现代网络环境中最广泛使用的身份验证协议之一,尤其在Windows Active Dire…...
蓝桥杯19681 01背包
问题描述 有 N 件物品和一个体积为 M 的背包。第 i 个物品的体积为 vi,价值为 wi。每件物品只能使用一次。 请问可以通过什么样的方式选择物品,使得物品总体积不超过 M 的情况下总价值最大,输出这个最大价值即可。 输入格式 第一行输…...
使用 Auto-Keras 进行自动化机器学习
使用 Auto-Keras 进行自动化机器学习 了解自动化机器学习以及如何使用 auto-keras 完成它。如今,机器学习并不是一个非常罕见的术语,因为像 DataCamp、Coursera、Udacity 等组织一直在努力提高他们的效率和灵活性,以便将机器学习的教育带给普…...
算法刷题Day9 5.18:leetcode定长滑动窗口3道题,结束定长滑动窗口,用时1h
12. 1852.每个子数组的数字种类数 1852. 每个子数组的数字种类数 - 力扣(LeetCode) 思想 找到nums 所有 长度为 k 的子数组中 不同 元素的数量。 返回一个数组 ans,其中 ans[i] 是对于每个索引 0 < i < n - k,nums[i..(i …...
Protect Your Digital Privacy: Obfuscate, Don’t Hide
Protect Your Digital Privacy: Obfuscate, Don’t Hide In today’s digital world, hiding completely online is nearly impossible. But you can protect yourself by deliberately obfuscating your personal information — making it harder for others to track, pro…...
Spark 的运行模式(--master) 和 部署方式(--deploy-mode)
Spark 的 运行模式(--master) 和 部署方式(--deploy-mode),两者的核心区别在于 资源调度范围 和 Driver 进程的位置。 一、核心概念对比 维度--master(运行模式)--deploy-mode(部署…...
从零开始实现大语言模型(十五):并行计算与分布式机器学习
1. 前言 并行计算与分布式机器学习是一种使用多机多卡加速大规模深度神经网络训练过程,以减少训练时间的方法。在工业界的训练大语言模型实践中,通常会使用并行计算与分布式机器学习方法来减少训练大语言模型所需的钟表时间。 本文介绍PyTorch中的一种…...
生产模式下react项目报错minified react error #130的问题
这天,线上突然出现了一个bug,某个页面打开空白,看控制台报错minified react error #130,在本地看却是正常的,百思不得其解。 后来发现是由于线上项目它的包更新过了,而我本地的包没有更新,所以我…...
本地无损放大软件-realesrgan-gui
—————【下 载 地 址】——————— 【本章下载一】:https://drive.uc.cn/s/84516041df174 【本章下载二】:https://pan.xunlei.com/s/VOQDybD4ruF0-m8UJrCF-HtLA1?pwdxz9e# 【百款黑科技】:https://ucnygalh6wle.feishu.cn/wiki/…...
Java面试深度解析:微服务与云原生技术应用场景详解
Java面试深度解析:微服务与云原生技术应用场景详解 面试场景 面试官:我们今天的面试会围绕微服务与云原生技术展开,结合一个在线教育平台的业务场景进行提问。希望你放松心态,正常发挥。 码农明哥:好的好的…...
短剧小程序系统开发源码上架,短剧项目市场分析
引言 随着短视频内容消费的爆发式增长,短剧小程序凭借其碎片化、强互动、低成本的特点,成为内容创业与资本布局的新风口。2024年以来,行业规模突破500亿元,预计2027年将超千亿17。本文将深度解析短剧小程序系统开发的技术优势、市…...
常见的请求头(Request Header)参数
1. Accept 作用:告知服务器客户端支持的响应数据格式(如 JSON、XML、HTML)。示例:Accept: application/json(优先接收 JSON 格式数据)。 2. Content-Type 作用:说明请求体的数据格式(…...
渗透测试核心技术:内网渗透与横向移动
内网渗透是红队行动的关键阶段,攻击者通过突破边界进入内网后,需快速定位域控、横向移动并维持权限。本节从内网环境搭建、信息收集、横向移动技巧到权限维持工具,系统讲解如何在内网中隐蔽行动并扩大战果。 1. 内网环境搭建与基础配置 目标: 模拟真实企业网络,构建包含…...
2025/5/18
继续研究一下大佬的RAG项目。开始我的碎碎念。 RAG可以分成两部分:一个是问答,一个是数据处理。 问答是人提问,然后查数据库,把查的东西用大模型组织成人话,回答人的提问。 数据处理是把当下知识库里的东西…...
使用国内源加速Qt在线安装
简介: 在线安装Qt时,会发现下载非常缓慢,可以用过使用国内镜像源来加速安装过程。 在线安装包的下载过程: 1,打开下载页面 https://www.qt.io/download-open-source 2,点击 Download the Qt online ins…...
【图像生成大模型】HunyuanVideo:大规模视频生成模型的系统性框架
HunyuanVideo:大规模视频生成模型的系统性框架 引言HunyuanVideo 项目概述核心技术1. 统一的图像和视频生成架构2. 多模态大语言模型(MLLM)文本编码器3. 3D VAE4. 提示重写(Prompt Rewrite) 项目运行方式与执行步骤1. …...
Java IO流(超详细!!!)
Java IO流 文章目录 Java IO流1.文件相关基础普及1.1 常用文件操作1.3 目录的操作和文件删除 2.IO流原理及流的分类2.1 字节流2.1.1 InputStream:字节输入流2.1.2 OutputStream 2.2 字符流2.2.1 Reader2.2.1 Writer 2.3 节点流和处理流2.3.1节点流2.3.2 处理流2.3.2…...
规则联动引擎GoRules初探
背景说明 嵌入式设备随着物联网在生活和生产中不断渗透而渐渐多起来,数据的采集、处理、分析在设备侧的自定义配置越来越重要。一个可通过图形化配置的数据处理过程,对于加速嵌入式设备的功能开发愈发重要。作为一个嵌入式软件从业者,笔者一…...
Android开发-翻页类视图
在Android应用中,翻页类视图(Paging Views) 是一种非常直观且用户友好的方式来展示内容。无论是用于展示图片轮播、引导页还是分页加载数据列表,翻页效果都能极大地提升用户体验。本文将介绍几种实现翻页效果的常见组件和方法&…...
高能数造闪耀 CIBF 2025,以创新技术引领新能源智造新征程
在全球新能源产业加速发展的关键节点,CIBF 2025 展会成为行业技术与成果交流的重要平台。高能数造(西安)技术有限公司深度参与此次盛会,凭借在新能源电池智能制造领域的深厚积累与创新突破,为行业发展注入强劲动力&…...
数据结构与算法——栈和队列
栈和队列 栈概念与结构栈的实现栈的初始化栈的销毁判断栈是否为空入栈出栈取栈顶元素栈中有效元素个数 队列概念与结构队列的实现队列结点结构队列结构初始化队列队列判空销毁队列入队列,队尾出队列,队头取队头数据取队尾数据队列有效数据个数 栈 概念与…...
新电脑软件配置三 pycharm
快捷键放大和缩小字体 按住ctrl鼠标滚轮向上 缩小同理...
浅入ES5、ES6(ES2015)、ES2023(ES14)版本对比,及使用建议---ES6就够用(个人觉得)
JavaScript(ECMAScript)的发展经历了多个版本,每个版本都引入了新特性和改进。以下仅是对三个常用版本(ES5、ES6(ES2015) 和 ES2023)的基本对比及使用建议: 目前常见项目中还是用ES6…...
【Odoo】Pycharm导入运行Odoo15
【Odoo】Pycharm导入运行Odoo15 前置准备1. Odoo-15项目下载解压2. PsrtgreSQL数据库 项目导入运行1. 项目导入2. 设置项目内虚拟环境3. 下载项目中依赖4. 修改配置文件odoo.conf 运行Pycharm快捷运行 前置准备 1. Odoo-15项目下载解压 将下载好的项目解压到开发目录下 2. …...
【运营商查询】批量手机号码归属地和手机运营商高速查询分类,按省份城市,按运营商移动联通电信快速分类导出Excel表格,基于WPF的实现方案
WPF手机号码归属地批量查询与分类导出方案 应用场景 市场营销:企业根据手机号码归属地进行精准营销,按城市或省份分类制定针对性推广策略客户管理:快速对客户手机号码进行归属地分类,便于后续客户关系管理数…...
中级统计师-统计学基础知识-第四章 假设检验
一、假设检验的基本原理 1. 基本思想 反证法:假设原假设成立,通过样本矛盾性进行反驳小概率原理:设定显著性水平 α \alpha α(通常取 0.05),若观测结果的概率 p ≤ α p \leq \alpha p≤α,…...
等于和绝对等于的区别
1. (等于) 特点:比较时会自动进行类型转换(隐式转换),尝试将两边的值转为相同类型后再比较。规则: 如果类型相同,直接比较值。如果类型不同,按以下规则转换: …...
家庭关系处理个人总结
首先要说到前面的是,每个家庭的成员背景环境经济状况不同,原生家庭差异,导致面临具体问题是不同的。就类似软件“没有银弹”的概念,没有一种方法可以解决每个人问题。 举个例子,面对婆媳矛盾 网上父辈的人 会说 百行孝…...
【Python训练营打卡】day29 @浙大疏锦行
DAY 29 复习日 知识点回顾 1. 类的装饰器 2. 装饰器思想的进一步理解:外部修改、动态 3. 类方法的定义:内部定义和外部定义 作业:复习类和函数的知识点,写下自己过去29天的学习心得,如对函数和类的理解,…...
React 19版本refs也支持清理函数了。
文章目录 前言一、refs 支持清理函数二、案例演示1.useEffect写法2.React 19改进 的ref写法 总结 前言 React 19版本发布了ref支持清理函数了,这样就可以达到useEffect一样的效果了。为啥需要清理函数呢,这是因为节约内存。 清理事件监听(避…...
uniapp的适配方式
文章目录 前言✅ 一、核心适配方式对比📏 二、rpx 单位:uni-app 的核心适配机制🧱 三、默认设计稿适配(750宽)🔁 四、字体 & 屏幕密度适配🛠 五、特殊平台适配(底部安全区、刘海…...
Java面试场景:从音视频到AI应用的技术探讨
面试场景:音视频与AI应用技术的碰撞 在某互联网大厂的面试中,面试官王先生与求职者明哥展开了一场关于音视频技术与AI应用的对话。 第一轮提问:音视频场景 面试官:明哥,你能谈谈在音视频场景中,Spring B…...
es聚合-词条统计
es语句 ---普通结构----"tags":{"type": "keyword","index": true},GET /knowledge_test/_search {"size": 0,"aggs": {"tag_count": {"terms": {"field": "tags",&quo…...