[网络爬虫] 动态网页抓取 — Selenium 介绍 环境配置
🌟想系统化学习爬虫技术?看看这个:[数据抓取] Python 网络爬虫 - 学习手册-CSDN博客
0x01:Selenium 工具介绍
Selenium 是一个开源的便携式自动化测试工具。它最初是为网站自动化测试而开发的,类似于我们玩游戏用的按键精灵,可按照预先设定的指令进行自动化操作。但不同的是,Selenium 支持与所有主流的浏览器(如 Chrome、Firefox、Edge、IE 等)配合使用,当然,也包括如 PhantomJS、Headless Chrome 等一些无界面的浏览器。
Selenium 可以直接运行在浏览器中,模拟用户使用浏览器完成一些动作,包括自动加载页面、输入文本、选择下拉列表框中的选项、单机按钮、单机超链接等。
0x02:Selenium & WebDriver 环境配置
在使用 Selenium 抓取动态网页之前,我们需要在计算机上安装 Selenium 和配合它使用的浏览器驱动 WebDriver。为了避免在后续的网络爬虫程序中重复指定 WebDriver 的执行路径,我们还需要为 WebDriver 配置环境变量。
0x0201:环境配置 — Selenium
Selenium 的安装十分简单,直接使用 pip
命令即可,具体的安装命令如下:
pip install selenium==3.141.0
因为笔者的机器中是安装过了的,所以会出现 “Requirement already satisfied” 的字段,读者运行上述命令后应该会出现 “Successfully Installed Selenium” 字段。如果读者安装过慢,可能是 Python 镜像仓库的源没有换导致的,建议手动搜索 “Python 换源”,将仓库源换为国内的。
另外,目前最新的 Selenum 应该已经到 4 版本了,但是 4 版本的 Selenium 语法相较于 3 有很大的改变,笔者后续的笔记是基于 3 版本的(够用了)。所以,如果后续你运行笔者的程序出错了,建议先排查一下自己安装的 Selenium 的版本信息。
0x0202:环境配置 — WebDriver
WebDriver 即浏览器驱动程序,用于实现 Selenium 与浏览器之间的交互。不同的浏览器使用的驱动程序不同,常见的浏览器机器对应的驱动程序如下表所示:
浏览器 | 驱动程序 | 下载路径 |
---|---|---|
Chromium/Chrome | ChromeDriver | GoogelChromeDriver 下载(需要魔法) |
FireFox | GeckoDriver | GeckoDriver 下载 |
Edge | MicrosoftWebDriver | Microsoft Edge 下载 |
IE | IEDriverServer | IEDriverServer 下载 |
Opera | OperaChromiumDriver | |
Safari | SafariDriver |
Selenium+WebDriver 各浏览器驱动下载与使用 - 苏念雨 - 博客园Selenium + Python 之 WebDriver 驱动下载与使用 一、Firefox(火狐)浏览器驱动 下载地址:https://github.com/mozilla/geckodriver/releases/ 下载对应驱动:根据自己的操作系统下载相对应的驱动。 使用方法:把文件存放在 p
https://www.cnblogs.com/sunisnyu/p/18442541
需要注意的是,不同版本的浏览器驱动程序支持的浏览器版本也不同。我们在下载浏览器驱动程序之前,需要先查看当前浏览器的版本号(这也是为啥,明明程序没问题,但是死活无法打开浏览器的情况)。
接下来,笔者以 Chrome 浏览器为例,为大家演示如何安装 Chrome 浏览器的驱动程序。
1. 查看 Chrome 浏览器版本
打开 Chrome 浏览器,然后访问下面的页面,即可看到当前 Chrome 浏览器的内核版本:
chrome://settings/help
2. 选择对应版本的 WebDriver
看到我们当前的浏览器版本 134.0 后,我们来到 Google Chrome 官方页面,查找对应的 Chrome:
https://developer.chrome.google.cn/docs/chromedriver/downloads?hl=zh-cn
点击页面上的 “Chrome 115 及更高版本” 后它会跳转到如下界面,我们选择对应的版本 “134”:
https://googlechromelabs.github.io/chrome-for-testing/
如下,我们选择适合自己平台的对应版本的 Chrome Driver 即可,将链接复制下来直接访问,就可以下载了:
将下载下来的 ChromDriver 解压,可以看到里面包含一个 chromedriver.exe 程序,这个程序就是我们需要的 WebDriver 了,该 WebDriver 专门用于驱动 Chrome 浏览器:
3. 将 WebDriver 添加到环境变量中(可选)
在程序中使用 WebDriver 时,既可以显式地指定 WebDriver 所在的执行目录,也可以将 WebDriver 配置到系统环境变量中。将 WebDriver 配置到系统环境变量中以后,在程序中再次使用 WebDriver 时,就不需要重复指定 WebDriver 的执行路径了。下面笔者以 ChromeDriver 为例,为大家演示如何将 ChromeDriver 配置到环境变量中。
在系统中直接搜索 “环境变量”,点击下面框出来的内容:
然后单机 “环境变量”,在 “系统变量” 中找到 “Path” 变量,将我们解压的 ChromeDriver 的路径黏贴进去:
然后一路点击 “确定” 退出。最后,按下 Win + R 输入 CMD,打开命令行窗口,输入下面的内容,若命令后出现 ChromeDriver 当前的版本,则说明环境配置成功:
chromedriver -version
0x03:Selenium & WebDriver 环境检测
当你按照上述流程配置完 Selenium & WebDriver 环境后,可以新建一个 .py
文件,并输入下面的代码尝试运行一下,如果能运行成功,那么恭喜你,可以开启 Selenium 自动化之旅了:
from selenium import webdriver # 导入 selenium 库
# 实例化一个浏览器对象
driver = webdriver.Chrome()
# 尝试访问 baidu.com
driver.get('https://www.baidu.com/')
# 让浏览器全屏
driver.maximize_window()
### 下面两个是用来关闭浏览器的,你可以依次取消注释然后运行看看
# driver.close() # 关闭当前页面
# driver.quit() # 退出浏览器
相关文章:
[网络爬虫] 动态网页抓取 — Selenium 介绍 环境配置
🌟想系统化学习爬虫技术?看看这个:[数据抓取] Python 网络爬虫 - 学习手册-CSDN博客 0x01:Selenium 工具介绍 Selenium 是一个开源的便携式自动化测试工具。它最初是为网站自动化测试而开发的,类似于我们玩游戏用的按…...
MySQL数据库操作
目录 SQL语句 1、SQL的背景 2、SQL的概念 SQL的分类 SQL的书写规范 MySQL数据库 1、MySQL数据库的编码 (1)utf8和utf8mb4的区别 (2)MySQL的字符集 (3)MySQL默认编码为 latin1 ,如何更改…...
java之uniapp实现门店地图
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、后台实现1. 获取门店的经纬度2.api查询对应的sql 二 、小程序实现 前言 实现查询门店地址的功能,可以按照距离排序。使用技术:java…...
Git基本概念及使用
目录 一、git安装 二、git仓库基本概念 1. 远程仓库(Remote): 2. 本地库(Repository): 3. 分支(Branch): 4.本地库和远程库的关系 三、git仓库的工作流程 四、gi…...
游戏引擎学习第147天
仓库:https://gitee.com/mrxiao_com/2d_game_3 上一集回顾 具体来说,我们通过隐式计算来解决问题,而不是像数字微分分析器那样逐步增加数据。我们已经涵盖了这个部分,并计划继续处理音量问题。不过,实际上我们现在不需要继续处理…...
docker私有仓库配置
基于 harbor 构建docker私有仓库 1、机器准备 os:openEuler 、rockylinux mem:4G disk:100G 2、关闭防火墙、禁用SELinux 3、安装docker和docker-compose yum install docker-ce -y配置加速 vim /etc/docker/d…...
PostgreSQL 18新特性之虚拟生成列
PostgreSQL 12 提供了生成列(GENERATED ALWAYS AS STORED)功能,但是只能支持存储型的生成列,需要占用存储空间,更新成本高。 为此,PostgreSQL 18 即将引入一个新的增强:虚拟生成列。这种类型的…...
燃气对我们生活的重要性体现在哪里?
燃气在我们的生活中有 多方面的重要性 ,以下是燃气对我们生活的重要性的详细说明: 烹饪和热水供应 : 燃气是家庭烹饪的主要能源,能够快速、高效地加热食物,使家庭聚餐更加便捷和愉快。 燃气热水器能够在短时间内提供…...
简易分析 uni.chooseImage 拍照上传的基本知识点(附Demo)
目录 前言1. 基本知识2. Demo 前言 🤟 找工作,来万码优才:👉 #小程序://万码优才/r6rqmzDaXpYkJZF 基本的介绍也可看官网:uni.chooseImage(options) 以下知识点主要用于学习了解,从实战中出发 1. 基本知识…...
私域流量时代的创新实践:以定制开发开源AI智能名片与S2B2C商城小程序源码为例的深度研究
摘要:在数字化转型的浪潮中,私域流量已成为企业获取用户、增强品牌影响力及实现销售转化的关键路径。本文首先概述了私域流量的概念及其重要性,随后通过分析故宫文创、B站跨年晚会及美妆品牌“完美日记”的成功案例,深入探讨了私域…...
preloaded-classes裁剪
系统预加载了哪些class类?system/etc/preloaded-classes 修改源代码? frameworks\base\config\preloaded-classes 默认位置,如果改了不生效,可能有其它模块的mk文件指定了preloaded-classes覆盖了framework模块,例如…...
JavaScript性能优化实战
在 JavaScript 开发中,性能优化是一个至关重要的方面,它可以提升应用的响应速度、减少资源消耗,从而提供更好的用户体验。以下是从多个方面进行 JavaScript 性能优化的详细实战内容: 1. 代码加载优化 1.1 异步加载脚本 使用 as…...
文件和异常
从文件中读取数据 读取整个文件 读取整个文件 要读取文件,需要一个包含几行文本的文件。下面首先创建一个文件,它包含精确 到小数点后30位的圆周率值,且在小数点后每10位处换行: pi_digits.txt 3.14159265358979323846264338…...
【AI大模型】LLM训练deepseek如何识别视频
要让像DeepSeek这样的大语言模型(LLM)具备视频识别能力,需要结合多模态学习技术,将视觉信息与文本语义进行融合。以下是实现这一目标的关键步骤和技术要点: --- 一、视频识别的核心挑战 1. 多模态数据:视频…...
【机械视觉】C#+VisionPro联合编程———【五、硬币检测小项目实现(C#+VisionPro联合编程和csv文件格式操作)】
【机械视觉】C#VisionPro联合编程———【五、硬币检测小项目实现(C#VisionPro联合编程和csv文件格式操作)】 项目介绍 总共有十二张检测的图片,当点击检测按钮时检测当前展示的图片并且将检测效果展示在表格中,当点击上一页或下一页时换检测图片&…...
空间域与频域图像处理
第一部分:空间域图像处理(Part 1) 1. 点操作(Pixel-wise Operations) 定义:仅基于单个像素的灰度值进行变换,不依赖邻域信息。 常见操作: 2. 邻域操作(Neighborhood O…...
使用DeepSeek+蓝耘快速设计网页简易版《我的世界》小游戏
前言:如今,借助先进的人工智能模型与便捷的云平台,即便是新手开发者,也能开启创意游戏的设计之旅。DeepSeek 作为前沿的人工智能模型,具备强大的功能与潜力,而蓝耘智算云平台则为其提供了稳定高效的运行环境…...
使用 React 和 Ant Design 处理 Excel 和 CSV 文件
在现代 Web 开发中,文件上传和解析是常见的需求。本文将介绍如何使用 React 和 Ant Design 库来处理 Excel 和 CSV 文件的上传,并将提取的表头信息展示在表格中。 1. 项目基础 确保你已经创建了一个 React 项目,并安装了必要的依赖。可以使…...
js 使用 Web Workers 来实现一个精确的倒计时,即使ios手机锁屏或页面进入后台,倒计时也不会暂停。
## 效果如上 <!-- 将 main.js 和 worker.js 放在同一个目录下,然后在 HTML 文件中引入 main.js --><!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content&q…...
Java中的常用关键字
目录 static关键字 (1)static修饰成员变量 (2)static修饰成员方法 super和this关键字 super关键字 示例1:使用super调用父类的构造器 示例2:使用super访问父类的方法 示例3:使用super访问…...
pytest数据库测试文章推荐
参考链接: 第一部分:http://alextechrants.blogspot.fi/2013/08/unit-testing-sqlalchemy-apps.html第二部分:http://alextechrants.blogspot.fi/2014/01/unit-testing-sqlalchemy-apps-part-2.html...
ubuntu20.04 使用linuxdeployqt打包一个QT程序
问题描述:ubuntu 打包一个QT程序 解决方法: 1.安装linuxdeployqt linuxdeployqt的github网址:linuxdeplyoqt 我下载好了,适合大家的直接拿,已经改好名字为linuxdeployqt 链接: https://pan.baidu.com/s/1r25aVwRAh-sx4ksadj6…...
⭐算法OJ⭐经典题目分类索引(持续更新)
在编程竞赛和算法学习中,Online Judge(OJ)平台是程序员们磨练技能的重要工具。OJ平台上的题目种类繁多,涵盖了从基础数据结构到复杂算法的各个方面。为了更好地理解和掌握这些题目,对其进行分类是非常有必要的。这篇索…...
Redis-缓存穿透击穿雪崩
1. 穿透问题 缓存穿透问题就是查询不存在的数据。在缓存穿透中,先查缓存,缓存没有数据,就会请求到数据库上,导致数据库压力剧增。 解决方法: 给不存在的key加上空值,防止每次都会请求到数据库。布隆过滤器…...
mac使用Homebrew安装miniconda(mac搭建python环境),并在IDEA中集成miniconda环境
一、安装Homebrew mac安装brew 二、使用Homebrew安装miniconda brew search condabrew install miniconda安装完成后的截图: # 查看是否安装成功 brew list环境变量(无需手动配置) 先执行命令看能不能正常返回,如果不能正常…...
tomcat应用的作用以及安装,以及tomcat软件的开机自启动。
一.tomcat介绍 1.作用 tomcat是一款用来部署网站服务器的一款软件。 动态网站主流语言: PHP, lamp/lnmp平台 Java语言,运行在tomcat平台。【只要这个网站或者软件是Java语言写的,我们都可以在tomcat平台上去运行这个java程序。】 网站是…...
Javascript基础语法详解
面向对象的语言.脚本语言,不需要编译,浏览器解释即可运行 .用于控制网页的行为.浏览器的source可以打断点调试, console输入代码可以执行 use strict指令: 在“严格模式”下运行js代码, 防止意外创建全局变量等, 提高代码安全性和执行效率. 使用: 全局严格模式:…...
网络编程(师从韩顺平)
文章目录 续写前面没有提到的内容自定义线程JVM,JDK,JREJava 核心机制-Java 虚拟机 [JVM java virtual machine]JDKJREJDK、JRE 和 JVM 的包含关系 Java 技术体系平台 网络的相关概念网络通信网络Ip 地址ipv4 地址分类域名网络通信协议TCP 和 UDP InetAddress 类相关方法应用案…...
HTML嵌入CSS样式超详解(尊享)
一、行内样式(Inline CSS) 1. 定义与语法 行内样式是直接在HTML标签中使用style属性来定义样式。这种方式只对当前标签生效。 <tagname style"css 样式">2. 示例 <p style"color: red; font-size: 14px;">这是一个红…...
AI开源竞赛与硬件革命:2025年3月科技热点全景解读——阿里、腾讯领跑开源,英特尔、台积电重塑算力格局
目录 开源生态:阿里与腾讯的“技术对决” 1. 阿里云QwQ-32B:小参数撬动大性能的技术革命 2. 腾讯混元:视频创作的普惠化尝试 AI硬件与算力:全球供应链的“新战场” 1. 英特尔商用AI PC:端侧算力突围 2. 台积电千…...
无头浏览器与请求签名技术-Cloudflare防护
在实际数据采集实践中,许多目标网站(例如 Amazon)都会采用 Cloudflare 等防护措施,防止机器人和非正常流量。本文将分享一个故障场景下的排查与改进方案,讲述如何利用无头浏览器、请求签名技术以及爬虫代理 IP来实现数…...
6.聊天室环境安装 - Ubuntu22.04 - elasticsearch(es)的安装和使用
目录 介绍安装安装kibana安装ES客户端使用 介绍 Elasticsearch, 简称 ES,它是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,res…...
【NexLM 开源系列】让 AI 聊天更丝滑:SSE 实现流式对话!
🌟 在这系列文章中,我们将一起探索如何搭建一个支持大模型集成项目 NexLM 的开发过程,从 架构设计 到 代码实战,逐步搭建一个支持 多种大模型(GPT-4、DeepSeek 等) 的 一站式大模型集成与管理平台ÿ…...
具备多种功能的PDF文件处理工具
软件介绍 在日常办公和学习场景中,PDF文件使用极为频繁,而一款功能强大的PDF编辑软件能大幅提升处理效率。 今天要介绍的Adobe Acrobat Pro DC 2024.005.20414,就具备像编辑Word文档一样便捷编辑PDF的能力。 PDF文档在学习和工作中广泛应用…...
electron+vue+webview内嵌网页并注入js
vue内嵌网页可以使用iframe实现内嵌网页,但是只能通过postMessage间接通信,在electron环境下,vue可以直接使用webview来内嵌网页,支持 executeJavaScript、postMessage、send 等丰富的通信机制。 使用 webview的优势 性能更佳&…...
机器学习常见面试题
常见基模型 1. 线性模型(Linear Models) 特点:通过线性组合特征进行预测,适合处理线性关系。常见类型: 线性回归(Linear Regression)逻辑回归(Logistic Regression)岭回…...
单片机OTA升级中Bootloader怎么判断APP有没有问题?
没开发过OTA的工程师,职业生涯是不完整的。因为它能让设备远程更新功能,太方便了,产品有了这个功能,再也不会跟硬件工程师一起背锅了。 不过,新手玩OTA,搞不好,也会翻车,比如下载过程…...
《OpenCV》—— dlib(换脸操作)
文章目录 dlib换脸介绍仿射变换在 dlib 换脸中的应用 换脸操作 dlib换脸介绍 dlib 换脸是基于 dlib 库实现的一种人脸替换技术,以下是关于它的详细介绍: 原理 人脸检测:dlib 库中包含先进的人脸检测器,如基于 HOG(方向…...
从零开始实现大语言模型(十三):预训练大语言模型GPTModel
1. 前言 使用梯度下降算法通过下一个token预测任务预训练大语言模型GPTModel,前向传播流程每次会输入一个batch的长度均为context_len的训练样本,执行 batch_size context_len \text{batch\_size}\times\text{context\_len} batch_sizecontext_len次下…...
[C++面试] 对通透比较器了解多少?(较少涉及,可跳过)
一、入门 1、什么是比较器 在 C 中,比较器是一个可调用对象(函数、函数对象或 Lambda 表达式),用于定义元素之间的比较规则。 用途:通常作为参数传递给标准库中的排序函数或关联容器,以指定元素的顺序。…...
【高分论文密码】AI大模型和R语言的全类型科研图形绘制,从画图、标注、改图、美化、组合、排序分解科研绘图每个步骤
在科研成果竞争日益激烈的当下,「一图胜千言」已成为高水平SCI期刊的硬性门槛——数据显示很多情况的拒稿与图表质量直接相关。科研人员普遍面临的工具效率低、设计规范缺失、多维数据呈现难等痛点,因此科研绘图已成为成果撰写中的至关重要的一个环节&am…...
el-input-number添加自定义内容class-unit
在el-input,el-input-number中有需要在输入框后面添加单位的需求,这时候就需要用到class-unit <el-input-number size"small" class-unit"%" class"inputNumberClass"></el-input-number>// css .inputNumberClass[clas…...
MYSQL学习笔记(十一):MYSQL数据类型讲解
前言: 学习和使用数据库可以说是程序员必须具备能力,这里将更新关于MYSQL的使用讲解,大概应该会更新30篇,涵盖入门、进阶、高级(一些原理分析);这一篇数据类型,比较多,但是我感觉了解即可,ai时…...
【数据分享】1999—2023年我国地级市社会消费品零售总额和年末金融机构存贷款余额(Shp/Excel格式)
在之前的文章中,我们分享过基于2000-2024年《中国城市统计年鉴》整理的1999-2023年地级市的人口相关数据、染物排放和环境治理相关数据和房地产投资情况和商品房销售面积相关指标数据(均可查看之前的文章获悉详情)! 本次我们分享…...
使用 MyBatis-Plus 实现数据库的多租户管理
在现代 SaaS(软件即服务)应用中,多租户架构是一种常见的设计模式。它允许多个租户共享同一个应用实例,同时确保每个租户的数据相互隔离。MyBatis-Plus 提供了强大的多租户支持,能够帮助开发者轻松实现多租户管理。本文…...
大语言模型学习--向量数据库基础知识
1.向量 向量是多维数据空间中的一个坐标点。 向量类型 图像向量 文本向量 语音向量 Embedding 非结构化数据转换为向量过程 通过深度学习训练,将真实世界离散数据,投影到高维数据空间上,通过数据在空间中间的距离体现真实世界的相似度 V…...
计算机三级网络技术备考(5)
第七章:路由器及其配置 考点1:路由器概述及其工作原理 考点2:路由器工作模式及基础配置 考点3:路由器的接口配置 【sdh 0 2 sonet 0】 考点4:路由器的路由配置 考点5:路由器DHCP配置 考点6:…...
Java关键字与标识符
Java关键字是预定义的保留字,用于定义程序结构和语义,如if、for、class等,不能用作标识符。JDK 8有50个关键字,JDK 11引入var用于局部变量类型推断。标识符用于命名变量、类等,由字母、数字、_、$组成,不能…...
生活小妙招之UE ViewPortUV-SceneTextureUV
后处理材质customNode中写SceneTextureLookup遇到了一些问题,做做记录 比如要在custom中写一个普通的镜像模糊,脑子都不带转的上来就直接这么写了,像是顺理成章的就应该这么写,并且网上随便搜UE咋写镜像模糊估计都是这样式的。 但…...
FB投广探秘:为何Facebook广告账户不消耗
在Facebook上投放广告时,您是否遇到过这种情况:广告创建完成后却发现账户没消耗,广告没跑出去?为什么会遇到这种情况?小编将结合最新行业动态,为你解析广告为何无消耗。 一、原因解析 1、账户余额不足 最直接的原因往往最容易被忽视。若…...