当前位置: 首页 > news >正文

浏览器自动化检测对抗:修改navigator.webdriver属性的底层实现

爬虫代理


一、背景介绍:你被自动化检测拒之门外了吗?

在使用 Selenium 或 Playwright 等浏览器自动化工具爬取数据时,经常会遇到「被检测」问题,尤其像 Amazon 这样反爬策略严密的网站。常见的检测机制之一就是检查 JavaScript 中的 navigator.webdriver 属性:

console.log(navigator.webdriver); // true:表明是自动化工具

因此,本文将带你深入了解如何在浏览器中底层修改该属性,并结合代理、Cookie、User-Agent 技术,实现一个能顺利爬取 Amazon 网站商品信息的反检测爬虫。


二、环境准备

1. 安装依赖

pip install undetected-chromedriver selenium requests

我们使用 undetected-chromedriver 代替原生 Selenium 驱动,内置多种反检测机制,更适合应对大型网站的反爬。

2. 爬虫代理信息(请替换为你的真实账户信息)

# 配置代理 亿牛云爬虫代理 www.16yun.cn
proxy_host = "proxy.16yun.cn"
proxy_port = "8010"
proxy_user = "16YUN"
proxy_pass = "16IP"

三、核心步骤

✅ 第一步:配置无痕浏览器并隐藏 webdriver

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import timedef create_stealth_driver(proxy_host, proxy_port, proxy_user, proxy_pass, user_agent, cookies):options = Options()options.add_argument(f"user-agent={user_agent}")options.add_argument("--disable-blink-features=AutomationControlled")# 配置爬虫代理options.add_argument(f'--proxy-server=http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}')# 启动无头浏览器(也可以关闭无头方便调试)# options.add_argument('--headless')# 创建驱动import undetected_chromedriver as ucdriver = uc.Chrome(options=options)# 修改 webdriver 属性(核心)driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")# 设置 cookiedriver.get("https://www.amazon.com")for cookie in cookies:driver.add_cookie(cookie)return driver

✅ 第二步:模拟搜索关键词并采集信息

def scrape_amazon(keyword):user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"cookies = []  # 可以从浏览器复制一组,也可通过登录获取driver = create_stealth_driver(proxy_host, proxy_port, proxy_user, proxy_pass, user_agent, cookies)driver.get(f"https://www.amazon.com/s?k={keyword}")time.sleep(3)products = driver.find_elements(By.XPATH, "//div[@data-component-type='s-search-result']")for product in products[:10]:  # 只取前10条数据举例try:title = product.find_element(By.TAG_NAME, "h2").textprice_whole = product.find_element(By.CLASS_NAME, "a-price-whole").textprice_frac = product.find_element(By.CLASS_NAME, "a-price-fraction").textprice = f"{price_whole}.{price_frac}"reviews = product.find_element(By.XPATH, ".//span[@class='a-size-base']").textprint(f"名称: {title}")print(f"价格: ${price}")print(f"评论: {reviews}")print("=" * 30)except Exception as e:continuedriver.quit()

四、完整代码汇总

# 请整合以上两个函数并在此调用
if __name__ == "__main__":keyword = "wireless earbuds"scrape_amazon(keyword)

五、常见错误分析

错误提示原因解决方案
selenium.common.exceptions.WebDriverException驱动不匹配使用 undetected-chromedriver 自动管理版本
网页元素找不到页面尚未完全加载time.sleep() 或 WebDriverWait
显示“访问过于频繁”IP 被封更换代理 IP,使用优质高匿代理
无法设置 Cookie页面未打开或未加载完成先访问目标页面,再添加 Cookie

六、总结与提升

本文以 Amazon 网站为例,讲解了如何通过底层 JS 技巧对抗自动化检测,关键点在于:

  • 使用 undetected-chromedriver 替代传统 Selenium;
  • 修改 navigator.webdriver 属性隐藏自动化痕迹;
  • 配合代理、User-Agent 和 Cookie 构建可信环境;
  • 页面加载等待 + XPath 精准提取实现结构化采集。

相关文章:

浏览器自动化检测对抗:修改navigator.webdriver属性的底层实现

一、背景介绍:你被自动化检测拒之门外了吗? 在使用 Selenium 或 Playwright 等浏览器自动化工具爬取数据时,经常会遇到「被检测」问题,尤其像 Amazon 这样反爬策略严密的网站。常见的检测机制之一就是检查 JavaScript 中的 navig…...

聊聊Spring AI Alibaba的DocumentParser

序 本文主要研究一下Spring AI Alibaba的DocumentParser DocumentParser spring-ai-alibaba-core/src/main/java/com/alibaba/cloud/ai/document/DocumentParser.java public interface DocumentParser {/*** Parses a given {link InputStream} into a {link Document}. T…...

用css给div列表加个序号

用 CSS 的 counter 相关属性来为列表添加序号。以下是具体的代码,我将以 HTML 文件的形式提供,并且会运行展示效果: .as-div {// counter-reset: my-counter; /* 计数器名称是my-counter */// counter-reset: small-apple; /* 计数器名称是s…...

CSS标签选择器与类选择器

CSS标签选择器 标签选择器(元素选择器)是最基本的选择器之一,用于选择HTML文档中的特定标签元素并应用样式。它使用HTML标签名称作为选择器,选择匹配该标签的所有元素。 作用:通过HTML标签名选择元素 以下是CSS标签选…...

(51单片机)LCD显示日期时间时钟(DS1302时钟模块教学)(LCD1602教程)

目录 源代码 main.c LCD1602.c LCD1602.h DS1302.c DS1302.h 代码解析与教程: LCD1602模块 DS1302模块 效果视频: 源代码 如上图将5个文放在Keli5 中即可,然后烧录在单片机中就行了 烧录软件用的是STC-ISP,不知道怎么安装的…...

编译原理(自考13007)

资源内容 大纲 概述...

C#Winform程序将子窗体嵌入容器方法

private void OpenForm(Form childFrom) { //首先判断容器中是否有其他的窗体 foreach (Control item in this.panelRight.Controls) { if (item is Form) { ((Form)item).Close(); } } //嵌入新的窗体 childFrom.TopLevel false;//将子窗体设置成非顶级控件 childFrom.Parent…...

WPS JS宏编程教程(从基础到进阶)-- 第八部分:字符串技术与WPS结合应用

目录 第8章 字符串技术与WPS结合应用8-1 字符串的3种引用方式场景:动态生成报表标题三种引用方式对比代码解析表模板字符串核心优势8-2 字符串处理之切片与搜索场景:提取身份证中的出生年份三大截取方法对比方法选择指南索引搜索实战8-3 字符串处理之修改与填充场景:规范商品…...

WPS Office安卓版文档编辑功能与兼容性评测【高效编辑】

一、界面设计与操作体验 WPS Office安卓版采用简洁直观的界面设计,首页默认展示近期文档列表,支持一键新建文档、表格或演示文稿。整体操作逻辑与PC端保持一致,新用户也能快速上手。编辑工具栏设计合理,常用功能如字体设置、段落…...

【经验记录贴】使用配置文件提高项目的可维护性

mark一下。 整体修改前后如下: 课题: 在项目中有一个支持的文件类型的FILE_TYPE的定义, 这个是写死在主程序中,每次增加可以支持的文件类型的时候,都需要去修改主程序中这个FILGE_TYPE的定义。 主程序修改其实不太花时…...

传统建筑管理人力成本高,楼宇自控系统如何有效降低运营成本

在传统建筑管理模式下,人力成本一直居高不下,成为建筑运营方沉重的负担。从设备的日常巡检、维护,到环境的调控以及能源的管理,无一不需要大量人力投入。然而,随着科技的飞速发展,楼宇自控系统应运而生&…...

RabbitMQ demo案例

1. 下载和安装 RabbitMQ RabbitMQ 依赖 Erlang 运行时,所以得先装 Erlang,再装 RabbitMQ。下面以 Ubuntu 为例,Windows 和 macOS 也顺便提一下。 1.1 安装 Erlang RabbitMQ 需要 Erlang 支持,先装它。 Windows: 去 Erl…...

第T8周:猫狗识别

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 第T8周:猫狗识别 tf.config.list_physical_devices(“GPU”),用于检测当前系统是否有可用的 GPU,并将结果存入 gpus 变量。…...

旅游特种兵迪士尼大作战:DeepSeek高精准路径优化

DeepSeek大模型高性能核心技术与多模态融合开发 - 商品搜索 - 京东 随着假期的脚步日渐临近,环球影城等备受瞩目的主题游乐场,已然成为大人与孩子们心中不可或缺的节日狂欢圣地。然而,随之而来的庞大客流,却总让无数游客在欢乐的…...

ffmpeg-将多个视频去掉音频 然后切片组合成一个视频,再将新视频配置上新的音频

需求分解 1、去除原视频的音频轨道。 2、对去掉音频的视频进行切片。 3、将多个视频切片合并为一个新视频。 4、给新的视频添加新的音频轨道。 去除视频音频 要去除视频中的音频,只需使用以下命令 ffmpeg -i input1.mp4 -an -c:v copy output1_no_audio.mp4解释&a…...

05-微服务可观测性体系建设:从日志、监控到链路追踪实战指南

微服务可观测性体系建设:从日志、监控到链路追踪实战指南 一、可观测性:微服务架构的 “神经系统” 1.1 为什么需要可观测性? 在分布式微服务架构中,服务节点可能达数百个,请求链路跨越多服务、数据库、消息队列&am…...

音视频小白系统入门笔记-0

本系列笔记为博主学习李超老师课程的课堂笔记&#xff0c;仅供参阅 音视频小白系统入门课 音视频基础ffmpeg原理 绪论 ffmpeg推流 ffplay/vlc拉流 使用rtmp协议 ffmpeg -i <source_path> -f flv rtmp://<rtmp_server_path> 为什么会推流失败&#xff1f; 默认…...

基于 PyTorch 的 LSTM 实现降雨量预测

基于 PyTorch 的 LSTM 实现降雨量预测示例。包括数据准备、模型定义、训练和预测等。 文章目录 1. 数据准备:2. 模型定义:3. 训练过程:4. 预测和评估:5. 可视化:代码实现1. 数据准备: 使用随机生成的数据作为示例,实际应用中请替换为真实数据。数据被归一化到 [0, 1] 范…...

Spring-Bean的生命周期

一、什么是Bean生命周期&#xff1f; Spring容器中的Bean从创建到销毁的完整过程被称为Bean生命周期&#xff0c;包含实例化→属性注入→初始化→使用→销毁五个核心阶段。Spring提供了丰富的扩展点&#xff0c;允许开发者在各阶段插入自定义逻辑。 二、Bean生命周期全流程&am…...

AI大模型如何重塑科研范式:从“假说驱动”到“数据涌现”

📝个人主页🌹:慌ZHANG-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、引言:科研进入“模型共研”时代 传统科研范式通常以“假设→实验→验证→理论”的方式推进,这一经典路径建立在人类的认知能力与逻辑推理基础上。然而,随着数据规模的爆炸式增长与知识系统的高度复杂…...

yml文件上传并映射到实体类

文章目录 功能背景功能需要前端开发组件选用组件嵌套和参数绑定上传逻辑示例 后端开发接收逻辑解析逻辑省流纯手动实现&#xff08;不建议&#xff09; 功能背景 开发一个配置文件解析功能&#xff0c;需要兼容老版本的配置文件。 功能需要 前端&#xff1a;两个配置文件分别…...

What are the advantages of our neural network inference framework?

What are the advantages of our neural network inference framework? 1. Background2. What are the advantages of our neural network inference framework?References 1. Background Let me introduce /ˌɪntrəˈdjuːs/ the background /ˈbkɡraʊnd/ first. Today…...

猿辅导集团推首个教育AI范式小猿AI 聚焦家校应用场景发布3款新品

近两年&#xff0c;通用大模型呈爆发式发展&#xff0c;垂类AI遭遇“技术平替”危机。 4月15日&#xff0c;猿辅导集团在“小猿AI暨智能硬件战略发布会”上&#xff0c;正式推出首个教育AI范式——“小猿AI”&#xff0c;并发布覆盖家校两端的“软件应用智能终端通识课程”三位…...

10【模块学习】LCD1602(二):6路温度显示+实时时钟

项目&#xff1a;6路温度显示实时时钟 1、6路温度显示①TempMenu.c文件的代码②TempMenu.h文件的代码③main.c文件的代码④Timer.c文件的代码⑤Delay.c文件的代码⑥Key.c文件的代码 2、实时时钟显示①BeiJingTime.c文件的代码②BeiJingTime.h文件的代码③main.c文件的代码如下④…...

Embedding在RAG中的核心作用及其几何类比-来自DeepSeek

1. 核心概念映射 Embedding的本质&#xff1a;将文本、图像等非结构化数据转化为高维空间中的坐标点&#xff08;向量&#xff09;&#xff0c;例如&#xff1a; 句子A → 向量 [0.2, -1.5, 3.0, ..., 0.7]&#xff08;假设维度为768&#xff09; 句子B → 向量 [0.3, -1.4, 2…...

前端快速入门——JavaScript函数、DOM

1.JavaScript函数 函数是一段可重复使用的代码块&#xff0c;它接受输入(参数)、执行特定任务&#xff0c;并返回输出。 <scricpt>function add(a,b){return ab;}let cadd(5,10);console.log(c); </script>2.JavaScript事件 JavaScript绑定事件的方法&#xff1…...

AOSP14 Launcher3——最近任务TaskViewSimulator详解

前言&#xff1a;TaskViewSimulator 这个类在最近任务中起到了一个非常重要的作用。 从字面意思上理解&#xff0c;这个单词是由TaskViewSimulator组合而来&#xff0c;字面意思就是TaskView的模拟器&#xff0c;顾名思义&#xff0c;就是一个用来模拟TaskView的类。 为什么要模…...

层次式架构核心:中间层的功能、优势与技术选型全解析

层次式架构中的中间层是整个架构的核心枢纽&#xff0c;承担着多种重要职责&#xff0c;在功能实现、优势体现以及技术选型等方面都有丰富的内容&#xff0c;以下为你详细介绍&#xff1a; 一、功能 1.业务逻辑处理 复杂规则运算&#xff1a;在许多企业级应用中&#xff0c;…...

MySQL主从同步原理及面试回答

1. 什么是主从结构 主从复制、读写分离&#xff08;分库&#xff09;解决的是访问的压力 2. Mysql主从复制的原理 Mysql主从复制的核心是binlog日志文件&#xff08;二进制日志文件&#xff09; 二进制日志&#xff08;BINLOG&#xff09;记录了所有的 DDL&#xff08;数据定…...

利用quartus的DDS函数信号发生器设计

一、功能要求 采用数字频率合成&#xff08;Direct Digital FrequencySynthesis&#xff0c;简称DDS&#xff09;设计制作一个波形发生器&#xff0c;仿真后&#xff0c;在DE2-115开发板上实践。 要求&#xff1a; 1、利用DDS技术合成正弦波和方波&#xff1b; 2、输出信号的…...

2.1 腾讯校招通关指南-算法与数据结构

2.1腾讯校招算法与数据结构通关攻略&#xff1a;高频题型真题拆解实战技巧 在腾讯技术岗面试中&#xff0c;算法与数据结构是占比30%的核心考核项&#xff0c;直接决定了面试通过率的「生死线」。本文结合腾讯近三年校招真题&#xff0c;拆解4大高频题型的解题套路、专项训练方…...

数据一致性的守护神:深入Spring声明式事务管理 (@Transactional)

在前面几篇文章中&#xff0c;我们一路打怪升级&#xff0c;掌握了Spring IoC/DI、Bean管理、AOP&#xff0c;并用JdbcTemplate和Spring Data JPA简化了数据库访问。我们的代码越来越简洁、高效。但想象一下这个场景&#xff1a; 用户A向用户B转账100元。这至少需要两个数据库…...

神经网络复习

1 机器学习 1.1 定义 机器学习是人工智能的一个分支领域&#xff0c;它致力于让计算机系统能够自动从数据中学习规律&#xff0c;并利用这些规律对新的数据进行预测或决策&#xff0c;而无需显式地编写针对特定任务的规则。 1.2 分类 全监督学习 全监督学习是指在训练模型时…...

从代码学习深度学习 - 自注意力和位置编码 PyTorch 版

这里写自定义目录标题 前言一、自注意力:Transformer 的核心1.1 多头注意力机制的实现1.2 缩放点积注意力1.3 掩码和序列处理1.4 自注意力示例二、位置编码:为序列添加位置信息2.1 位置编码的实现2.2 可视化位置编码总结前言 深度学习近年来在自然语言处理、计算机视觉等领域…...

Web前端开发——图像与多媒体文件(上)

学习目标&#xff1a; 优秀的商业网站往往通过为页面添加大量的图像、声音、视频、动画等多媒体信息来丰富网站的内容&#xff0c;吸引更多网络访问者的关注。目前大型商业网站非常注重对Web前端开发技术的研究&#xff0c;通过组合各类前端开发技术来改善用户体验和增加用户互…...

C#核心学习(三)常见的泛型数据结构类(1)List和Dictionary

前面我们刚刚学习了&#xff0c;什么是泛型。今天我们就来看看C#中有哪些&#xff0c;常见的泛型数据结构&#xff0c;今天要介绍的是List,和Dictionary。 引言 在C#编程中&#xff0c;泛型集合是高效管理数据的核心工具。List<T>和Dictionary<TKey, TValue>作为两…...

运行时数据区

运行时数据区 Java 虚拟机在运行 Java 程序过程中管理的内存区域称之为运行时数据区&#xff0c;运行时数据区负责管理 JVM 使用到的内存&#xff0c;例如创建对象和销毁对象。 程序计数器 程序计数器又叫 PC 寄存器&#xff0c;每个线程都会通过程序计数器记录当前要执行的字…...

union all 关联查询

UNION ALL 并非用于表的关联查询&#xff0c;而是用于将多个 SELECT 语句的结果集合并成一个结果集。它会保留所有重复的行&#xff0c;不像 UNION 会去除重复行。下面为你提供几种使用 UNION ALL 的场景示例。 示例表结构 假设存在两个表 sales_2024 和 sales_2025&#xff…...

npm ERR! vue-admin-beautiful@1.0.0 dev: `vue-cli-service serve` 问题解决

笔者在跑实习公司的前端时&#xff0c;老是报这个错&#xff0c;并且网上(csdn)并没有好的解决方法&#xff0c;于是这篇文章就诞生了。[吐槽一下]&#xff1a;小公司的实习生干的活是真的多啊。。。 解决方案 依赖有些包装不上&#xff0c;换个源就行了&#xff0c;这里采用…...

玩转Docker | 使用Docker部署Xnote笔记工具

玩转Docker | 使用Docker部署Xnote笔记工具 前言一、Xnote介绍Xnote简介1.2 Xnote特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署Xnote服务下载镜像编辑配置文件编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问Xnote服务访问Xnote首页…...

TDengine 与其他时序数据库对比:InfluxDB/TimescaleDB 选型指南(二)

四、应用场景分析 &#xff08;一&#xff09;TDengine 适用场景 TDengine 适用于对写入性能和存储效率要求极高的物联网设备数据采集场景。在一个拥有数百万个传感器的智能工厂中&#xff0c;每个传感器每秒都会产生多条数据&#xff0c;TDengine 能够高效地处理这些高并发的…...

ARM Cortex汇编宏定义

在ARM架构(尤其是Cortex-M系列MCU)的汇编中,**宏定义(Macro)**用于复用代码片段,支持参数化编程,简化重复逻辑(如寄存器操作、循环、条件判断等)。以下是ARM汇编宏定义的核心语法、用法及示例: 一、宏定义的基本语法 使用 MACRO 和 MEND 伪指令包裹宏体,通过 参数…...

【含文档+PPT+源码】基于Python心理健康管理系统

项目视频介绍&#xff1a; 毕业作品心理健康管理系统 课程简介&#xff1a; 本课程演示的是一款基于Python心理健康管理系统&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Python学习者。 1.包含&#xff1a;项目源码、项目文档、数据库脚本、软…...

Dockerfile项目实战-单阶段构建Vue2项目

单阶段构建镜像-Vue2项目 1 项目层级目录 以下是项目的基本目录结构&#xff1a; 2 Node版本 博主的Windows电脑安装了v14.18.3的node.js版本&#xff0c;所以直接使用本机电脑生成项目&#xff0c;然后拷到了 Centos 7 里面 # 查看本机node版本 node -v3 创建Vue2项目 …...

大数据驱动的供应链透明化:从数据孤岛到智能协同

大数据驱动的供应链透明化:从数据孤岛到智能协同 在全球化供应链环境下,透明化不仅是一种企业责任,更是提高效率、降低成本和增强供应链韧性的关键举措。然而,传统供应链体系因数据孤岛、信息滞后、信任缺失等问题,常常导致生产过剩、库存积压、资源浪费,甚至供应链断裂…...

第四篇:[特殊字符] 深入理解MyBatis[特殊字符] 掌握MyBatis Generator ——入门与实战

引言 什么是 MyBatis Generator&#xff1f; MyBatis Generator (MBG) 是一个代码生成工具&#xff0c;专为 MyBatis 框架设计。它可以根据数据库表结构自动生成 Java 实体类、Mapper 接口、Mapper XML 文件以及 Example 类。通过使用 MBG&#xff0c;开发者可以显著减少编写…...

LeetCode算法题(Go语言实现)_48

题目 在给定的 m x n 网格 grid 中&#xff0c;每个单元格可以有以下三个值之一&#xff1a; 值 0 代表空单元格&#xff1b; 值 1 代表新鲜橘子&#xff1b; 值 2 代表腐烂的橘子。 每分钟&#xff0c;腐烂的橘子 周围 4 个方向上相邻 的新鲜橘子都会腐烂。 返回 直到单元格中…...

ESP-ADF外设子系统深度解析:esp_peripherals组件架构与核心设计(核心API详解之单个外设管理)

目录 单个外设管理APIesp_periph_createesp_periph_set_functionesp_periph_startesp_periph_stopesp_periph_set_dataesp_periph_get_dataesp_periph_get_stateesp_periph_get_idesp_periph_set_idesp_periph_initesp_periph_runesp_periph_destroy 单个外设管理API esp_peri…...

基于vue2+ElementUI的el-tree封装一个带搜索的树形组件

需求 实现一个如图带搜索框的下拉树形组件。 解决方案 利用el-inputel-tree实现自定义带搜索的下拉树形组件。 具体实现步骤 1、创建TreeSelect组件 <template><div class"tree-select-wrapper" v-clickoutside"handleClose"><el-inpu…...

G2学习打卡

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 DCGAN实践 import torch, random, random, os import torch.nn as nn import torch.nn.parallel import torch.optim as optim import torch.utils.data im…...