JavaScript反爬技术解析与应对
JavaScript 反爬技术解析与应对
前言
在当今 Web 爬虫与数据抓取的生态环境中,网站运营方日益关注数据安全与隐私保护,因此逐步采用多种反爬技术来限制非授权访问。本文从 JavaScript 角度出发,深入剖析主流反爬策略的技术原理,并探讨相应的绕过方案,以期为研究者和开发者提供系统性的理解与实践指导。
1. JavaScript 反爬技术概述
1.1 右键禁用与开发者工具防护
部分网站采用 JavaScript 拦截用户右键菜单或监听 F12 按键,以阻碍用户直接访问开发者工具。
示例代码:
// 禁用右键菜单
window.addEventListener('contextmenu', event => event.preventDefault());// 监听 F12 及常见开发者工具快捷键
window.addEventListener('keydown', event => {if (event.key === 'F12' || (event.ctrlKey && event.shiftKey && event.key === 'I')) {event.preventDefault();}
});
应对策略:
- 直接在浏览器控制台执行
document.oncontextmenu = null;
以解除右键限制。 - 通过修改 JavaScript 代码或使用浏览器扩展禁用前端 JavaScript。
- 在 Puppeteer 环境中执行以下代码,绕过此类限制:
await page.evaluate(() => {document.oncontextmenu = null; });
心得: 这一类简单的反爬手段往往只针对普通用户,而对开发者而言可以轻松绕过,不必理会。
1.2 动态数据加载
许多网站不直接在 HTML 结构中返回完整数据,而是通过 JavaScript 进行异步请求,如 fetch
或 XMLHttpRequest
。
示例代码:
fetch('/api/data').then(response => response.json()).then(data => console.log(data));
应对策略:
- 通过浏览器
Network
面板定位 API 请求地址,直接使用curl
或requests
模拟请求。 - 若 API 存在签名验证,可使用 Puppeteer 拦截并复用请求参数:
await page.setRequestInterception(true); page.on('request', request => {console.log(request.url(), request.postData());request.continue(); });
心得: 动态数据加载是现代网站的常见模式,因此在爬取时应优先检查网络请求,F12打开开发者面板进入network时刻注意操作后的网络请求,即使是普通的页面请求通过这里查看也更加精确,好过直接查看element选项卡。
1.3 Canvas 指纹追踪
部分网站利用 Canvas
进行指纹识别,以检测爬虫行为。
示例代码:
const canvas = document.createElement('canvas');
const ctx = canvas.getContext('2d');
ctx.fillText('Hello, World!', 10, 10);
const fingerprint = canvas.toDataURL();
console.log(fingerprint);
应对策略:
- 使用
Canvas Defender
之类的扩展工具随机化指纹信息。 - 通过 Puppeteer 修改
canvas.toDataURL()
返回固定值:await page.evaluate(() => {HTMLCanvasElement.prototype.toDataURL = () => 'fake-image'; });
心得: Canvas 指纹追踪主要用于区分真实用户与自动化脚本,针对这一点可以使用指纹篡改工具或 Puppeteer 进行规避。
1.4 验证码与行为分析
某些网站采用验证码(如 reCAPTCHA)或基于用户交互模式(鼠标轨迹、按键节奏等)进行检测。
示例代码:
<input type="text" onfocus="logActivity()" onmousemove="logActivity()">
应对策略:
- 针对文本验证码,可使用 OCR 技术(如
Tesseract.js
)进行解析。 - 通过 Puppeteer 模拟用户输入行为,以规避行为分析:
await page.mouse.move(100, 100); await page.mouse.click(100, 100);
心得: 在遇到验证码时,建议首先尝试 API 解析方式,若无法突破,则考虑 OCR 或模拟用户行为。
2. 反爬绕过实践
2.1 Puppeteer 绕过反爬机制
Puppeteer 是一个基于 Chromium 的无头浏览器工具,可用于模拟用户操作,绕过前端反爬限制。
示例代码:
const puppeteer = require('puppeteer');
(async () => {const browser = await puppeteer.launch({ headless: false });const page = await browser.newPage();await page.goto('https://example.com');await page.waitForTimeout(3000);await browser.close();
})();
心得: Puppeteer 适用于高度依赖 JavaScript 渲染的网站,能有效绕过多数前端反爬机制。
2.2 DrissionPage 绕过反爬机制
DrissionPage 是一个结合 Selenium 和 Requests 的 Python 爬虫工具,能够应对前端 JavaScript 渲染。
示例代码:
from DrissionPage import ChromiumPage
page = ChromiumPage()
page.get('https://example.com')
print(page.html)
心得: DrissionPage 结合了浏览器模拟与传统 HTTP 请求,在某些场景下比 Puppeteer 更加高效。拽神是这样的。
3. 结论
随着 Web 反爬技术的不断演进,开发者需要深入理解 JavaScript 反爬策略及绕过方法,同时应遵循数据抓取的法律与伦理规范。合理使用 Web 爬取技术,将有助于促进数据利用的合法化和高效化。
在数据爬取过程中,既要注重技术手段的优化,也要确保数据获取的合规性,以避免法律风险。
相关文章:
JavaScript反爬技术解析与应对
JavaScript 反爬技术解析与应对 前言 在当今 Web 爬虫与数据抓取的生态环境中,网站运营方日益关注数据安全与隐私保护,因此逐步采用多种反爬技术来限制非授权访问。本文从 JavaScript 角度出发,深入剖析主流反爬策略的技术原理,…...
【C++动态规划 状态压缩】2741. 特别的排列|2020
本文涉及知识点 C动态规划 状态压缩 LeetCode2741. 特别的排列 给你一个下标从 0 开始的整数数组 nums ,它包含 n 个 互不相同 的正整数。如果 nums 的一个排列满足以下条件,我们称它是一个特别的排列: 对于 0 < i < n - 1 的下标 i…...
省级数字经济发展水平数据(2011-2022年)-社科数据
省级数字经济发展水平数据(2011-2022年)-社科数据https://download.csdn.net/download/paofuluolijiang/90028602 https://download.csdn.net/download/paofuluolijiang/90028602 数字经济是指以数据资源为关键要素、以现代信息网络为主要载体、以信息…...
【问题解决】el-upload数据上传成功后不显示成功icon
el-upload数据上传成功后不显示成功icon 原因 由于后端返回数据与要求形式不符,使用el-upload默认方法调用onSuccess钩子失败,上传文件的状态并未发生改变,因此数据上传成功后并未显示成功的icon标志。 解决方法 点击按钮,调用…...
新站如何快速获得搜索引擎收录?
本文来自:百万收录网 原文链接:https://www.baiwanshoulu.com/8.html 新站想要快速获得搜索引擎收录,需要采取一系列有针对性的策略。以下是一些具体的建议: 一、网站内容优化 高质量原创内容: 确保网站内容原创、…...
判断子序列
hello 大家好!今天开写一个新章节,每一天一道算法题。让我们一起来学习算法思维吧! function isSubsequence(s, t) {// 初始化两个指针,分别指向字符串 s 和 t 的起始位置let i 0; let j 0; // 当两个指针都未超出对应字符串的长…...
【Leetcode 热题 100】416. 分割等和子集
问题背景 给你一个 只包含正整数 的 非空 数组 n u m s nums nums。请你判断是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 数据约束 1 ≤ n u m s . l e n g t h ≤ 200 1 \le nums.length \le 200 1≤nums.length≤200 1 ≤ n u m s [ i ] ≤ …...
Kotlin开发(六):Kotlin 数据类,密封类与枚举类
引言 想象一下,你是个 Kotlin 开发者,敲着代码忽然发现业务代码中需要一堆冗长的 POJO 类来传递数据。烦得很?别急,Kotlin 贴心的 数据类 能帮你自动生成 equals、hashCode,直接省时省力!再想想需要多种状…...
关于2024年
关于2024年 十分钟前我从床上爬起来,坐在电脑面前先后听了《黄金时代》——声音碎片和《Song F》——达达两首歌,我觉得躺着有些无聊,又或者除夕夜的晚上躺着让我觉得有些不适,我觉得自己应该爬起来,爬起来记录一下我…...
运算符(C#)
运算符(C#) 算数运算符 - * / % //算数运算符// - * / %//这跟我们初中的运算符一样// 加号Console.WriteLine(12);//3int a 5 6;Console.WriteLine(a);//11// - 减号Console.WriteLine(6-3);//3int b 10 - 6;Console.WriteLine(b);//4// * 乘号Console.WriteL…...
【AI论文】扩散对抗后训练用于一步视频生成总结
摘要:扩散模型被广泛应用于图像和视频生成,但其迭代生成过程缓慢且资源消耗大。尽管现有的蒸馏方法已显示出在图像领域实现一步生成的潜力,但它们仍存在显著的质量退化问题。在本研究中,我们提出了一种在扩散预训练后针对真实数据…...
Spring--SpringMVC使用(接收和响应数据、RESTFul风格设计、其他扩展)
SpringMVC使用 二.SpringMVC接收数据2.1访问路径设置2.2接收参数1.param和json2.param接收数据3 路径 参数接收4.json参数接收 2.3接收cookie数据2.4接收请求头数据2.5原生api获取2.6共享域对象 三.SringMVC响应数据3.1返回json数据ResponseBodyRestController 3.2返回静态资源…...
计算机毕业设计Django+Tensorflow音乐推荐系统 机器学习 深度学习 音乐可视化 音乐爬虫 知识图谱 混合神经网络推荐算法 大数据毕设
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
用HTML、CSS和JavaScript实现庆祝2025蛇年大吉(附源码)
用HTML、CSS和JavaScript庆祝2025蛇年大吉 在这个数字化时代,网页设计不仅仅是为了展示信息,更是传达情感和文化的一种方式。2025年将是蛇年,许多人希望通过各种方式庆祝这一重要的时刻。在这篇文章中,我们将一起学习如何使用HTM…...
Golang :用Redis构建高效灵活的应用程序
在当前的应用程序开发中,高效的数据存储和检索的必要性已经变得至关重要。Redis是一个快速的、开源的、内存中的数据结构存储,为各种应用场景提供了可靠的解决方案。在这个完整的指南中,我们将学习什么是Redis,通过Docker Compose…...
分布式微服务系统架构第88集:kafka集群
使用集 群最大的好处是可以跨服务器进行负载均衡,再则就是可以使用复制功能来避免因单点故 障造成的数据丢失。在维护 Kafka 或底层系统时,使用集群可以确保为客户端提供高可用 性。 需要多少个broker 一个 Kafka 集群需要多少个 broker 取决于以下几个因…...
【信息系统项目管理师-选择真题】2008下半年综合知识答案和详解
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1题】【第2~3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9题】【第10~12题】【第13题】【第14~15题】【第16题】【第17题】【第18题】【第19题】【第20题】【第21题】【第22题】【第23题】【第…...
Ubuntu 20.04安装Protocol Buffers 2.5.0
个人博客地址:Ubuntu 20.04安装Protocol Buffers 2.5.0 | 一张假钞的真实世界 安装过程 Protocol Buffers 2.5.0源码下载:https://github.com/protocolbuffers/protobuf/tree/v2.5.0。下载并解压。 将autogen.sh文件中以下内容: curl htt…...
MySQL知识点总结(十四)
mysqldump和mysqlpump实用程序在功能上有哪些相同和不同的地方? 二者都能用来执行逻辑备份,将所有数据库,特定数据库或特定表转储到文本文件,可移植,独立于存储引擎,是很好的复制/移动策略,适合…...
人工智能在教育中的创新应用:打造未来的智慧课堂
人工智能在教育中的创新应用:打造未来的智慧课堂 在快速发展的科技时代,人工智能(AI)正悄无声息地改变着教育的面貌。从个性化学习到智能课堂管理,AI技术为教育带来了前所未有的创新与效率提升。今天,我想从实际应用的角度,聊聊人工智能如何帮助我们构建更智慧的教育生…...
最初公共前缀
hello 大家好!今天开写一个新章节,每一天一道算法题。让我们一起来学习算法思维吧! function longestCommonPrefix(strs) {// 如果输入的字符串数组为空,直接返回空字符串if (strs.length 0) {return "";}// 假设数组中…...
每日一题-判断是否是平衡二叉树
判断是否是平衡二叉树 题目描述数据范围题解解题思路递归算法代码实现代码解析时间和空间复杂度分析示例示例 1示例 2 总结 ) 题目描述 输入一棵节点数为 n 的二叉树,判断该二叉树是否是平衡二叉树。平衡二叉树定义为: 它是一棵空树。或者它的左右子树…...
Go反射指南
概念: 官方对此有个非常简明的介绍,两句话耐人寻味: 反射提供一种让程序检查自身结构的能力反射是困惑的源泉 第1条,再精确点的描述是“反射是一种检查interface变量的底层类型和值的机制”。 第2条,很有喜感的自嘲…...
【除夕】特别篇
除夕,是一个辞旧迎新的时刻。我们挥别了过去一年的风雨兼程,迎来了新一年的无限可能。在过去的一年里,我们或许经历了挑战,或许收获了成长。从年初到今天,我们一定克服了种种困难与挑战,这足以说明我们每个…...
Java内存区域详解
Java内存区域详解——章节结构 Java 内存模型是 JVM 的重要组成部分,深入理解内存区域的划分和用途是掌握 JVM 调优和诊断问题的关键。我们将通过以下章节逐步学习: 目录 概述:Java 内存区域与线程的关系程序计数器Java 虚拟机栈本地方法栈…...
DataWhale组队学习 fun-transformer task5
1. 词向量:单词的“身份证” 首先,我们定义了四个单词的词向量,每个向量维度为3。你可以把这些词向量想象成每个单词的“身份证”。每个身份证上有3个特征,用来描述这个单词的“性格”或“特点”。 word_1 np.array([1, 0, 0])…...
实现网站内容快速被搜索引擎收录的方法
本文转自:百万收录网 原文链接:https://www.baiwanshoulu.com/6.html 实现网站内容快速被搜索引擎收录,是网站运营和推广的重要目标之一。以下是一些有效的方法,可以帮助网站内容更快地被搜索引擎发现和收录: 一、确…...
什么是循环神经网络?
一、概念 循环神经网络(Recurrent Neural Network, RNN)是一类用于处理序列数据的神经网络。与传统的前馈神经网络不同,RNN具有循环连接,可以利用序列数据的时间依赖性。正因如此,RNN在自然语言处理、时间序列预测、语…...
python 判断复杂包含
目录 python 判断复杂包含 a和b都是拍好序的: python 判断复杂包含 a[10,13,15] b[[9,11],[11,13],[13,16]] b的子项是区间,返回b中子区间包含a其中元素的子项 if __name__ __main__:a [10, 11, 15]b [[9, 11], [11, 13], [13, 16]]# 筛选出包含…...
基于SpringBoot的阳光幼儿园管理系统
作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...
【PySide6快速入门】QDialog对话框的使用
文章目录 PySide6快速入门:QDialog对话框的使用前言QDialog的基本用法创建和显示对话框 QDialog的常用函数1. exec()2. accept()3. reject()4. setWindowTitle()5. setModal()6. setFixedSize()7. resize()8. reject()9. setLayout()10. open() 总结 PySide6快速入门…...
LiteFlow Spring boot使用方式
文章目录 概述LiteFlow框架的优势规则调用逻辑规则组件定义组件内数据获取通过 DefaultContext自定义上下文 通过 组件规则定义数据通过预先传入数据 liteflow 使用 概述 在每个公司的系统中,总有一些拥有复杂业务逻辑的系统,这些系统承载着核心业务逻…...
【ESP32】ESP-IDF开发 | WiFi开发 | TCP传输控制协议 + TCP服务器和客户端例程
1. 简介 TCP(Transmission Control Protocol),全称传输控制协议。它的特点有以下几点:面向连接,每一个TCP连接只能是点对点的(一对一);提供可靠交付服务;提供全双工通信&…...
用WinForm如何制作简易计算器
首先我们要自己搭好页面 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;namespace _7_简易计算…...
指针的介绍2前
1.数组名的理解 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h>int main() {int arr[] { 1,2,3,4,5,6,7,8,9 };printf("&arr[0] %p\n", &arr[0]);printf("arr %p\n", arr);return 0; } 观察得到,数组名就是数组首…...
EasyExcel写入和读取多个sheet
最近在工作中,作者频频接触到Excel处理,因此也对EasyExcel进行了一定的研究和学习,也曾困扰过如何处理多个sheet,因此此处分享给大家,希望能有所帮助 目录 1.依赖 2. Excel类 3.处理Excel读取和写入多个sheet 4. 执…...
MATLAB中fetchOutputs函数用法
目录 语法 说明 示例 在后台运行函数 fetchOutputs函数的功能是从在后台运行的函数中检索结果。 语法 [Y1,...,Ym] fetchOutputs(F) [Y1,...,Ym] fetchOutputs(F,UniformOutputfalse) 说明 [Y1, ..., Ym] fetchOutputs(F) 从 Future 数组 F 中检索出 m 个结果。 F 中…...
nosql mysql的区别
NoSQL 和 MySQL 是两种不同类型的数据库管理系统,它们在设计理念、数据模型、可扩展性和应用场景等方面有着本质的区别。 NoSQL 数据库 特点: 灵活的数据模型: NoSQL 数据库通常没有固定的表结构,可以很容易地存储不同结构的文档或键值对。水平扩展: …...
获取加工视图下所有元素
UF_SETUP_ask_program_root //程序顺序 视图 UF_SETUP_ask_mct_root //机床视图 UF_SETUP_ask_mthd_root //加工方法视图 UF_SETUP_ask_geom_root //几何视图 UF_initialize();//初始化 UF_UI_ONT_refresh();//刷新加工导航器 UF_UI_open_listing_window(); tag_t …...
go到底是什么意思:对go的猜测或断言
go这个单词,简单地讲,表示“走或去”的意思: go v.去;走 认真想想,go是一个非常神秘的单词,g-和o-这两个字母,为什么就会表达“去;走”的意思呢?它的字面义或本质&…...
AIP-133 标准方法:Create
编号133原文链接AIP-133: Standard methods: Create状态批准创建日期2019-01-23更新日期2019-01-23 在REST API中,通常向集合URI(如 /v1/publishers/{publisher}/books )发出POST请求,在集合中创建新资源。 面向资源设计&#x…...
大一计算机的自学总结:位运算的应用及位图
前言 不仅异或运算有很多骚操作,位运算本身也有很多骚操作。(尤其后几个题,太逆天了) 一、2 的幂 class Solution { public:bool isPowerOfTwo(int n) {return n>0&&n(n&-n);} }; 根据二进制表示数的原理&#…...
2025年01月28日Github流行趋势
项目名称:maybe 项目地址url:https://github.com/maybe-finance/maybe项目语言:Ruby历史star数:37540今日star数:1004项目维护者:zachgoll, apps/dependabot, tmyracle, Shpigford, crnsh项目简介ÿ…...
java基础-容器
一、集合基础 1、集合 Collection接口下,主要用于存放单一元素Map接口下,用于存放键值对 2、常见集合的比较 List 存储的元素是有序的、可重复的。Set: 存储的元素不可重复的。Queue: 按特定的排队规则来确定先后顺序,存储的元素是有序的、…...
PythonFlask框架
文章目录 处理 Get 请求处理 POST 请求应用 app.route(/tpost, methods[POST]) def testp():json_data request.get_json()if json_data:username json_data.get(username)age json_data.get(age)return jsonify({username: username测试,age: age})从 flask 中导入了 Flask…...
Android 启动流程
一 Bootloader 在嵌入式系统中,Bootloader的引导过程与传统的PC环境有所不同,主要是因为嵌入式系统的硬件配置和应用场景更加多样化。以下是嵌入式系统中Bootloader被引导的一般流程: 1. 硬件复位 当嵌入式设备上电或复位时,处…...
【信息系统项目管理师-选择真题】2009下半年综合知识答案和详解
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1~2题】【第3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9题】【第10题】【第11题】【第12题】【第13题】【第14题】【第15题】【第16题】【第17题】【第18题】【第19题】【第20题】【第21题】…...
TL494方案开关电源方案
TL494是德州仪器公司生产的一款固定频率脉宽调制(PWM)控制芯片,广泛应用于开关电源等电路中,以下是其相关方案介绍: 基本特性 双端输出:可提供推挽或单端两种输出模式。推挽模式下能驱动两个功率开关管交…...
RocketMQ事务消息是如何实现的?
大家好,我是锋哥。今天分享关于【RocketMQ事务消息是如何实现的?】面试题。希望对大家有帮助; RocketMQ事务消息是如何实现的? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 RocketMQ 事务消息的实现是通过 分布式事…...
16届蓝桥杯寒假刷题营】第2期DAY5IOI赛
3.小蓝小彬的代码挑战 - 蓝桥云课 问题描述 在蓝桥杯大赛中,小蓝和小彤是一对好朋友。他们在比赛中遇到了一个有趣的挑战。这个挑战是给定一个由大写字母组成的代码,他们需要找出这串代码中有多少个子序列LQB。小蓝和小彬都很聪明,他们想到…...