当前位置: 首页 > news >正文

Python实例题:Python自动获取海量IP工具

目录

Python实例题

题目

实现思路

代码实现

代码解释

get_proxy_list 函数:

check_proxy_validity 函数:

save_valid_ips 函数:

主程序:

运行思路

注意事项

Python实例题

题目

Python自动获取海量IP工具

实现思路

  • 发送网络请求:借助 requests 库向代理 IP 网站发送请求,从而获取包含 IP 信息的网页内容。
  • 解析网页内容:利用 BeautifulSoup 库解析 HTML 页面,提取出 IP 地址和端口号。
  • 验证 IP 有效性:通过向特定网站发送请求,检验 IP 是否可用。
  • 存储有效 IP:把有效的 IP 存储到文件或者数据库中。

代码实现

import requests
from bs4 import BeautifulSoup
import random
import time# 目标网站 URL
target_url = 'https://www.89ip.cn/index_{}.html'
# 测试 IP 有效性的网站
test_url = 'https://www.baidu.com'
# 存储有效 IP 的列表
valid_ips = []def get_proxy_list(page_num):"""从指定页面获取代理 IP 列表:param page_num: 页面编号:return: 代理 IP 列表,每个元素为 (IP 地址, 端口号)"""url = target_url.format(page_num)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}try:response = requests.get(url, headers=headers)response.encoding = response.apparent_encodingsoup = BeautifulSoup(response.text, 'html.parser')table = soup.find('table', class_='layui-table')if table:rows = table.find_all('tr')[1:]proxy_list = []for row in rows:cols = row.find_all('td')ip = cols[0].text.strip()port = cols[1].text.strip()proxy_list.append((ip, port))return proxy_listexcept Exception as e:print(f"获取页面 {page_num} 时出错: {e}")return []def check_proxy_validity(proxy):"""检查代理 IP 是否有效:param proxy: 代理 IP,格式为 (IP 地址, 端口号):return: 代理 IP 是否有效"""ip, port = proxyproxies = {'http': f'http://{ip}:{port}','https': f'https://{ip}:{port}'}try:response = requests.get(test_url, proxies=proxies, timeout=5)if response.status_code == 200:return Trueexcept Exception:passreturn Falsedef save_valid_ips():"""将有效 IP 保存到文件"""with open('valid_ips.txt', 'w') as f:for ip, port in valid_ips:f.write(f'{ip}:{port}\n')if __name__ == "__main__":# 抓取前 5 页的 IPfor page_num in range(1, 6):proxy_list = get_proxy_list(page_num)if proxy_list:for proxy in proxy_list:if check_proxy_validity(proxy):valid_ips.append(proxy)print(f"有效 IP: {proxy[0]}:{proxy[1]}")# 随机延时,避免被反爬机制封禁time.sleep(random.uniform(1, 3))# 保存有效 IP 到文件save_valid_ips()print("有效 IP 已保存到 valid_ips.txt 文件中。")

代码解释

  • get_proxy_list 函数

    • 依据传入的页面编号,构建目标 URL。
    • 发送 HTTP 请求获取页面内容。
    • 运用 BeautifulSoup 解析 HTML 页面,提取 IP 地址和端口号。
    • 返回代理 IP 列表。
  • check_proxy_validity 函数

    • 构建代理字典,包含 http 和 https 代理。
    • 向测试网站发送请求,设置超时时间为 5 秒。
    • 若响应状态码为 200,则认为该 IP 有效。
  • save_valid_ips 函数

    • 把有效 IP 列表中的 IP 地址和端口号保存到 valid_ips.txt 文件中。
  • 主程序

    • 循环抓取前 5 页的 IP 信息。
    • 对每个 IP 进行有效性检查,若有效则添加到 valid_ips 列表中。
    • 每次检查后随机延时 1 - 3 秒,防止被反爬机制封禁。
    • 最后将有效 IP 保存到文件中。

运行思路

  • 安装依赖库:确保已经安装了 requests 和 beautifulsoup4 库,可使用 pip install requests beautifulsoup4 进行安装。
  • 运行脚本:在终端中运行 python ip_fetcher.py,脚本会自动抓取 IP 信息并进行有效性检查。
  • 查看结果:脚本运行结束后,有效 IP 会被保存到 valid_ips.txt 文件中。

注意事项

  • 反爬机制:不同的代理 IP 网站有不同的反爬机制,频繁请求可能会导致 IP 被封禁。可以通过设置请求头、控制请求频率、使用代理 IP 等方式绕过反爬机制。
  • IP 质量:免费代理 IP 的质量参差不齐,可能存在不稳定、速度慢等问题。在实际使用中,需要根据需求选择合适的代理 IP。
  • 合法性:确保获取和使用代理 IP 的行为符合相关法律法规和网站的使用条款。

相关文章:

Python实例题:Python自动获取海量IP工具

目录 Python实例题 题目 实现思路 代码实现 代码解释 get_proxy_list 函数: check_proxy_validity 函数: save_valid_ips 函数: 主程序: 运行思路 注意事项 Python实例题 题目 Python自动获取海量IP工具 实现思路 …...

Vue el-from的el-form-item v-for循环表单如何校验rules(一)

实际业务需求场景: 新增或编辑页面(基础信息表单,一个数据列表的表单),数据列表里面的表单数是动态添加的。数据可新增、可删除,在表单保存前,常常需要做表单必填项的校验,校验通过以…...

AI 边缘计算盒子:开启智能物联新时代

一、什么是 AI 边缘计算盒子 AI 边缘计算盒子是一种集成了高性能芯片、AI 算法和数据处理能力的硬件设备。它部署在数据源的边缘侧,如工厂、商场、交通路口等,能够在本地进行数据采集、预处理、分析和决策,而无需将所有数据上传到云端。这种…...

【AGI】MCP生态的“飞轮效应”

【AGI】MCP生态的“飞轮效应” (一)打通AI代理外部交互的“最后一公里”1. AI代理的核心挑战:可靠的外部服务交互2. MCP的解决方案:结构化交互协议3. 案例对比:Figma设计修改任务4. 行业影响:从实验性技术到…...

【无标题】win7和win11双系统共存

一、背景: .本人自有戴尔E6440型老款笔记本电脑一台。500g固态硬盘,12g内存,硬盘共分了两个分区。由于本人想实现Win11系统和win七双系统共存,和可以分别加载,今晚上折腾了几个小时终于搞定了!现把经验总结…...

国内开源医疗模型研究报告

引言 随着人工智能技术的快速发展,医疗AI领域正经历前所未有的变革。开源医疗模型作为这一领域的核心技术基础设施,不仅推动了医疗智能化进程,也为医疗工作者提供了强大的辅助工具。本报告将深入探讨国内优秀的开源医疗模型,分析…...

【工具变量】1907年大清邮政舆图数据集(高清图+PDF)

大清邮政舆图是清朝时期为邮政管理而制作的一部详细地图,主要用于邮政线路的规划与管理。该舆图不仅标示了全国各地的邮政线路,还包括了各地的地理位置、行政区划和重要的交通枢纽。大清邮政舆图在中国历史上具有重要的地理和邮政历史价值,是…...

leetcode 121. Best Time to Buy and Sell Stock

题目描述 本题属于动态规划类问题。 dp数组的含义 dp[i][0]表示从第0天到第i天为止,处于持有股票的状态下,账户里的最大金额。 dp[i][1]表示从第0天到第i天为止,处于不持有股票的状态下,账户里的最大金额。 按照这个定义dp[n-…...

UWB定位技术面临的主要挑战

UWB定位技术面临的主要挑战(品铂科技视角) 一、‌复杂工业场景下的信号稳定性挑战‌ 品铂科技QM35825芯片虽通过‌4天线射频架构‌和‌接收分集技术‌将金属密集环境下的多径误差降低至传统方案的1/8‌,但在多层混凝土厂房或动态金属设备场景…...

获取 arm-none-eabi-ld 默认使用的链接脚本

使用如下命令 ./arm-none-eabi-ld --verbose > "arm-none-eabi-ld-default.ld"将输出重定向到一个 .ld 文件中。得到的文件内容如下 GNU ld (Arm GNU Toolchain 14.2.Rel1 (Build arm-14.52)) 2.43.1.20241119Supported emulations:armelf using internal linke…...

无人机设备遥控器之多控一机技术篇

无人设备遥控器的多控一机技术,是指通过多个遥控器或控制端协同实现对同一台无人设备的精准控制。该技术融合了通信技术、信号处理与协同控制算法,其核心在于多源信号的融合处理与动态控制权分配。 一、技术原理 多源信号融合 通过接收多个遥控器发送的…...

python自动化浏览器标签页的切换

#获取全部标签页的句柄返回句柄的列表 handleswebdriver.window_handles#获取全部标签页的句柄返回句柄的列表 print(len(handles)) 切换标签页 handleswebdriver.window_handles webdriver.switch_to.window(handles[index])#切换到第几个标签页就写几 关闭标签页 关闭标…...

一个异步架构设计:批量消费RabbitMQ,批量写入Elasticsearch(golang实现)

在数仓团队,异步任务设计非常常见,主要原因就是数据量太大,不适合做成同步,在自动驾驶这个业务上,数据大到什么程度呢,单模块每天标签的上报数量就能达到5000W,如果算上车端挖掘、云端挖掘、标注…...

加固笔记本:无人机领域智能作业的可靠算力中枢

在无人机技术快速发展的今天,行业应用场景日益复杂化——从高空电力巡检到极地环境监测,从军事侦察到农业植保,无人机的智能化作业对计算设备的稳定性、环境适应性和数据处理能力提出了更高要求。鲁成伟业深耕工业计算领域十余年,…...

非参数 Spearman 相关在多组学分析中的力量及AI拓展

在大数据生物学时代,多组学分析为理解复杂的生物系统提供了前所未有的洞察力。然而,解读这些数据集内部错综复杂的关系需要强大且通用的分析工具。其中,非参数 Spearman 相关性作为一种揭示隐藏关联的有力方法脱颖而出。 AI拓展 多组学数据…...

大模型面经 | 请你介绍一下ReAct(Reasoning and Acting)?

大家好,我是皮先生!! 今天给大家分享一些关于大模型面试常见的面试题,希望对大家的面试有所帮助。 往期回顾: 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题一) 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题二) 大模型面经 | 春招、秋招算法…...

如何高效使用 Text to SQL 提升数据分析效率?四个关键应用场景解析

数据分析师和业务人员常常面临这样的困境:有大量数据等待分析,但 SQL 编写却成为效率瓶颈。即使对于经验丰富的数据分析师来说,编写复杂 SQL 查询也需要耗费大量时间;而对于不具备 SQL 专业知识的业务人员,数据分析则更…...

Python对ppt进行文本替换、插入图片、生成表格

目录 1. 安装pptx2. 文本替换和插入图片3. 生成表格 1. 安装pptx pip install python-pptx2. 文本替换和插入图片 文本通过占位符例如{{$xxx}}进行标记,然后进行替换;图片通过ppt中的图形和图片中的占位符进行标记ppt如下 具体实现 from pptx import …...

OpenResty与Nginx的功能对比分析

OpenResty 和 Nginx 都是高性能的 Web 服务器和反向代理服务器,但它们在设计目标和功能上有显著区别。以下是它们的主要差异: 1. 核心定位 Nginx 是一个轻量级、高性能的 HTTP 服务器和反向代理,专注于静态内容服务、负载均衡和 HTTP 请求处…...

React 在组件间共享状态

在组件间共享状态 有时候,你希望两个组件的状态始终同步更改。要实现这一点,可以将相关 state 从这两个组件上移除,并把 state 放到它们的公共父级,再通过 props 将 state 传递给这两个组件。这被称为“状态提升”,这…...

1.Framer Motion 中 motion/react 和 motion/react-client 的用法和区别

背景知识:服务器端渲染 (SSR) 和客户端渲染 (CSR) 在理解这两个模块的区别之前,我们需要了解 React 应用的两种主要渲染方式: 服务器端渲染 (SSR): React 组件在服务器上被渲染成 HTML 字符串,然后发送给浏览器。浏览器接收到的…...

在 Redis 中存储对象类型的数据时,选择hash还是string?

在 Redis 中存储对象类型的数据时,选择 String(存储 JSON)还是其他数据结构(如 Hash),需根据业务场景、性能需求和数据操作模式综合权衡。以下是详细分析: 1. 使用 String 类型存储 JSON 适用场景 整体读写为主:频繁存取整个对象,如用户信息、配置信息。跨语言兼容性…...

使用Python+xml+shutil修改目标检测图片和对应xml标注文件

使用Pythonxmlshutil修改目标检测图片文件名和对应xml标注文件: import os import glob import xml.etree.ElementTree as et import shutildef change_labels(source_dir):name_id 18001file_list glob.glob(os.path.join(source_dir, "*.xml"))print…...

基于STM32、HAL库的PCA9557 I/O扩展器驱动程序设计

一、简介: PCA9557是NXP公司生产的一款8位IC总线I/O扩展芯片,主要特性包括: 工作电压:2.3V至5.5V 低待机电流消耗 8个通用输入/输出引脚 极性反转寄存器 内部上电复位 3个硬件地址引脚,最多可连接8个器件 400kHz快速IC总线 中断输出引脚 二、硬件接口: PCA9557 <-&g…...

【Qt】Qt 信号与槽机制全解析

&#x1f351;个人主页&#xff1a;Jupiter. &#x1f680; 所属专栏&#xff1a;QT 欢迎大家点赞收藏评论&#x1f60a; 目录 一.信号和槽概述信号的本质槽的本质 信号和槽的使⽤连接信号和槽查看内置信号和槽通过 Qt Creator ⽣成信号槽代码⾃定义信号和槽带参数的信号和槽信…...

【QT】 QT定时器的使用

QT定时器的使用 1. QTimer介绍&#xff08;1&#xff09;QTimer的使用方法步骤示例代码1&#xff1a;定时器的启动和关闭现象&#xff1a;示例代码2&#xff1a;定时器每隔1s在标签上切换图片现象&#xff1a; (2)实际开发的作用 2.日期 QDate(1)主要方法 3.时间 QTime(1)主要方…...

golang使用stdio与子进程进行通信

在使用Cline调用本地MCP Server的时候&#xff0c;使用的是STDIO模式&#xff0c;也就是Cline启动一个子进程来运行MCP Server&#xff0c;然后通过STDIO来进行通信。这种方式即高效又安全。 import ("bufio""fmt""io""os/exec""…...

无服务器架构(Serverless)在Web开发与云原生中的应用研究

无服务器架构(Serverless)在Web开发与云原生中的应用研究 摘要 无服务器架构(Serverless Architecture)作为一种新兴的云计算范式,通过抽象化服务器管理,使开发者能够专注于业务逻辑的实现,而无需关注底层基础设施的运维。本文从研究学者的角度,探讨了无服务器架构的核…...

第IV部分有效应用程序的设计模式

第IV部分有效应用程序的设计模式 第IV部分有效应用程序的设计模式第23章&#xff1a;应用程序用户界面的架构设计23.1设计考量23.2示例1&#xff1a;用于非分布式有界上下文的一个基于HTMLAF的、服务器端的UI23.3示例2&#xff1a;用于分布式有界上下文的一个基于数据API的客户…...

java开发中的设计模式之单例模式

Java开发中的设计模式之单例模式 在软件开发中&#xff0c;设计模式是解决常见问题的最佳实践&#xff0c;单例模式&#xff08;Singleton Pattern&#xff09;作为一种创建型设计模式&#xff0c;能够确保一个类在整个应用程序中只有一个实例&#xff0c;并提供一个全局访问点…...

Vue 高级技巧深度解析

Vue 高级技巧深度解析 mindmaproot(Vue2高级技巧)组件通信EventBusprovide/inject$attrs/$listeners性能优化虚拟DOM优化函数式组件按需加载状态管理Vuex模块化持久化存储严格模式高级指令自定义指令动态组件异步组件渲染控制作用域插槽渲染函数JSX支持一、组件通信的进阶之道 …...

JVM:JVM与Java体系结构

一、JVM 基础概念 虚拟机可分为两类 一类是系统虚拟机&#xff0c;用于模拟计算机系统&#xff0c;常见的软件有 Virtual Box、VMware 等。它们能创建虚拟的计算机系统&#xff0c;就如同在我们的计算机中又安装了一台计算机另一类是程序虚拟机&#xff0c;例如 JVM&#xff0…...

大模型预标注和自动化标注在OCR标注场景的应用

OCR&#xff0c;即光学字符识别&#xff0c;简单来说就是利用光学设备去捕获图像并识别文字&#xff0c;最终将图片中的文字转换为可编辑和可搜索的文本。在数字化时代&#xff0c;OCR&#xff08;光学字符识别&#xff09;技术作为处理图像中文字信息的关键手段&#xff0c;其…...

JVM 垃圾回收

垃圾回收 在 C/C 没有自动垃圾回收机制的语言中&#xff0c;一个对象如果不再被使用&#xff0c;则需要手动释放&#xff0c;否则就会出现内存泄漏(不再使用的对象未被系统回收而导致内存溢出)。 Java 为了简化对象释放的操作&#xff0c;降低编程的复杂度&#xff0c;引入的…...

【Qt】初识Qt

文章目录 认识 Qt Creator 界面左边栏代码编辑区UI设计界面构建区 Qt Hello World 程序使用 "按钮" 实现纯代码方式实现可视化操作实现 使用 "标签" 实现存代码实现 可视化操作实现 项目文件解析.pro 文件解析widget.h 文件解析main.cpp 文件解析widget.cp…...

Python----机器学习(逻辑回归与二分类问题)

一、原理 逻辑回归是一种用于解决二分类问题的机器学习算法。其原理基于线性回归 模型&#xff0c;通过使用逻辑函数&#xff08;也称为sigmoid函数&#xff09;将线性回归的结果映射到 一个0到1之间的概率值&#xff0c;从而进行分类。 在实际生活中&#xff0c;通常一件事的结…...

YOLOv2 性能评估与对比分析详解

1. YOLOv2 简介 YOLOv2&#xff08;You Only Look Once v2&#xff09;&#xff0c;也称为 YOLO9000&#xff0c;是 2016 年发布的目标检测模型&#xff0c;旨在改进 YOLOv1 的速度和准确性。它通过引入批量归一化、锚框和高分辨率输入等技术&#xff0c;显著提升了性能。YOLO…...

Java文件批量复制工具实现解析

目录 引言 1、需求背景 2、实现原理 3、实现步骤 3.1 路径预处理 3.2 复制路径解析 3.3 递归复制逻辑 4、测试用例 5、总结 引言 在项目开发中,文件复制操作是常见的需求场景。本文将解析一个基于Java NIO实现的文件批量复制工具,该工具支持多路径批量操作、目录递归…...

uniapp小程序位置授权弹框与隐私协议耦合(合而为一)(只在真机上有用,模拟器会分开弹 )

注意&#xff1a; 只在真机上有用&#xff0c;模拟器会分开弹 效果图&#xff1a; 模拟器效果图&#xff08;授权框跟隐私政策会分开弹&#xff0c;先弹隐私政策&#xff0c;同意再弹授权弹框&#xff09;&#xff1a; manifest-template.json配置&#xff08; "__usePr…...

深入理解 Java 内存区域与内存溢出异常

个人主页 文章专栏 文章目录 一、引言二、Java 运行时数据区域&#xff08;一&#xff09;程序计数器&#xff08;二&#xff09;Java 虚拟机栈&#xff08;三&#xff09;本地方法栈&#xff08;四&#xff09;Java 堆&#xff08;五&#xff09;方法区&#xff08;六&#xf…...

算法复习(二分+离散化+快速排序+归并排序+树状数组)

一、二分算法 二分算法&#xff0c;堪称算法世界中的高效查找利器&#xff0c;其核心思想在于利用数据的有序性&#xff0c;通过不断将查找区间减半&#xff0c;快速定位目标元素或满足特定条件的位置。 1. 普通二分 普通二分适用于在有序数组中查找特定元素的位置。我们可以…...

4.15 代码随想录第四十四天打卡

99. 岛屿数量(深搜) (1)题目描述: (2)解题思路: #include <iostream> #include <vector> using namespace std;int dir[4][2] {0, 1, 1, 0, -1, 0, 0, -1}; // 四个方向 void dfs(const vector<vector<int>>& grid, vector<vector<bool&g…...

Apache HTTPD 换行解析漏洞

漏洞介绍 CVE-2017-15715 Apache HTTPD 是一个广泛使用的 HTTP 服务器&#xff0c;可以通过 mod_php 模块来运行 PHP 网页。在其 2.4.0 到 2.4.29 版本中存在一个解析漏洞&#xff0c;当文件名以 1.php\x0A 结尾时&#xff0c;该文件会被按照 PHP 文件进行解析&#xff0c;这…...

Spark-SQL(二)

一. 利用IDEA开发Spark-SQL 1 在pop.xml中添加spark-sql依赖 2 spark-sql测试代码 1&#xff09;在idea中读取json文件创建DataFrame 2&#xff09;SQL风格语法 3 &#xff09;DSL风格语法 4&#xff09; RDD转换成DataFrame&#xff0c;DataFrame转换成DataSet 5&#x…...

Node.js 操作 MySQL 数据库

环境检查 Node.js 环境验证 node -v # 确认版本 ≥14.x npm -v # 确认能正常输出 MySQL 服务检查 # Linux systemctl status mysql# Windows (CMD) sc query MySQL 数据库与表创建 创建数据库 CREATE DATABASE users CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode…...

linux运维篇-Ubuntu(debian)系操作系统创建源仓库

适用范围 适用于Ubuntu&#xff08;Debian&#xff09;及其衍生版本的linux系统 例如&#xff0c;国产化操作系统kylin-desktop-v10 简介 先来看下我们需要创建出来的仓库目录结构 Deb_conf_test apt源的主目录 conf 配置文件存放目录 conf目录下存放两个配置文件&…...

从“数据孤岛”到“万物互联”,PLC组网重构工控边界

在工业自动化领域&#xff0c;PLC作为现代智能制造的核心控制单元&#xff0c;其应用已从单一设备的逻辑控制延伸至全厂级生产系统的协同管理。作为工业自动化系统的控制核心&#xff0c;PLC不仅需要实现设备层级的操控&#xff0c;更要通过工业通信网络构建起设备间的数据交互…...

【ISP】AWB的基本原理介绍(基于灰度像素检测)

&#x1f3a8; 基于灰度像素检测的自动白平衡&#xff08;AWB&#xff09;算法原理与实现 在图像处理中&#xff0c;自动白平衡&#xff08;AWB, Auto White Balance&#xff09;是调整图像色温、还原真实色彩的关键算法之一。本文介绍一种经典实用的 AWB 方法 —— 基于灰度像…...

uniappx项目上架各手机平台

前段时间用uniappx开发的App&#xff0c;领导要求要在各个主要手机平台上上架了&#xff0c;本来不是我的任务&#xff0c;后来其他人没有空交给我了&#xff0c;上架小白一枚&#xff0c;哭唧唧的自己研究吧&#xff0c;根据领导发的账号密码登录各个平台上架&#xff0c;花费…...

DIB:Drone in Box- 室内外场景无人机无人化自主巡检技术方案

DIB&#xff1a;Drone in Box- 室内外场景无人机无人化自主巡检技术方案 作为大疆机场3的无人机无人化巡检方案的补充三个自主巡检方案&#xff1a; 方案一、M350AIBOX自主机场-适合室外无人机自主巡检 方案二、M4AIBOX自主机场-适合室内自主巡检 方案三、停机坪AIBOX 自主巡…...