爬虫基础之爬取猫眼Top100 可视化
网站: TOP100榜 - 猫眼电影 - 一网打尽好电影
requests (发送HTTP请求) | pandas(数据处理和分析 保存数据) |
parsel(解析HTML数据) | pyecharts(数据可视化图表) |
pymysql(连接和操作MySQL数据库) | lxml(数据解析模块) |
确定爬取的内容:
-
电影名称
-
电影主演
-
上映时间
-
评分
分析页面:
确认是静态数据还是动态数据
右击打开网页源代码 快捷键Ctrl+F 打开搜索框 搜索需要爬取的数据
可以发现 此数据为静态数据 即所需要的数据都在网页上面
爬取步骤:
一.发送请求 模拟浏览器向服务器发送请求
二. 解析数据 从网页中提取数据
三. 保存数据 将爬取到的数据保存为本地文件
OK 我们开始写代码
将浏览器的url地址复制 构建请求头参数
此网站需要登陆 才能拿到数据 请求体中一般包含三个数据 UA(浏览器的基本信息) referer(就是防盗链 即当前页面通过哪个页面跳转过来的) cookie(用户的一些基本信息)
# 导包
import requestsurl = 'https://www.maoyan.com/board/4?timeStamp=1741780786427&channelId=40011&index=2&signKey=30a132dd14a76c19cfd2759ba27adc28&sVersion=1&webdriver=false'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36 Edg/134.0.0.0','referer':'https://www.maoyan.com/','cookie':'你的cookie'}
resp = requests.get(url,headers=headers)
print(resp.text)
打印我们从浏览器爬取下来的信息
Ctrl+F 快捷键 搜索确认 数据在返回的信息中
第二步 解析数据
打开开发者工具中的元素 用左上角的小箭头去查看页面的结构
定位元素 拿到对应的class属性值 采取parserl模块里面的css 的来提取数据
我们可以看到 爬取下来的内容中 有空格 缩进
处理办法: 转换成字符串类型的格式 然后使用strip()方法 去掉空格 replace 替换方法去除不要的文字 只保留主演名字
movie_time = li.css('.releasetime::text').get().replace('上映时间:', '')
# 上映时间也一样 只保留时间
最后 这个评分是分开的 需要做个字符串的拼接
getall() 拿到所有满足条件的class属性为score 下面i 标签中的文本 其返回的是个列表 通过对列表取值 就可以拿到这两个分开的评分 最后拼接起来 输出打印莫问题
movie_s = li.css('.score i::text').getall()[0]
movie_ore = li.css('.score i::text').getall()[-1]
movie_score = movie_s + movie_ore
所有的信息提取完毕 接下来我们保存数据
三.保存数据
将数据存储在字典中 在外面定义一个空列表 最后将字典添加到列表中
data = []dit = {'电影名': movie_name,'主演': movie_actor,'上映时间': movie_time,'评分': movie_score
}
data.append(dit)
最后听过pandas 保存数据
# 传入我们的列表 设置索引列为false 即不生成额外的一列索引
pd.DataFrame(data).to_excel('Top100.xlsx', index=False)
本次爬虫板块的代码如下 还有保存到数据库的就不讲解了 详细的话看我之前的文章
多页爬取的话 分析几页的url地址可得 多了个offset参数 每页间隔10 后续通过for循环遍历即可
import requests
import parsel
import pandas as pd
import pymysql# 建立连接
connect = pymysql.connect(user='root',password="112233",host='localhost',database='douban', )
# 拿游标
cursor = connect.cursor()# 此模块集成了css xpath re正则三种解析数据的模块
data = []
for page in range(0, 101, 10):url = f'https://www.maoyan.com/board/4?timeStamp=1741780786427&channelId=40011&index=2&signKey=30a132dd14a76c19cfd2759ba27adc28&sVersion=1&webdriver=false&offset={page}'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36 Edg/134.0.0.0','referer':'https://www.maoyan.com/','cookie':'你的cookie'}resp = requests.get(url, headers=headers)selector = parsel.Selector(resp.text)lis = selector.css('.board-wrapper dd')for li in lis:movie_name = li.css('.name a::attr(title)').get()movie_actor = li.css('.star::text').get().strip().replace('主演:', '')movie_time = li.css('.releasetime::text').get().replace('上映时间:', '')movie_s = li.css('.score i::text').getall()[0]movie_ore = li.css('.score i::text').getall()[-1]movie_score = movie_s + movie_oredit = {'电影名': movie_name,'主演': movie_actor,'上映时间': movie_time,'评分': movie_score}data.append(dit)# pd.DataFrame(data).to_excel('Top100.xlsx', index=False)# 准备sql语句sql = 'insert into top100 values (%s,%s,%s,%s)'cursor.executemany(sql,[(movie_name,movie_actor,movie_time,movie_score)])# 提交事务connect.commit()
爬取的数据如下:
接着我们清洗数据 将excel文件中上映时间的字段 中的国家地名去掉 只保留纯日期数值
至于如何查看 数据的一些信息 语法就不在这里介绍了 可以看之前的文章
# 导包 读取文件
import pandas as pddf = pd.read_excel('Top100.xlsx', index_col=False)
# 将上映时间这一列的数据中的日期提取出来 重新赋值给上映时间这一列
df['上映时间'] = df['上映时间'].str.extract(r'(\d{4}-\d{2}-\d{2})')# 去除空数据
# 将数据中的空数据去除 在原有的数据上
df.dropna(inplace=True)# 将处理好的数据保存到新的文件中 不生成索引列
df.to_excel('new_Top.xlsx', index=False)
# 导包
from pyecharts.charts import Line
from pyecharts import options as opts# 生成柱状图
c = (Line()# 添加x轴 数据 将电影名这一列的数据转换成列表.add_xaxis(df['电影名'].tolist())# 添加y轴 设置y轴名称 同样将数据转换成列表.add_yaxis('评分', df['评分'].tolist())# 设置 配置项.set_global_opts(# 标题与副标题的设置title_opts=opts.TitleOpts(title="Top100电影评分", subtitle='副标题'),# x轴相关的设置 设置x轴的数据 向右旋转45 -45 为逆时针xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45)))# 列的设置 不显示每一列上面的数据.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
)
# 生成html 文件
c.render('Top100.html')
相关文章:
爬虫基础之爬取猫眼Top100 可视化
网站: TOP100榜 - 猫眼电影 - 一网打尽好电影 本次案例所需用到的模块 requests (发送HTTP请求) pandas(数据处理和分析 保存数据) parsel(解析HTML数据) pyecharts(数据可视化图表) pymysql(连接和操作MySQL数据库) lxml(数据解析模块) 确定爬取的内容: 电影名称 电影主演…...
微信小程序面试内容整理-如何使用wx.request()进行网络请求
wx.request() 是微信小程序中用于发送网络请求的 API,类似于浏览器中的 fetch 或 XMLHttpRequest。通过 wx.request(),开发者可以向服务器发送 HTTP 请求,获取数据或者提交数据。 基本用法 wx.request() 通过提供一个配置对象来进行配置,配置对象中包括请求的 URL、请求方法…...
力扣100二刷——图论、回溯
第二次刷题不在idea写代码,而是直接在leetcode网站上写,“逼”自己掌握常用的函数。 标志掌握程度解释办法⭐Fully 完全掌握看到题目就有思路,编程也很流利⭐⭐Basically 基本掌握需要稍作思考,或者看到提示方法后能解答⭐⭐⭐Sl…...
该错误是由于`KuhnMunkres`类未定义`history`属性导致的
该错误是由于KuhnMunkres类未定义history属性导致的。以下是具体分析及解决方案: 错误原因分析 属性缺失 代码中试图访问km.history,但KuhnMunkres类未在初始化或算法执行过程中定义该属性,因此触发AttributeError。动画实现逻辑不完整 用户…...
DAPO:一个开源的大规模大型语言模型LLM强化学习系统
推断扩展赋予了大型语言模型前所未有的推理能力,强化学习作为激发复杂推理的核心技术,清华大学联合字节提出了解耦片段与动态采样策略优化(DAPO)算法,并全面开源了一个最先进的大规模强化学习系统,该系统使用Qwen2.5-32B基础模型在AIME 2024上取得了50分的高分。还开源了…...
数据结构中的引用管理对象体系
数据结构中的引用管理对象体系 (注:似复刻变量即实例对象) 引用管理对象的,有引用就能管理到它所指向的对象,我们拿引用最终的目的就是管理那些我们需要管理的最终直接对象,引用也是对象,同时…...
【自学笔记】智能合约基础知识点总览-持续更新
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 智能合约基础知识点总览目录1. 智能合约简介2. 以太坊与Solidity示例代码:Hello World智能合约 3. Solidity基础语法示例代码:简单的计数器合…...
Linux的Shell编程
一、什么是Shell 1、为什么要学习Shell Linux运维工程师在进行服务器集群管理时,需要编写Shell程序来进行服务器管理。 对于JavaEE和Python程序员来说,工作的需要。Boss会要求你编写一些Shell脚本进行程序或者是服务器的维护,比如编写一个…...
【八股文】volatile关键字的底层原理是什么
volatile只能保证可见性和有序性 volatile如何保证可见性 当对volatile变量进行写操作的时候,JVM会向处理器发送一条lock前缀的命令,将这个缓存中的变量会写到系统内存中。 所以,如果一个变量被volatile所修饰,每次数据变化之后…...
一种基于大规模语言模型LLM的数据分析洞察生成方法
从复杂数据库中提取洞察对数据驱动决策至关重要,但传统手动生成洞察的方式耗时耗力,现有自动化数据分析方法生成的洞察不如人工生成的有洞察力,且存在适用场景受限等问题。下文将介绍一种新的方法,通过生成高层次问题和子问题,并使用SQL查询和LLM总结生成多表数据库中的见…...
三大供应链管理模式——解决方案与实操案例详解
库存压到喘不过气,紧急订单却总赶不上交付?这是许多企业的真实困境——推式供应链盲目备货导致积压,拉式供应链又因响应慢而丢单。供应链管理,本质上是在“计划”与“变化”之间把握平衡。上篇文章,我们系统梳理了供应…...
【C++】STL库面试常问点
STL库 什么是STL库 C标准模板库(Standard Template Libiary)基于泛型编程(模板),实现常见的数据结构和算法,提升代码的复用性和效率。 STL库有哪些组件 STL库由以下组件构成: ● 容器…...
集成学习之随机森林
目录 一、集成学习的含义 二、集成学习的代表 三、集成学习的应用 1、分类问题集成。(基学习器是分类模型) 2、回归问题集成。(基学习器是回归模型) 3、特征选取集成。 四、Bagging之随机森林 1、随机森林是有多个决策树&a…...
【SpringBatch】03步骤对象 (Step)控制与执行流程设计
目录标题 六、步骤对象 Step6.1 步骤介绍6.2 简单Tasklet6.3 chunk居于块Tasklet**ChunkTasklet 泛型** 6.4 步骤监听器6.5 多步骤执行6.6 步骤控制6.6.1 条件分支控制-使用默认返回状态6.6.2 条件分支控制-使用自定义状态值 6.7 步骤状态6.8 流式步骤 六、步骤对象 Step 前面…...
走进Java:String字符串的基本使用
❀❀❀ 大佬求个关注吧~祝您开心每一天 ❀❀❀ 目录 一、什么是String 二、如何定义一个String 1. 用双引号定义 2. 通过构造函数定义 三、String中的一些常用方法 1 字符串比较 1.1 字符串使用 1.2 字符串使用equals() 1.3 使用 equalsIgnoreCase() 1.4 cpmpareTo…...
AI如何变革亚马逊广告投放?DeepBI的智能优化解析
在亚马逊平台上,广告投放的方式正经历着从人工精细化运营到AI自动化优化的深刻变革。传统的广告投放依赖人工操作,涉及海量数据分析、手动调价、竞价策略优化等环节,既耗时又易受人为因素影响。而AI驱动的智能投放系统,如DeepBI&a…...
小程序电子画册制作,用户体验为王!
家人们,现在小程序电子画册超火,不管是展示产品还是分享故事都超实用。但在小程序电子画册制作过程中,用户体验真的得好好考量!今天就和大家唠唠这其中的门道。 1、加载速度:快才是王道 打开小程序的瞬间,…...
【商城实战(49)】解锁小程序端适配与优化,让商城飞起来
【商城实战】专栏重磅来袭!这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建,运用 uniapp、Element Plus、SpringBoot 搭建商城框架,到用户、商品、订单等核心模块开发,再到性能优化、安全加固、多端适配…...
英伟达GTC 2025大会产品全景剖析与未来路线深度洞察分析
【完整版】3月19日,黄仁勋Nvidia GTC 2025 主题演讲|英伟达 英伟达GTC 2025大会产品全景剖析与未来路线深度洞察分析 一、引言 1.1 分析内容 本研究主要采用了文献研究法、数据分析以及专家观点引用相结合的方法。在文献研究方面,广泛收集了…...
《TCP/IP网络编程》学习笔记 | Chapter 19:Windows 平台下线程的使用
《TCP/IP网络编程》学习笔记 | Chapter 19:Windows 平台下线程的使用 《TCP/IP网络编程》学习笔记 | Chapter 19:Windows 平台下线程的使用内核对象内核对象的定义内核对象归操作系统所有 基于 Windows 的线程创建进程与线程的关系Windows 中线程的创建方…...
线性规划的基本解、基本可行解和可行解
在线性规划中,基本解、基本可行解和可行解是非常重要的概念,特别是在使用单纯形法求解时。下面详细解释这些概念,并说明如何计算它们。 1. 线性规划问题的标准形式 线性规划的标准形式为: 其中: A 是 mn 的矩阵&…...
【AVRCP】服务发现互操作性:CT 与 TG 的 SDP 协议契约解析
目录 一、服务发现的核心目标:能力画像对齐 二、控制器(CT)服务记录:控制能力的声明 2.1 必选字段:角色与协议的刚性契约 2.1.1 服务类标识(Service Class ID List) 2.1.2 协议描述列表&am…...
[从零开始学习JAVA] Stream流
前言: 本文我们将学习Stream流,他就像流水线一样,可以对我们要处理的对象进行逐步处理,最终达到我们想要的效果,是JAVA中的一大好帮手,值得我们了解和掌握。(通常和lambda 匿名内部类 方法引用相…...
K8S学习之基础三十八:Kube-static-metrics监控
Kube-static-metrics监控 kube-static-metrics组件可以通过监听apiserver生成有关资源对象的状态指标,比如Node、Pod,需要注意的是kube-state-metrics只是简单的提供一个metrics数据,并不会存储这些指标数据,所以可以使用Prom…...
JAVA-多线程join()等待一个线程
引言:更多线程的认识可以看一篇博客: JAVA-Thread类实现多线程-CSDN博客 一、join()的作用 我们知道线程是随机调度执行的,但是有时候我们需要另一个任务完成了,我们才能继续,这个时候我们就可以使用join去等待线程结束…...
HashMap 常用方法
HashMap 常用方法 方法作用示例put(K key, V value)添加键值对map.put("apple", 10);get(Object key)获取指定键的值map.get("apple"); → 10remove(Object key)删除指定键的键值对map.remove("orange");containsKey(Object key)检查是否包含指…...
LogicFlow介绍
LogicFlow介绍 LogicFlow是一款流程图编辑框架,提供了一系列流程图交互、编辑所必需的功能和灵活的节点自定义、插件等拓展机制。LogicFlow支持前端自定义开发各种逻辑编排场景,如流程图、ER图、BPMN流程等。在工作审批流配置、机器人逻辑编排、无代码平…...
Docker搭建MySQL主从服务器
一、在主机上创建MySQL配置文件——my.cnf master服务器配置文件路径:/data/docker/containers/mysql-cluster-master/conf.d/my.cnf slave服务器配置文件路径: /data/docker/containers/mysql-cluster-master/conf.d/my.cnf master服务配置文件内容 …...
计算机二级web易错点(4)-选择题
选项 A:<input type"radio"> 用于创建单选按钮,同一组单选按钮中只能选择一个选项,所以该选项不符合要求。选项 B:HTML 中没有 type"check" 这种类型,是错误的写法,不能产生复选…...
3.19学习总结
学习了Java中的面向对象的知识点 完成一道算法题,找树左下角的值,错误的以为左下角只能是最底层的左节点,但指的是最底层最左边的节点...
Swagger-告别手写文档
文章目录 1. 引言2. Swagger是什么?3. SpringBoot2.7.3集成Swagger4. 常见注解 1. 引言 在RESTful API开发中,维护准确、易读的接口文档是团队协作的核心挑战,通常接口文档分为离线的和实时的。离线的接口文档工具有 YAPI等,其中…...
LeetCode-回文数
原题链接:9. 回文数 - 力扣(LeetCode) 首先我会想到的是,将这个数字转成字符串,然后通过前后指针判断是否相等,最终返回结果是否为回文数,时间复杂度:O(n),空间复杂度&am…...
数据结构之链表(双链表)
目录 一、双向带头循环链表 概念 二、哨兵位的头节点 优点: 头节点的初始化 三、带头双向链表的实现 1.双链表的销毁 2.双链表的打印 3.双链表的尾插和头插 尾插: 头插: 4.双链表的尾删和头删 尾删: 头删: …...
硬件基础(5):(2)二极管分类
文章目录 📌 二极管的分类与详细介绍1. **整流二极管(Rectifier Diode)**特点:选型依据:补充说明: 2. **快恢复二极管(Fast Recovery Diode)**特点:选型依据:…...
MQTT 和 Modbus 的优缺点对比
MQTT和Modbus协议是物联网(IoT)躲不开的两种协议,市面上覆盖了百分之98的产品。 MQTT由IBM在1999年发布。2014年,MQTT成为OASIS(结构化信息标准促进组织)的标准,后来被ISO/IEC 20922正式采纳&a…...
Android14 系统左右声音通道设置代码
Android14 系统左右声音通道设置代码 文章目录 Android14 系统左右声音通道设置代码一、前言二、系统级设置左右声音通道分析1、各方案设置左右声音通道的主要代码(1)3588 Android13 方案的实现(2)9679 Android14 方案的实现&…...
【Golang】go如何通过atomic原子操作来确保数据一致性
✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全…...
2025年汽车加气站操作工考试精选题库
汽车加气站操作工题库中题目及答案: 单项选择题 1、按压力容器的设计压力分为( )个压力等级。 A. 3 B. 4 C. 5 答案:B 2、缓冲罐的安装位置在天然气压缩机( )。 A. 前 B. 后 C. 中间 答案&#…...
LLVM学习--外部项目
不包含于核心LLVM和Clang存储库的项目需要单独下载。在本章中,我们将介绍各种其他官方LLVM项目,并介绍如何构建和安装它们。仅仅对核心LLVM工具感兴趣的读者可以跳过本章,或者在需要的时候翻阅。 在本章中,我们将介绍以下项目安装…...
AUTOSAR_DoIP_Detailed
AUTOSAR DoIP模块详解 基于AUTOSAR标准的诊断通信协议实现 目录 架构概述通信流程消息格式配置结构详细序列总结1. 架构概述 1.1 模块架构 DoIP模块是AUTOSAR基础软件中负责诊断通信的核心组件。它通过TCP/IP网络实现诊断工具与ECU之间的通信。主要功能包括: 基础功能 基于UD…...
C语言:(大数相加版)数字阶梯求和
题目: 给定a和n,计算aaaaaaa...a(n个a)的和。 输入 测试数据有多组,输入a,n(1<a<9,1<n<100)。 输出 对于每组输入,请输出结果。 分析: 1. 方式和规定:大数相加必然越界…...
Echarts 折线图
功能 每月记录值,当数据大于600画红线,小于300画蓝线,其他在中间值为黑线。鼠标移动上去后,现在数据值。 option {tooltip: {trigger: axis, // 触发类型:坐标轴触发show: true, // 显示提示框formatter: function …...
element-plus中Dropdown下拉菜单组件的使用
1、基本使用 复制下面的代码: <!-- 选择查询类型 --> <el-dropdown trigger"click"><span class"el-dropdown-link"><span style"width:60px;color:#404040">查询类型</span><el-icon class"e…...
Kafka详解——介绍与部署
1. 什么是 Kafka? Kafka 是一个分布式的消息队列系统,最初由 LinkedIn 开发,后来成为 Apache 开源项目。它的主要用途包括实时数据处理、日志收集、数据流管道构建等。Kafka 具备高吞吐量、可扩展性、持久性和容错性,广泛应用于大…...
ngx_http_core_srv_conf_t
定义在 src\http\ngx_http_core_module.h typedef struct {/* array of the ngx_http_server_name_t, "server_name" directive */ngx_array_t server_names;/* server ctx */ngx_http_conf_ctx_t *ctx;u_char *file_…...
4.angular 服务
服务是在controller里面引入的服务: 最好是内部服务在前面,自定义服务在后面 内部服务 $scope $scope.$watch(‘属性名’, function(newVal, oldVal) {}, true) true是深度监听,对象函数等$scope.$apply 触发页面更新,里面传入回调函数,比如说之前那个…...
[动手学习深度学习]26. 网络中的网络 NiN
前面的LeNet、AlexNet、VGG在设计上的共同之处在于:先以卷积层构成的模块充分抽取空间特征,再以全连接层构成的模块来输出分类结果 其中AlexNet和VGG对LeNet的改进主要在于如何对这两个模块价款(增加通道数)和加深 这一节的NiN提出…...
【设计模式】原型模式
三、原型模式 3.2 原型模式 同工厂模式一样,原型(Prototype) 模式也是一种创建型模式。原型模式通过一个对象 (原型对象)克隆出多个一模一样的对象。实际上,该模式与其说是一种设计模式,不如说是 一种创建对象的方法(对象克隆),尤其是创建给…...
力扣题目汇总 使用贪心算法解决问题
贪心算法是一种通过局部最优解来获得全局最优解的算法。它的核心思想是:在每一步中选择当前看起来最优的解,并希望通过一系列局部最优选择最终得到全局最优解。 121.买卖股票的最佳时机 分析: 在每一天求出当前最优的利润,也就…...
Mac下Ollama安装全攻略:开启本地大模型之旅
文章目录 Mac下Ollama安装全攻略:开启本地大模型之旅一、Ollama 是什么功能特点优势应用场景 二、安装前准备(一)系统要求(二)硬件要求 三、下载安装包(一)官网下载(二)其…...