机器学习实操 第二部分 神经网路和深度学习 第14章 使用卷积神经网络进行深度计算机视觉
机器学习实操 第二部分 神经网路和深度学习 第14章 使用卷积神经网络进行深度计算机视觉
内容概要
第14章深入探讨了卷积神经网络(CNNs)及其在计算机视觉中的应用。CNNs受大脑视觉皮层的启发,通过局部感受野和权值共享机制,能够高效地处理图像数据。本章从CNN的基本构建块(如卷积层和池化层)讲起,介绍了多种经典的CNN架构(如LeNet-5、AlexNet、GoogLeNet、ResNet等),并探讨了CNN在目标检测和语义分割等任务中的应用。此外,还介绍了如何使用Keras实现CNN模型,以及如何利用预训练模型进行迁移学习。
主要内容
-
卷积层和池化层
- 卷积层:通过卷积操作提取图像的局部特征。卷积层使用多个滤波器(filters)生成特征图(feature maps),每个滤波器负责检测图像中的特定模式。
- 池化层:用于降低特征图的空间维度,减少计算量和内存使用,同时引入对小平移的不变性。常见的池化方法包括最大池化(max pooling)和平均池化(average pooling)。
-
CNN架构
- LeNet-5:由Yann LeCun在1998年提出,用于手写数字识别。它包含交替的卷积层和池化层,以及全连接层。
- AlexNet:在2012年ImageNet挑战赛中获胜,引入了更大的网络深度和 Dropout 正则化。
- GoogLeNet:通过引入Inception模块,实现了更深的网络结构,同时减少了参数数量。
- ResNet:通过残差连接(skip connections)解决了深层网络的梯度消失问题,使得训练更深的网络成为可能。
- 其他架构:包括Xception、ResNeXt、DenseNet、MobileNet、CSPNet和EfficientNet等,每种架构都有其独特的设计和优势。
-
目标检测和语义分割
- 目标检测:不仅需要对图像中的物体进行分类,还需要定位物体的位置。常见的方法包括滑动窗口法和基于区域的CNN(R-CNN)。
- 语义分割:对图像中的每个像素进行分类,确定其所属的物体类别。全卷积网络(FCN)和U-Net等架构在这一任务中表现出色。
-
迁移学习
- 使用预训练的CNN模型进行迁移学习,通过在新的数据集上微调模型的高层,可以快速适应新的图像分类任务。
-
数据增强
- 数据增强技术通过生成训练数据的变体(如旋转、翻转、缩放等)来增加训练集的多样性,减少过拟合的风险。
关键代码和算法
14.1 使用Keras实现ResNet-34
DefaultConv2D = partial(tf.keras.layers.Conv2D, kernel_size=3, strides=1, padding="same", kernel_initializer="he_normal", use_bias=False)class ResidualUnit(tf.keras.layers.Layer):def __init__(self, filters, strides=1, activation="relu", **kwargs):super().__init__(**kwargs)self.activation = tf.keras.activations.get(activation)self.main_layers = [DefaultConv2D(filters, strides=strides),tf.keras.layers.BatchNormalization(),self.activation,DefaultConv2D(filters),tf.keras.layers.BatchNormalization()]self.skip_layers = []if strides > 1:self.skip_layers = [DefaultConv2D(filters, kernel_size=1, strides=strides),tf.keras.layers.BatchNormalization()]def call(self, inputs):Z = inputsfor layer in self.main_layers:Z = layer(Z)skip_Z = inputsfor layer in self.skip_layers:skip_Z = layer(skip_Z)return self.activation(Z + skip_Z)model = tf.keras.Sequential([DefaultConv2D(64, kernel_size=7, strides=2, input_shape=[224, 224, 3]),tf.keras.layers.BatchNormalization(),tf.keras.layers.Activation("relu"),tf.keras.layers.MaxPool2D(pool_size=3, strides=2, padding="same"),
])prev_filters = 64
for filters in [64] * 3 + [128] * 4 + [256] * 6 + [512] * 3:strides = 1 if filters == prev_filters else 2model.add(ResidualUnit(filters, strides=strides))prev_filters = filtersmodel.add(tf.keras.layers.GlobalAvgPool2D())
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(10, activation="softmax"))model.compile(loss="sparse_categorical_crossentropy",optimizer=tf.keras.optimizers.SGD(learning_rate=0.1),metrics=["accuracy"])
精彩语录
-
中文:卷积神经网络(CNNs)在图像识别任务中表现出色,因为它们能够利用图像的局部相关性。
英文原文:CNNs are particularly well suited for image recognition tasks because they can leverage the local correlations in images.
解释:强调了CNNs在图像处理中的优势。 -
中文:ResNet通过引入残差连接,解决了深层网络的梯度消失问题,使得训练更深的网络成为可能。
英文原文:ResNet introduced residual connections to address the vanishing gradients problem in deep networks, making it possible to train much deeper networks.
解释:介绍了ResNet的关键创新。 -
中文:数据增强技术通过生成训练数据的变体,有效增加了训练集的多样性,减少了过拟合的风险。
英文原文:Data augmentation techniques effectively increase the diversity of the training set by generating variants of the training data, reducing the risk of overfitting.
解释:解释了数据增强的作用。 -
中文:全卷积网络(FCN)通过将全连接层替换为卷积层,能够处理任意大小的输入图像。
英文原文:Fully Convolutional Networks (FCNs) replace dense layers with convolutional layers, allowing them to process images of any size.
解释:介绍了FCN的特点。 -
中文:迁移学习通过利用预训练模型的高层特征,能够快速适应新的图像分类任务。
英文原文:Transfer learning leverages the high-level features learned by pretrained models to quickly adapt to new image classification tasks.
解释:强调了迁移学习的优势。
总结
通过本章的学习,读者将掌握卷积神经网络(CNNs)的基本原理和实现方法。内容涵盖了CNN的构建块、经典架构、目标检测和语义分割等高级应用,以及如何使用Keras实现CNN模型和进行迁移学习。这些知识将帮助读者在计算机视觉领域构建高效、准确的模型。
相关文章:
机器学习实操 第二部分 神经网路和深度学习 第14章 使用卷积神经网络进行深度计算机视觉
机器学习实操 第二部分 神经网路和深度学习 第14章 使用卷积神经网络进行深度计算机视觉 内容概要 第14章深入探讨了卷积神经网络(CNNs)及其在计算机视觉中的应用。CNNs受大脑视觉皮层的启发,通过局部感受野和权值共享机制,能够…...
电商双11美妆数据分析(2)
接下来用seaborn包给出每个店铺各个大类以及各个小类的销量销售额 关于性别 接下来考虑性别因素,了解各类产品在男性消费者中的销量占比 男士的销量基本来自于清洁类,其次是补水类。而这两类正是总销量中占比最高的两类。 非男士专用中,补水…...
数字康养新范式:七彩喜平台重构智慧养老生态的深度实践
在全球人口老龄化程度日益加深的当下,养老问题成为社会关注的焦点。 智慧养老作为一种创新的养老模式,借助现代信息技术,为提升老年人生活质量、缓解养老压力提供了新的思路与途径。 而当前中国 60 岁以上人口已达 2.8 亿,占总人…...
2D横板跳跃游戏笔记(查漏补缺ing...)
1.Compression(压缩质量):可以改为None,不压缩的效果最好,但占用内存 2.Filter Mode(过滤模式):可以选择Point(no filter) 3.Pixels Per Unit:是…...
c++中“”符号代表引用还是取内存地址?
c中,“&”符号有时代表引用,有时代表取地址符。 一、引用和取址 引用是一个已存在变量的别名,修改别名的值,原始变量的值也会改变;而取地址符则是得到一个指针,该指针指向变量的内存地址。 1&#x…...
AGV智能搬运机器人:富唯智能引领工业物流高效变革
在智能制造与工业4.0深度融合的今天,物流环节的高效与精准已成为企业核心竞争力的关键。富唯智能凭借其自主研发的AGV智能搬运机器人,以创新技术重塑工业物流标准,助力企业实现降本增效的跨越式发展。 一、技术突破:精准导航与智能…...
今年中国新能源汽车销量已破400万辆 大增42%
快科技5月7日消息,乘联分会公布了2025年4月新能源乘用车厂商批发销量数据。 纵观2025年以来,综合预估今年1-4月累计批发400万辆,同比增长42%。 根据中汽协发布的数据,2024年中国新能源汽车市场产销两旺,全年累计销量…...
广告屏蔽插件的内部细节EasyList 规则详解:为什么广告屏蔽不直接用 CSS/JS?(彩蛋)
广告屏蔽插件的内部细节:EasyList 规则详解;为什么广告屏蔽不直接用 CSS/JS屏蔽广告? 我们经常在浏览器中使用一些广告屏蔽插件(如 uBlock Origin、AdGuard、AdBlock Plus)已经成为许多用户的必备插件。 刚开…...
TCGA数据库临床亚型可用!贝叶斯聚类+特征网络分析,这篇 NC 提供的方法可以快速用起来了!
生信碱移 贝叶斯网络聚类 CANclust是一种基于贝叶斯的聚类方法,系统性地对基因突变、细胞遗传学信息和临床指标进行联合建模,用于多种模态数据的联合聚类分析,并识别在患者群体中反复出现的特征模式。 个体的遗传与环境背景决定其应对疾病的…...
好的软件系统
一个“好的软件系统”通常具有以下几个核心特征,简洁来说就是:“能用、好用、易维护、可扩展、安全可靠”。 一个好的软件系统,不只是“能跑起来”,而是“跑得稳、跑得快、跑得久,而且随时能换赛道还能继续跑 高内聚2.…...
某大型交通规划设计院转型实践:数智化破局复杂工程项目管理,实现高效人力资源一体化管理
随着中国经济的快速发展及基础设施建设的不断推进,交通规划设计行业正迎来新的机遇与挑战。作为行业的标杆企业,某大型交通规划设计院(以下简称G院)自1952年成立以来,始终致力于为公路、市政、建筑、园林规划等领域提供…...
格雷狼优化算法`GWO 通过模拟和优化一个信号处理问题来最大化特定频率下的功率
这段代码是一个Python程序,它使用了多个科学计算库,包括`random`、`numpy`、`matplotlib.pyplot`、`scipy.signal`和`scipy.signal.windows`。程序的主要目的是通过模拟和优化一个信号处理问题来最大化特定频率下的功率。 4. **定义类`class_model`**: - 这个类包含了信号…...
react中的用法——setDisabled dva dispatch effects
setDisabled 在react中,setDisabled通常是指通过状态管理来控制某个组件(如按钮、输入框等)的禁用状态。虽然react本身没有内置的setDisabled方法,但你可以使用useState钩子来实现类似的功能。以下是一个简单的示例,展…...
深入解析华为交换机中的VRRP原理
在现代网络架构中,高可用性和冗余性是确保网络稳定运行的关键因素。虚拟路由冗余协议(VRRP)作为一种广泛应用的冗余协议,能够有效地提升网络设备的可用性。特别是在华为交换机中,VRRP的实现为网络提供了更强大的灵活性…...
优艾智合CEO张朝辉荣膺U45杰出青年企业家
2025年是深圳经济特区成立45周年,也是深商会成立20周年。适逢五四青年节来临,深商总会、深圳市商业联合会、深圳市老字号协会、深圳市中小企业公共服务联盟、香港大湾区工商业联合会、广东省粤港澳大湾区产业协同发展联合会、深圳市深商公益基金会、深圳…...
解决HomeAssistant 无法安装 samba share问题
最近家里树莓派上的homeassistant 被折腾崩了,重新安装过程中发现加载项“Official add-ons”里面的“samba share”、“file edit”、“Mosquitto broker”等常用组件都不能安装。报以下错误: [supervisor.docker.interface] Cant install homeassista…...
【工具】HandBrake使用指南:功能详解与视频转码
HandBrake使用指南:功能详解与视频转码 一、前言 高清视频在当下日益普及,从影视制作到个人拍摄,从社交媒体发布到远程教育,如何高效地压缩、转换和管理视频文件的体积与清晰度,成为内容创作者与技术开发者的核心任务…...
代码随想录算法训练营第三十四天
LeetCode题目: 198. 打家劫舍213. 打家劫舍 II337. 打家劫舍 III3341. 到达最后一个房间的最少时间 I(每日一题) 其他: 今日总结 往期打卡 198. 打家劫舍 跳转: 198. 打家劫舍 学习: 代码随想录公开讲解 问题: 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都…...
数字电子技术基础(五十五)——D触发器
1 D触发器 我们知道电平触发在CLK1、S1、R1的时候,有不确定的状态,输出会进入不稳定状态,这种情况下电路可能会导致逻辑错误,通过如果在时钟信号有效期间,如果S和R在此期间发生了多次变化,那么输出会随着发…...
Spark external shuffle service
yarn external shuffle service 参考链接: https://mp.weixin.qq.com/s/ZggMnX2r4uj8TrzUPTMLhQ shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tm…...
用 NGINX 打造高性能 FastCGI 加速 `ngx_http_fastcgi_module`
一、安装与启用 # 在编译 NGINX 源码时加上: ./configure --with-http_fastcgi_module make && sudo make install# 或确保你使用的二进制已内置(大多数发行版都默认包含) nginx -V | grep fastcgi二、基础转发配置 http {server {…...
penEuler操作系统结合豆包测试github仓库8086-Emulator项目
penEuler操作系统结合豆包测试github仓库8086-Emulator项目 8086-Emulator项目:https://github.com/YJDoc2/8086-Emulator 申请空间 首先在华为开发者空间申请一个免费云主机(penEuler操作系统):https://huaweicloud.csdn.net/…...
MapReduce中的分区器
在MapReduce框架中,分区器(Partitioner)是一个关键组件,其主要作用是决定由一个maptask生成的键值,最终是生成在哪个文件中的。 默认的分区器是HashPartitioner,它会根据键的哈希值将数据均匀分配到各个Red…...
【愚公系列】《Manus极简入门》024-表演艺术教练:“舞台魔法师”
🌟【技术大咖愚公搬代码:全栈专家的成长之路,你关注的宝藏博主在这里!】🌟 📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主! …...
CentOS 系统升级失败的原因与排查
一、常见升级失败原因 1. 软件包依赖问题 循环依赖:软件包A依赖B,B又依赖A 版本冲突:新旧版本软件包不兼容 缺失依赖:所需依赖包未正确安装或不可用 2. 存储空间不足 /boot分区空间不足(常见于内核更新࿰…...
【useOperatorData Hook 改造实践】
useOperatorData Hook 改造实践 1. 背景 在我们的大屏项目中,运营商数据是一个核心的业务概念。几乎所有业务模块都需要根据当前选择的运营商来获取对应的数据。这就要求我们有一个统一的、可靠的方式来处理运营商相关的数据获取和状态变更。 1.1 原有实现 最初…...
vue3+ts的computed属性怎么用?
首先我们要进行引入computed这个属性,然后定义用这个属性的时候我们要先了解这个属性。 这个computed其实分为里两种!一种是仅可读的,还有一种就是即可以读,又可以修改的! 那我们常用的肯定是后者!我们引…...
游戏服务器怎么挑选细节与技巧深度解析
在开发或运营网络游戏时,选择合适的游戏服务器是决定游戏体验和运营成败的关键因素。本文将深入分析游戏服务器挑选的核心考量点和实用技巧。 一、基础架构选择 1. 服务器类型对比 类型物理服务器云服务器混合架构 优势完全控制权、高性能稳定弹性扩展、全球部署…...
ZYNQ笔记(十八):VDMA VGA彩条显示
版本:Vivado2020.2(Vitis) 任务:以 VDAM IP 为核心实现 VGA 彩条图像显示 (PS 端写入彩条数据到 DDR 通过 VDMA 读取出来输出给 VGA 进行显示) 目录 一、介绍 (1)AXI4-Stream Vide…...
MCU缓存架构设计与优化策略
MCU缓存设计通过优化指令与数据的访问效率来提升系统性能并降低功耗。其核心架构包括指令缓存(I-Cache)和数据缓存(D-Cache),I-Cache用于缓存从Flash或外部存储器读取的指令,减少CPU等待时间,适…...
制作一款打飞机游戏39:鼠标控制
绘制敌人指示器 接下来,我想在时间线上绘制敌人指示器,以便更直观地看到敌人的生成情况。我调整了指示器的位置,使其与界面上的按钮相匹配。这虽然增加了一些工作量,但也让界面看起来更加整洁。 解决敌人重叠问题 然而…...
【LUT技术专题】基于扩展卷积的极快速LUT算法
ECLUT:Efficient Look-Up Table from Expanded Convolutional Network for Accelerating Image Super-resolution(2024 AAAI) 专题介绍一、研究背景二、ECLUT方法2.1 EC模块2.2 ECConv感受野的分析2.3 放缩系数α 三、实验结果四、总结 本文将…...
1.3 Expression.Lambda表达式树的介绍
在 C# 中,几乎所有东西都是表达式,比如: 1). 3是常量表达式 : Expression.Constant 2). x,y是变量表达式:Expression.Parameter(typeof(变量类型), 变量名称); 3). !a 一元表达式 4). a+b 二元表达式, 比如Expression.Add 5).Math.Sin(x) 方法调用表达式, Expre…...
cursor配置mcp并使用
确保在本地安装了Node.js(包含 npm),下载地址:Node.js — Run JavaScript Everywhere 检查是否安装成功 node -v npm -v项目配置: 在项目目录中创建一个 .cursor/mcp.json文件 server与clients的地址:MC…...
基于条件随机场(CRF)的词性标注实践探索
在自然语言处理领域,词性标注是一项基础且关键的任务,它能够为后续的语义分析、句法分析等工作奠定坚实基础。条件随机场(Conditional Random Field,CRF)作为一种强大的概率图模型,在词性标注等序列标注任务…...
【C++】C++中this指针的介绍及使用
this指针的介绍及使用 1.this指针的作用示例代码1:(this指针存放当前对象的地址)示例代码2:(this指针的使用) 2.this指针的写法示例代码: 1.this指针的作用 Cat &cmpAge(Cat &other) {…...
51单片机入门教程——AT24C02(I2C 总线)(续)
前言 本教程基于B站江协科技课程进行个人学习整理,专为拥有C语言基础的零基础入门51单片机新手设计。既帮助解决因时间差导致的设备迭代调试难题,也助力新手快速掌握51单片机核心知识,实现从C语言理论到单片机实践应用的高效过渡 。 1.知识…...
Vue3响应式:effect作用域
# Vue3响应式: effect作用域 什么是Vue3响应式? 是一款流行的JavaScript框架,它提供了响应式和组件化的视图组织方式。在Vue3中,响应式是一种让数据变化自动反映在视图上的机制。当数据发生变化时,与之相关的视图会自动更新。 作用…...
Python打卡 DAY 18
聚类后的分析:推断簇的类型 知识点回顾: 1. 推断簇含义的2个思路:先选特征和后选特征 2. 通过可视化图形借助ai定义簇的含义 3. 科研逻辑闭环:通过精度判断特征工程价值 作业:参考示例代码对心脏病数据集采取类似操作ÿ…...
C++面向对象 继承
格式 class 子类:继承方式 父类 {};//子类 又称为派生类 //父类 又称为基类 三种继承方式 继承中的同名成员处理 继承中的同名静态成员处理 包含子对象的派生类构造函数 作用: 包含子对象的派生类构造函数用于在创建派生类对象时&…...
Docker容器网络架构深度解析与技术实践指南——基于Linux内核特性的企业级容器网络实现
第1章 容器网络基础架构 1 Linux网络命名空间实现原理 1.1内核级隔离机制深度解析 1.1.1进程隔离的底层实现 通过clone()系统调用创建新进程时,设置CLONE_NEWNET标志位将触发内核执行以下操作: 内核源码示例(linux-6.8.0/kernel/fork.c&a…...
【上位机——MFC】对象和控件绑定
对象和控件绑定 将控件窗口和类对象绑定具有两大作用 如果和数据类对象绑定,对象和控件可以进行数据交换。 如果和控件类对象绑定,对象就可以代表整个控件。 与数据类型对象绑定的使用 数据类型对象和控件可实现数据交互重写父类成员虚函数DoDataExch…...
Ubuntu20.04安装使用ROS-PlotJuggler
Ubuntu20.04安装使用ROS-PlotJuggler 安装PlotJuggler使用Plotjuggler 写在前面,先确保安装了ROS-Noetic,如果没有安装,可通过以下程序一键安装: wget http://fishros.com/install -O fishros && . fishros安装PlotJuggl…...
Go语言八股之并发详解
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 非常期待和您一起在这个小…...
紫光同创FPGA实现HSSTHP光口视频传输+图像缩放,基于Aurora 8b/10b编解码架构,提供3套PDS工程源码和技术支持
目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目紫光同创FPGA相关方案推荐我这里已有的 GT 高速接口解决方案Xilinx系列FPGA实现GTP光口视频传输方案推荐Xilinx系列FPGA实现GTX光口视频传输方案推荐Xilinx系列FPGA实…...
怎样避免住宅IP被平台识别
要有效避免住宅IP被平台识别,需从IP质量选择、环境参数伪装、行为模式模拟、技术细节处理等多维度构建防御体系。以下是基于行业实践的综合性解决方案: 一、确保住宅IP的高纯净度 选择真实家庭网络IP 验证IP是否归属真实家庭宽带(非机房IP伪装…...
(1-1)Java的JDK、JRE、JVM三者间的关系
目录 1.JVM (Java 虚拟机) 2. JRE (Java运行时环境) 3. JDK(Java开发工具包) 1.JVM (Java 虚拟机) JVM可看作程序的自行引擎,将字节码转化为特定平台上的机器代码执行 功能: 加载并执行字节码文件:JVM从 .class文件中加载字节码…...
机器学习之嵌入(Embeddings):从理论到实践
机器学习之嵌入(Embeddings):从理论到实践 摘要 本文深入探讨了机器学习中嵌入(Embeddings)的概念和应用。通过具体的实例和可视化展示,我们将了解嵌入如何将高维数据转换为低维表示,以及这种转换在推荐系统、自然语言处理等领域的实际应用…...
【漫话机器学习系列】245.权重衰减(Weight Decay)
权重衰减(Weight Decay)详解 | L2正则化的奥秘 在深度学习和机器学习模型训练中,我们常常面临 过拟合(Overfitting) 的问题。 为了提高模型在未见数据上的泛化能力,正则化(Regularization&…...
DSENT (Design Space Exploration of Networks Tool) 配合gem5
概述 DSENT是一种建模工具,旨在快速探索电子和新兴的片上光电网络(NoC)的设计空间。它为各种网络组件提供分析和参数化模型,并可在一系列技术假设下移植。给定架构级参数,DSENT从电气和光学构建块分层构建指定的模型,并输出详细的功率和面积估计。 版本 当前:0.91(2…...