《基于神经网络实现手写数字分类》
《基于神经网络实现手写数字分类》
一、主要内容:
1、通过B站陈云霁老师的网课,配合书本资料,了解神经网络的基本组成和数学原理。
2、申请云平台搭建实验环境
3、基于5个不同的实验模块逐步理解实验操作步骤,并实现不同模块代码的补全
4、实验运行阶段,在MobaXterm上进行实验运行,并根据显示的准确率的高低调整实验参数的大小。
二、实验部分:
(一)模型的搭建
在B站系统的学习完《智能计算系统》对应章节的网课的后,对于神经网络的组成我有了更清晰的了解。从机器学习到神经网络的过渡,掌握了从单变量线性回归到多变量线性回归,再到感知机、神经元、激活函数,偏置等概念的深度挖掘,对于深度学习这块知识的了解有了比较明晰的轮廓。
再到后来对于不同具体组成的了解过程中,基于数学公式,对于正向传播、激活函数、损失函数、反向传播等不同概念,掌握了从数学分析的角度出发,对于不同过程中对于不同类常用激活函数和损失函数的优缺点领会深刻。
在领会底层数学原理后,基于已有代码的引导,我进行了对于layers_1.py文件当中的不同函数的代码完善,实现FullyConnectedLayer,ReLULayer,SoftmaxLossLayer代码搭建,分别对应了神经网络中的全连接层、激活层、Softmax 损失层的搭建,实现了三层神经网络的底层逻辑。
然后在mnist_mlp_cpu.py文件中,我首先填补了load_mnist 读取和预处理 MNIST 中训练数据和测试数据的对应代码
图(1)
图(2):对于图(1)代码的补全
再进行了基于layer_1.py类函数对于多层感知机模型的搭建
图(3)
图(4):对于图(3)代码的补全
二、基于准确率对于模型的优化
在完成模型的搭建后,我对于整个模型进行了一些优化,比如说设计了学习率递减的训练模式,不过在后续验证过程中发现这对于模型准确率的影响不大,准确率依旧维持在90%,后来又设计了提取损失函数最小值的模型参数进行保存的函数,对于准确率有3个百分点的提升,最后在参数的设计上,我先是将两个全连接层的神经元个数由32、16提升到128、128,发现准确率的起伏不超过一个点,后来我修改了batch_size,也就是一次训练的样板个数,从100缩减到10-20这个区间内,准确率才再次提高了5个百分点左右,并逐步稳定在97—98%这个范围内,最后我将两个全连接层的神经元个数进行削减,削减到64、32左右,在对于准确率影响不大的基础上加快了训练速度。
在这个阶段的学习中,我额外地了解到了过拟合和正则化的概念,比如利用bagging或者Dropout方法进行正则化,提高模型的泛化能力。同时我也明白了对于数据集而言,和训练集的高度拟合并不一定意味着效果更好,而是意味着模型的泛化能力可能会变差甚至降低许多。在整个实验过程中,我在训练模型的时候有出现过损失函数为0的情况,但实际展现出来的准确率并不是最好的。
图(5)
如图(1)所示,在调整参数的情况下,使模型对于训练集数据完全拟合,但在测试集当中,并没有展现出100%的准确率。并且在后续的学习过程中,有时候损失函数的值极低,但并未等于0的情况下,对于训练集的准确率,反而有提高的趋势。如图(2)所示,该图的损失函数值为0.000001
图(6)
三、基于不同方法对于模型性能的评估
除此之外,我也对于模型精度的评估有了一定的了解,知道了不同模型适合的评估方法,比如留一法交叉验证或者是k-折交叉验证,这些模型的验证方法是从评估该模型的性能的同时考虑泛化性的角度提出的。不过这个实验操作过程中的模型评估方法只是单纯地依靠测试数据集进行准确率的计算。
四、总结
在这段学习过程中,通过B站的网课,我对于深度学习的底层概念,神经网络组成等方面有一个明确地认知。最大的感受其实是深度学习的局限性。在陈老师的课程中,在他讲完基础的人工智能发展历程,从行为主义到符号主义,再到连接主义的这个历史进程中。他提到了当下的主流是连接主义,不可避免地讲到了深度学习的一些问题。即泛化能力差,缺乏推理能力,缺乏可解释性,鲁棒性欠佳。在后续的学习过程中慢慢就会发觉,这些问题其实涵盖了整个学习过程中的不同方面,由问题产生了解决方法,然后再进一步对于深度学习的过程进行优化。
比如泛化能力差,训练模型对于训练集的拟合程度是根据损失函数值的大小进行评估的,而在具体情况中,可能体现为全连接层的层数过多,或者全连接层当中的神经元个数过多,导致高度拟合的情况出现,此时损失函数的值过小,容易导致该训练模型对于训练集过于拟合,也就是过拟合的概念的产生,在过拟合的这个问题上,对应产生了正则化的概念,可以通过适当的忽略一些神经元参数,生成子神经网络,提高模型的泛化性等方法进行优化。
然后是推理能力和可解释性的缺乏,模型基于不同的初始化参数进行训练,对于具体的图像,它是通过数学分析的方法进行概率的计算,并作出推测。这个实验的模型是多层感知机(MLP),主要是基于全连接层。而MLP的神经元网络由于是以全连接层为基础,所以每个全连接层的神经元都和上一个全连接层或者是输入层的所有神经元相连接。这也就意味着MLP主要侧重于对于图像数据的整体特征的一个提取,图像的每个像素点后都有一个神经元对应连接。
而卷积网络模型(CNN)是利用卷积核对于图像数据的特征进行提取,基于卷积核的大小样式的不同,提出的特征也会不同,与MLP不同,CNN更侧重对于局部特征的提取,这些局部特征包括图像边缘细节,这是MLP不擅长的。而在提取到图像不同位置的特征后,CNN再通过全连接层对于各类特征的进行拼图实的操作,最后计算出概率。
再者是鲁棒性欠佳,这个问题主要和正向传播与反向传播过程中的激活函数和损失函数的选择有关。在陈老师的课程中主要提到的是一些激活函数的输出值为非0均值,比如sigmoid函数,这类函数在计算的时候会导致w计算时梯度都是正的,影响神经网络的收敛。而且如果输入的实数过大的时候,sigmoid的输出无限接近于1,梯度下降十分不明显,造成梯度消失的情况的出现。所以为了提高模型的鲁棒性,可以考虑一些带负值输出的函数,比如课程里讲到的tanh函数或者leaky-Relu函数作为激活函数,以此增强代码的健壮性。
五、建议
这个学习阶段是承接了书本上一个学习阶段的一些学习结果进行的。所以其实是在一定基础上对于原来学习的深度学习知识在底层实现上有了更系统化的认知。没有什么过多的学习建议,因为基于底层的一些学习,是基于数学知识的一些推理理解。认真细致地慢慢学完就可以。正如陈云霁老师在课程中讲到的一段话,每有一个数学公式或符号的出现,就意味可能会有一部分人会因为看不懂而退走。好好学完就行,就这样。
相关文章:
《基于神经网络实现手写数字分类》
《基于神经网络实现手写数字分类》 一、主要内容: 1、通过B站陈云霁老师的网课,配合书本资料,了解神经网络的基本组成和数学原理。 2、申请云平台搭建实验环境 3、基于5个不同的实验模块逐步理解实验操作步骤,并实现不同模块代码…...
车载诊断架构 --- 车载诊断概念的深度解读
我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 周末洗了一个澡,换了一身衣服,出了门却不知道去哪儿,不知道去找谁,漫无目的走着,大概这就是成年人最深的孤独吧! 旧人不知我近况,新人不知我过…...
四、探索LangChain:连接语言模型与外部世界的桥梁
一、什么是 LangChain LangChain 是一个开源的软件框架,旨在帮助开发者高效构建和部署基于**大型语言模型(LLM)**的应用程序。它通过提供一系列工具、组件和接口,简化了从模型调用、提示工程到复杂应用开发的全流程,使得开发者能够快速将 LLM 集成到实际场景中。 1. 核心…...
LangChain4j中的Chat与语言模型API详解:构建高效对话系统的利器
LangChain4j中的Chat与语言模型API详解:构建高效对话系统的利器 引言:大模型时代的开发利器 在人工智能快速发展的今天,大型语言模型(LLM)已成为构建智能应用的核心组件。LangChain4j作为Java生态中领先的LLM集成框架…...
C++中const与constexpr的区别
在C中,const和constexpr都用于定义常量,但它们的用途和行为有显著区别: ### 1. **初始化时机** - **const**:表示变量是只读的,但其值可以在**编译时或运行时**初始化。 cpp const int a 5; // 编译…...
长亭2月公开赛Web-ssrfme
环境部署 拉取环境报错: 可以尝试拉取一下ubuntu:16.04,看是否能拉取成功 将wersion:"3"删掉 我拉去成功之后,再去拉取环境,成功! 访问环境 测试ssrf 源码 <?php highlight_file(__file__…...
AI日报 - 2025年4月18日
🌟 今日概览(60秒速览) ▎🤖 AGI探讨 | 专家激辩AGI定义与实现时间点,Causal AI被视为关键一步,o3模型预测2027年实现引关注。 Causal AI强调因果关系而非模式;专家清单推荐不同模型适用场景;AGI定义及何时…...
Spring IoC 详解
在 Spring IoC& DI 详解 中对 IoC已经有了介绍,下面对 IoC 进行详细介绍。 IoC,即控制反转,在之前我们编写程序的时候,我们都是自己 new 出来一个对象,然后自己去管理这个对象,但是这有时候有些麻烦&a…...
oracle查询当前用户所有字段和表
在 Oracle 数据库中,可以通过查询数据字典视图来获取某个表的字段(列)信息。以下是常用的查询方法: 查询当前用户下的表字段 如果您想查看当前用户下某个表的字段信息,可以查询 USER_TAB_COLUMNS 视图: SE…...
ACL(访问控制列表)
ACL(访问控制列表) 1、基础内容 访问控制列表ACL(Access ControlList)是由一条或多条规则组成的集合。所谓规则,是指描述报文匹配条件的判断语句,这些条件可以是报文的源地址、目的地址、端口号等。通过一系列规则来匹配报文,如…...
C语言数据结构---二叉树---堆的应用
1.建堆(向上调整) 1.1大堆 #include<stdio.h> void swap(int *p1,int *p2) {int temp *p1;*p1 *p2;*p2 temp; } void Ajustup(int *a,int child)//向上调整 {int parent (child - 1) / 2;while (child > 0){if (a[child] > a[parent]…...
在Linux下安装Gitlab
在Cenos7下安装GitLab 在ssh下安装 官方安装文档:https://gitlab.cn/install/?versionce 1. 使用阿里YUM 镜像云 下载 https://mirrors.aliyun.com/repo/Centos-7.repo替换 /etc/yum.repos.d/CentOS-Base.repo在目录/etc/yum.repos.d/下执行如下命令: curl …...
【算法】快速排序、归并排序(非递归版)
目录 一、快速排序(非递归) 1.原理 2.实现 2.1 stack 2.2 partition(array,left,right) 2.3 pivot - 1 > left 二、归并排序(非递归) 1.原理 2.实现 2.1 gap 2.1.1 i 2*gap 2.1.2 gap * 2 2.1.3 gap < array.…...
如何自学机器学习?零基础到实战的完整路径
机器学习作为人工智能的核心领域,已成为技术人必备的硬实力。本文为自学者梳理出一条从零基础到项目落地的系统学习路线,涵盖知识框架、工具链与实战技巧。 一、构建三大基础模块(1-2个月) 数学基石:线性代数重点掌握…...
PHP开发环境搭建(Hbuider+phpstudy)
目录 1.Hbuider下载 Hbuider的网址 2.Hbuilder的安装 1-首先找到刚刚下载的安装包 2-然后进行解压 3-进入解压后的文件夹HBuilderX,找到HBuilderX这一项,双击打开 4-选择你喜欢的风格,任意选择一个就可以了 5-选择你选快捷键的方案 6-点击开始体验就可了…...
【4.1.-4.20学习周报】
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 摘要Abstract一、方法介绍1.1HippoRAG 1.2HippoRAG2二、实验2.1实验概况2.2实验代码2.3实验结果 总结 摘要 本博客介绍了论文《From RAG to Memory: Non-Parametri…...
vim笔记
vim三种模式切换 命令常用 复制粘贴...
【JAVA】基础知识“抽象类”详解,从入门到理解~
目录 1. 抽象类 1.1 什么是抽象类❓ 1.2 为什么需要抽象类❓ 1.3 抽象类语法 1.4 抽象类特征 ① 抽象类是被abstract修饰的 ② 被abstract修饰的方法称为抽象方法,这个方法可以没有具体的实现 ③ 当一个类中含有抽象方法的时候,该类必须使用abst…...
docker 启动mysql9认证失败
docker compose 启动mysql9认证失败 随着mysql更新到了9版本,在docker中相较于8减少了一些体积,很吸引人尝试, 但是在使用原本的配置文件拉起mysql,连接时却提示权限认证失败 1045 - Access denied for user root172.18.0.1 (…...
【Axure绘制原型】图片切割、交互动效、热区、动态面板、元件显示隐藏、表单元件、表格、内联框架
切割 功能:将图片切成多部分。 通过移动鼠标可以调整两条虚线的位置,点击。虚线相当于切割刀,被虚线分离的部分将变成单独的图 切割后的图片: 交互 交互动效的构成: 目标:谁触发交互(元…...
DeepSeek智能时空数据分析(一):筛选特定空间范围内的POI数据
时空数据分析很有用,但是GIS/时空数据库技术门槛太高 时空数据分析在优化业务运营中至关重要,尤其在数据驱动决策的当下,其价值正随大模型时代的到来进一步凸显。然而,三大挑战仍制约其发展:技术门槛高,需…...
使用mybatisPlus自带的分页方法+xml实现数据分页
:因为需要实现多表关联分页,原本想的是直接使用selectpagehelper,但是pagehelper只对xml文件生效;后面发现可以直接使用mybatisplus自带的分页,不依靠pagehelper实现多表关联分页; 实现类:关键…...
第六节:React Hooks进阶篇-自定义Hook设计
实战题:实现一个useWindowSize或useFetch 自定义 Hook 设计实战:useWindowSize 与 useFetch 实现详解 一、useWindowSize:实时监听窗口尺寸 1. 基础实现(TypeScript 版) import { useState, useEffect } from react…...
Mybatis--XML映射文件配置和动态SQL
XML文件配置 MyBatis中文网 动态SQL...
【Java学习笔记】位运算
位运算 一、原码,反码,补码 (1) 二进制的最高位是符号位:0 表示正数,1 表示负数(怎么记? 1旋转一下变成-) (2) 正数的原码、反码、补码都一样(三码合一) (3) 负数的反码…...
循环队列的实现
循环队列 实现一个循环队列:C语言代码解析与设计思路1. 循环队列的基本概念2. 数据结构设计3. 初始化队列4. 入队操作5. 出队操作6. 获取队列头部和尾部元素7. 判断队列是否为空或满8. 释放队列资源9. 总结 实现一个循环队列:C语言代码解析与设计思路 在…...
案例驱动的 IT 团队管理:创新与突破之路:第五章 创新管理:从机制设计到文化养成-5.2 技术决策民主化-5.2.1案例:架构设计评审的“七人决策制“
👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 案例驱动的 IT 团队管理:创新与突破之路 - 第五章 创新管理:从机制设计到文化养成5.2 技术决策民主化5.2.1 案例:架构设计评审的“七人决…...
数据库—MySQL游标详解笔记
一、游标是什么? 游标(Cursor) 是数据库中用于逐行遍历查询结果集的数据库对象。它允许开发者像操作指针一样逐行读取数据,适用于需要对查询结果逐行处理的复杂业务逻辑。 核心特点: 逐行操作:类似编程中…...
Genspark:重新定义AI搜索与代理的全能型工具
在当今快速发展的AI技术领域,搜索工具正在经历前所未有的变革。Genspark,这家由前百度高管景鲲和朱凯华创立的AI公司,为我们带来了全新的AI代理引擎体验。作为一位专注于AI工具分享的博主,今天我将为大家详细介绍这款强大的工具&a…...
深入理解设计模式之模板方法模式 1d87ab8b42e98069b6c2c5a3d2710f9a
深入理解设计模式之模板方法模式 深入理解设计模式之模板方法模式 在软件开发的漫长征程中,我们常常会遇到各种复杂的业务逻辑,其中部分逻辑具有相似的流程框架,但在具体细节上又有所不同。这种情况下,模板方法模式就如同一位得…...
Cursor + MCP,实现自然语言操作 GitLab 仓库
本分分享如何使用 cursor mcp 来操作极狐GitLab 仓库,体验用自然语言在不接触极狐GitLab 的情况下来完成一些仓库操作。 极狐GitLab 是 GitLab 在中国的发行版,关于中文参考文档和资料有: 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitL…...
界面开发框架DevExpress XAF实践:如何在Blazor项目中集成.NET Aspire?(一)
DevExpress XAF是一款强大的现代应用程序框架,允许同时开发ASP.NET和WinForms。DevExpress XAF采用模块化设计,开发人员可以选择内建模块,也可以自行创建,从而以更快的速度和比开发人员当前更强有力的方式创建应用程序。 .NET As…...
【C++】特化妙技与分文件编写 “雷区”
目录 目录非类型模板参数非类型模板参数vs宏代换 模板的特化函数模板的特化函数模板特化的坑 类模板特化全特化偏特化 模板分离编译原理解决方案 end 目录 非类型模板参数 模板参数可分为类型形参和非类型形参。 类型形参: 出现在模板参数列表中,跟在…...
qt+mingw64+cmake+libqrencode项目编译和搭建成功记录
最近要使用高拍仪拍照获取照片,然后识别照片中的二维码数据、使用QZxing只能识别出一个条码、另外一个条码准备测试用其他的开源项目(如libqrencode-4.1.1)来进行测试,故进行本文的项目环境搭建测试,最后成功。 本机开…...
观察者设计模式详解:解耦通知机制的利器
在面向对象设计中,设计模式为我们提供了通用的解决方案,以应对常见的开发问题。观察者设计模式是其中非常经典且实用的一种模式,广泛应用于GUI系统、事件处理、消息推送等场景。今天,我们就深入探讨观察者模式的概念、结构和特点&…...
Vim使用完全指南:从基础到高效编辑
Vim使用完全指南:从基础到高效编辑 一、Vim简介与基本概念 Vim(Vi IMproved)是从vi发展出来的一个功能强大的文本编辑器,以其高效性和灵活性著称,特别适合程序开发和系统管理任务。与常规文本编辑器不同,…...
C语言——数组
在C语言中,数组是一组相同类型元素的集合,并且每个数据都有自己对应的一个序号,我们称之为数组下标或者索引。接下来我们就来看看数组是如何定义的吧! 目录 1.一维数组 1.1 定义与初始化 1.2 一维数组的使用 1.3 一维数组在内…...
电商|基于java+vue的农业电商系统(源码+数据库+文档)
农业电商系统 目录 基于java的农业电商系统 一、前言 二、系统设计 三、系统功能设计 系统功能实现 前台: 后台: 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️…...
ServletContextAttributeListener 的用法笔记250417
ServletContextAttributeListener 的用法笔记250417 以下是关于 ServletContextAttributeListener 的用法详解,涵盖核心方法、实现场景、注意事项及最佳实践,帮助您有效监听应用级别属性(ServletContext)的变化: 1. 核…...
iptables 防火墙
目录 熟悉Linux防火墙的表,链结构 理解数据包匹配的基本流程 学会编写iptables规则 前言 在当今信息化时代,网络安全已成为企业和个人不可忽视的重要议题。随着网络攻击手段的不断升级,构建一个坚固的网络安全防线显得尤为迫切。在Linux系统中,iptables作为一款…...
【厦门大学】DeepSeek大模型及其企业应用实践
DeepSeek大模型及其企业应用实践 前言1. 大模型:人工智能的前沿1.1 大模型的概念1.2 大模型的发展历程1.3 人工智能与大模型的关系1.4 大模型的分类 2. 大模型产品2.1 国外的大模型产品2.2 国内的大模型产品2.3 主流大模型“幻觉”评测 3. 大模型的行业应用3.1 自然…...
解锁智能制造:PLC远程下载如何让设备运维效率提升10倍?
一、2025年远程运维的三大变革驱动力 政策强制: 欧盟CE新规要求:2025年起工业设备必须具备远程审计接口 中国等保2.0:工业控制系统远程访问需达到三级防护 技术成熟: 5G专网边缘计算实现ms级响应 算法自动诊断PLC程序异常&#x…...
卷积神经网络CNN(李宏毅)
目录 怎么把一张影响当成一个模型输入? 同样的 pattern出现在图片不同的位置。 第三个问题:Pooling: 阿尔法Go是怎么下围棋的: CNN不能处理的问题 CNN专门用在影像辨识方面 怎么把一张影响当成一个模型输入? 一张…...
URL / GET请求 中文UTF-8编码JS转化
以长颈鹿为例 decodeURIComponent 将编码转为中文 encodeURIComponent 会对整个参数字符串转义(包括 :// 等符号)。 encodeURI 仅转义非合法 URL 字符(不转义 :/?& 等保留字符)。 decodeURIComponent("%E9%95%BF%E9…...
Flink 内部通信底层原理
Flink 集群内部节点之间的通信是用 Akka 实现,比如 JobManager 和 TaskManager 之间的通信。而 operator 之间的数据传输是用 Netty 实现。 RPC 框架是 Flink 任务运行的基础,Flink 整个 RPC 框架基于 Akka 实现。 一、相关概念 RPC(Remote Procedure Call) 概念 定义:…...
async-profiler火焰图找出耗CPU方法
事情起于开发应用对依赖的三方包(apache等等)进行了升级后(主要是升级spring),CPU的使用率较原来大幅提升,几个应用提升50%-100%。 查找半天,对比每次版本的cpu火焰图,看不出有什么…...
深入理解Qt状态机的应用
深入理解Qt状态机的应用 Chapter1 深入理解Qt状态机的应用(一)什么是有限状态机?状态机的组成应用示例交通信号控制灯系统简单在线购物流程系统 Qt状态机框架Qt状态机框架组成常用接口说明 应用示例源码 Chapter2 深入理解Qt状态机的应用&…...
Python入门安装和语法基础
1.Python简介 Python是解释型语言, ython就为我们提供了非常完善的基础代码库,覆盖了网络、文件、GUI、数据库、文本等大量内容,被形象地称作“内置电池(batteries included)”。用Python开发,许多功能不必从零编写&am…...
Windows 图形显示驱动开发-WDDM 1.2功能—Windows 8 中的 DirectX 功能改进(四)
一、无覆盖和放弃 在基于磁贴的延迟呈现 (TBDR) 体系结构上呈现内容: Direct3D 11.1 中的呈现目标现在可以使用一组新的资源 API 来支持放弃行为。 开发人员必须了解此功能,并调用额外的 Discard () 方法,以在 TBDR 体系结构 (更高效地运行…...
如何分析服务器日志以追踪黑客攻击行为
分析服务器日志是追踪黑客攻击行为的关键手段。通过系统性地检查日志文件,可以发现异常访问模式、入侵痕迹和后门活动。以下是详细的日志分析方法: 一、重点日志文件定位 Web服务器日志 Nginx: /var/log/nginx/access.log(访问日志࿰…...