从0开始学习计算机视觉--Day02--数据驱动
上次我们在课程里了解到,亚马逊网站在当时构建了一个在那时候最大的供AI训练的数据集,为了推广这个测试,他们举办了比赛邀请了许多的参赛者,识别图片的标准是输出的类别中只要在前面五个里包含了正确答案就算识别成功。在这个过程中,AI识别的错误率从25.6%,最终降低到了5.1%,在当时达到了比赛方派出了一个博士花费几周时间去识别图片的错误率,这表明了AI从不可实现到在实际应用中的允许的错误率。其中,在2012年,错误率有了一个明显的降低,这得益于当时所提出的一个算法:卷积神经网络,而这个也是计算机视觉中的重点模型。
在当时的imagenet比赛初期,识别图像的算法依旧是采用分层式的结构:先是计算一些图像的特征和局部不变特征,通过一些池化操作(一般会取窗口内的最大值或平均值作为输出,能够减少数据量,保留重要特征,达到降低复杂度,增强鲁棒性的效果)后,再通过一些多层处理(通过多层对数据进行处理,实现模拟人眼处理特征的过程,即从简单到复杂特征的识别)后,最终将结果描述符传递给线性SVM。在这个方法中,依然保有最开始识别图像的思路:采取分层式的结构,识别边界与不变特征。而等到2012年的获胜者采用卷积神经网络后,后面几年的获胜者全都采用了神经网络,且层数越来越高。
其实卷积神经网络并不是2012年前几年发明的,相反其在90年代就已经出现,在当时被用于识别手写的支票和信件。那么是什么促使了这种经典算法在经过几十年后又能登上科技前列的舞台呢?一个原因是因为计算能力的更新。有一个大家都默认的理论尽管用的是经典算法,但只要想方设法把模型的架构扩大,那么就会取得更好的效果,而在2012年时有了90年代所不具备的能够实现并行计算的GPU,所以可以说只要算力足够,不断的扩大模型架构和规模就是能提升效果。第二个原因是在以前并没有那么多的带标签的数据供模型训练,模型也就没能展现出那么优秀的能力,毕竟算法模型是需要庞大的数据来打基础的,并不仅仅取决于其运行逻辑和计算能力,需要一个成长的过程。
数据驱动方法
图像分类,是一个计算机视觉中真正核心的任务,更具体的说,当我们做图像分类时,分类系统接受一些输入图像,并且此时系统已经知道了一些图片的分类,而计算机的任务就是观看图片并给出标签。在计算机中呈现图片的方式是一大堆数字,可能是一些800×600的像素,每个像素由三个数字组成,给出像素红绿蓝三个值。这个就叫做语义鸿沟,因为对于一张猫咪的标签或概念是我们人为赋予的,这种语义概念和计算机接收到的像素值完全不一样。另一方面,也许图片只是修改了不起眼的一部分,甚至仅仅只是将图片进行了左右翻转,并没有影响到图片还是一只猫,但在像素的层面上发生了很大的改变,这同样会影响计算机做出判断。除了图片的视角以外,图片里的主体猫,也可能会发生许多改变,例如只是露出背影,摆出了奇怪的姿势,拍照的光影条件不同,对于这些不同的情况,算法的结果应该是鲁棒(系统、模型或算法在面对异常输入、干扰或不确定环境时,仍能保持稳定性和正常功能的能力)的。
想要写出直接识别图片的算法,是一件比较苦难的事情,因为像之前说的,计算机需要找到主体的边缘,然后简化主体的部分,然后多次判断并组合结果才能识别一个种类的图片。但是世界上有那么多不同的图片,通过这种方法去识别很不现实。这就引出了数据驱动这个方法,我们不写具体的规则来识别一只猫或一条鱼,我们选择直接在网上下载很多不同种类的图片作为数据集,然后训练机器对图片进行分类,机器会用某种方式来总结各个图片的特征并生成一个模型,给出识别不同种类图片的核心要素,最后再用新的图片来验证模型识别的效果好坏。将这个过程简化为写两个函数,第一个函数负责接收图片及其标签并输出模型,第二个函数负责接受刚才的模型并对图片进行分类。这种算法比较简单,仅仅是用不同种类的图片训练模型,然后模型在预测时,会选择一个跟预测图片最相似的图片的标签作为结果,结果虽然很多时候并不准确,但算法的逻辑是比较直接的。
在对比图片是否不同时,我们通常会用一个叫做L1距离的方法,即将两幅图片的对应位置的像素作差,并将差值的绝对值加在一起(前提是图片的尺寸是一样的),如果差值小于0.1×总像素数×225,则认为两张图片是相同的。
学习来源于斯坦福教程:Stanford University CS231n: Deep Learning for Computer Vision
相关文章:
从0开始学习计算机视觉--Day02--数据驱动
上次我们在课程里了解到,亚马逊网站在当时构建了一个在那时候最大的供AI训练的数据集,为了推广这个测试,他们举办了比赛邀请了许多的参赛者,识别图片的标准是输出的类别中只要在前面五个里包含了正确答案就算识别成功。在这个过程…...
【LeetCode#第198题】打家劫舍(一维dp)
198. 打家劫舍 - 力扣(LeetCode) 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入&#…...
stm32串口(uart)2转发到串口(uart)3实现
今天博主在用kelil5写stm32的程序时遇到了一个全局变量因为在中断和任务切换时没有加 volatile 修饰,导致任务检测不到标志位变化,无法实现效果的问题。 全部代码: /* USER CODE BEGIN Header */ /***************************************…...
数据结构——函数填空题
链队出队入队 入队:新指针p赋给队尾的下一个,再赋给队尾 出队:队首指针赋给p,后移 p的下一个赋给队首指向的下一个 若队尾p,则证明首尾相连为1个 字符串匹配算法 二叉树 统计二叉树度为1的节点 树T为空࿰…...
什么是跨域问题?后端如何解决跨域问题?
跨域问题是指浏览器为了安全,对不同域(包含不同协议、不同端口或不同主机名)的请求进行限制,从而导致请求无法正常访问后端接口。 跨域问题的产生源于浏览器的同源策略(Same-Origin Policy),这…...
使用ccs生成bin
CCS12.6 编译生成BIN文件正确方法_ccs生成bin文件-CSDN博客...
Python 邻接表详细实现指南
邻接表是图数据结构的一种高效表示方法,特别适合表示稀疏图。下面我将用 Python 详细讲解邻接表的多种实现方式、操作方法和实际应用。 一、邻接表基础概念 邻接表的核心思想是为图中的每个顶点维护一个列表,存储与该顶点直接相连的所有邻接顶点。 邻…...
FVISION 未来视界工作室:AI驱动的创新与智能外包平台
大家好,今天给大家介绍一个非常有意思的AI创新平台——FVISION 未来视界工作室。如果你正在寻找高效、智能、前沿的数字化工具和服务,这里一定有你想要的答案! 🌟 平台简介 FVISION 未来视界工作室专注于AI驱动的创新应用开发&am…...
领域驱动设计(DDD)【3】之事件风暴
文章目录 说明一 事件风暴理论知识1.1 事件风暴的核心目标1.2事件风暴的关键步骤1.2.1 准备工作1.2.2 核心流程1.2.3 事件风暴的输出 1.3 事件风暴的优势1.4 常见问题Q1:事件风暴适合所有项目吗?Q2:事件风暴后如何落地?Q3…...
3.10 坐标导航
1.编写代码 新建文件nav_clienr.cpp编写代码 #include<ros/ros.h> #include<move_base_msgs/MoveBaseAction.h> #include<actionlib/client/simple_action_client.h>typedef actionlib::SimpleActionClient<move_base_msgs::MoveBaseAction> MoveBas…...
TensorFlow 安装与 GPU 驱动兼容(h800)
环境说明TensorFlow 安装与 GPU 驱动兼容CUDA/H800 特殊注意事项PyCharm 和终端环境变量设置方法测试 GPU 是否可用的 Python 脚本 # 使用 TensorFlow 2.13 在 NVIDIA H800 上启用 GPU 加速完整指南在使用 TensorFlow 进行深度学习训练时,充分利用 GPU 能力至关重要…...
WPF调试三种工具介绍:Live Visual Tree、Live Property Explorer与Snoop
WPF调试工具详解:Live Visual Tree、Live Property Explorer与Snoop 1. Live Visual Tree (实时可视化树) 简介 Live Visual Tree是Visual Studio内置的WPF调试工具,允许开发者在应用程序运行时检查可视化树结构,查看控件的层次关系及其状态。…...
用OBS Studio录制WAV音频,玩转语音克隆和文本转语音!
言简意赅的讲解OBS Studio解决的痛点 随着AI技术的快速发展,语音克隆与文本生成语音技术越来越受欢迎。无论你想要制作个人虚拟主播,还是给自媒体视频配音,拥有高质量的原始音频都是关键。本文详细教你使用免费且功能强大的软件——OBS Stud…...
5.3 VSCode使用FFmpeg库
一、VSCMake 1.1 使用ffmpeg动态库 项目目录结构: ./ ├── 3rdparty # 第三方依赖库 │ └── ffmpeg_4.4.1 │ ├── include # 头文件 │ ├── lib # 静态库库 │ └── share ├── build # 编译目…...
【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 文章目录 系列文章目录前言2.1 概述2.2 re 解析2.3 bs4 解析2.4 xpath 解析总结 前言 Datawhale是一个专注于…...
[muduo] ThreadPool | TcpClient | 异步任务 | 通信测试
第九章:线程池(ThreadPool) 在第八章《TcpServer》中,我们了解到muduo::net::TcpServer通过EventLoop线程池处理入站连接。 这些EventLoop线程主要负责网络I/O:套接字读写和定时器处理,由Poller和Channel…...
探索 Vue 替代方案
Vue vs React vs Angular 在快速迭代的前端世界,Vue、React和Angular三大框架的竞争从未停止。2025年的今天,它们各自进化出了怎样的面貌?让我们深入剖析它们的核心差异,助你做出明智的技术选型。 Vue.js 完整的基于组件的UI框…...
大模型的开发应用(十二):RAG 与 LlamaIndex基础
这里写目录标题 1 LlamaIndex 简要介绍1.1 核心价值1.2 核心组件1.3 核心流程1.4 为什么要用 LlamaIndex?1.5 典型应用场景1.6 与类似工具对比1.7 安装1.8 学习资源 2 文档解析与 Document 对象2.1 示例文件与代码2.2 Document 对象的核心特性2.3 在 RAG 工作流程中…...
Java面试题025:一文深入了解数据库Redis(1)
欢迎大家关注我的JAVA面试题专栏,该专栏会持续更新,从原理角度覆盖Java知识体系的方方面面。 一文吃透JAVA知识体系(面试题)https://blog.csdn.net/wuxinyan123/category_7521898.html?fromshareblogcolumn&sharetypeblogco…...
Web攻防-XSS跨站Cookie盗取数据包提交网络钓鱼BEEF项目XSS平台危害利用
知识点: 1、Web攻防-XSS跨站-手工代码&框架工具&在线平台 2、Web攻防-XSS跨站-Cookie盗取&数据提交&网络钓鱼 演示案例-WEB攻防-XSS跨站-Cookie盗取&数据提交&网络钓鱼&Beef工具 1、XSS跨站-攻击利用-凭据盗取 条件:无防…...
(LeetCode 面试经典 150 题) 169. 多数元素(哈希表 || 二分查找)
题目:169. 多数元素 方法一:二分法,最坏的时间复杂度0(nlogn),但平均0(n)即可。空间复杂度为0(1)。 C版本: int nnums.size();int l0,rn-1;while(l<r){int mid(lr)/2;int ans0;for(auto x:nums){if(xnums[mid]) a…...
71、单元测试-Junit5简介
71、单元测试-Junit5简介 # JUnit 5 简介 JUnit 5 是 Java 平台上最流行的单元测试框架之一,是 JUnit 的重大升级版本,引入了许多新特性和改进,旨在提供更现代化、灵活和强大的测试体验。 ## 主要组成部分 JUnit 5 由三个模块组成:…...
IEC61850 一致性测试中的 UCA 测试
一、IEC61850 与 UCA 的关系背景 标准演进:IEC61850 是电力系统自动化领域的国际通信标准,其发展与美国 UCA(User Communications Architecture)标准密切相关。2001 年,UCA 国际用户组织与 IEC 合作,将 UC…...
ProtoBuf:proto3 语法详解
🌈 个人主页:Zfox_ 🔥 系列专栏:ProtoBuf 在语法详解部分,依旧使⽤项⽬推进的⽅式完成讲解。这个部分会对通讯录进⾏多次升级,使⽤2.x表⽰升级的版本,最终将会升级如下内容: 不再打…...
博图SCL语言GOTO语句深度解析:精准跳转
在SCL编程中,**GOTO语句**是控制流程的底层工具,它允许程序无条件跳转到指定的**标签位置**。虽然现代编程中较少使用,但在特定工业场景下仍能发挥独特价值。 GOTO语句核心机制 基本语法结构 // 定义标签 <标签名>: // 跳转指令 GOTO…...
面试题-在ts中有两个类型,一个是a,一个是b,这两个联合起来就是c,如何实现联合
在 TypeScript 中,若要将两个类型 a 和 b 联合成一个新类型 c,可以使用 联合类型(Union Type) 或 交叉类型(Intersection Type),具体取决于你的需求: 一、联合类型(Unio…...
Mac电脑-触摸板增强工具-BetterTouchTool
BetterTouchTool mac 触摸板增强工具,允许用户使用各种手势来控制其计算机。 Bettertouchtool mac是一个小而高效的macOS应用程序,旨在帮助您为手势定义快捷方式。 此外,Bettertouchtool可用于使用常规鼠标和键盘快捷键,并提供伴…...
MySQL误删数据急救指南:基于Binlog日志的实战恢复详解
背景 数据误删是一个比较严重的场景 1.典型误操作场景 场景1:DELETE FROM orders WHERE status0 → 漏写AND create_time>‘2025-06-20’ 场景2:DROP TABLE customer → 误执行于生产环境 认识 binlog 1.binlog 的核心作用 记录所有 DDL/DML 操…...
API网关Apisix管理接口速查
🧭 管理接口总体分类(基于 REST API) 资源类别接口路径前缀功能说明路由(Routes)/apisix/admin/routes/{id}定义 HTTP 请求的匹配规则及转发目标服务(Services)/apisix/admin/services/{id}封装…...
React 组件通信
父传子 函数式组件 function Footer(props){const [count,setCount] useState(0)const {name,age} propsconst onClick ()>{setCount(count1)}return (<div><button onClick{()>{onClick()}}>点此1</button><div>{count}</div><di…...
Zephyr 电源管理机制深度解析:从 Tickless Idle 到平台 Suspend 实践
本文系统解析 Zephyr 的电源管理机制,包括 Tickless Idle 模式、系统 suspend/resume 生命周期管理、平台级功耗优化 Hook、自定义设备电源域,以及如何结合低功耗 SoC 实现最小化功耗设计。全文超过 5000 字,适合构建对功耗敏感的 IoT、BLE、…...
clickhouse-server连不上clickhouse-keeper的问题记录
背景 想简单部署一个1 shard 2 replica,1keeper的集群。 有两个虚拟机:192.168.1.3,192.168.1.6。 192.168.1.3:部署1个ck,1个keeper 192.168.1.6:部署1个ck 192.168.1.3和192.168.1.6的ck组成1个shar…...
Python 数据分析与可视化 Day 3 - Pandas 数据筛选与排序操作
🎯 今日目标 掌握 DataFrame 的条件筛选(布尔索引)学会多条件筛选、逻辑运算熟练使用排序(sort_values)提升数据组织力结合列选择进行数据提取分析 🧪 一、列选择与基本筛选 ✅ 选择单列 / 多列 df[&quo…...
Android NDK下载链接及配置版本
Android NDK下载链接及配置版本 https://github.com/android/ndk/releases 在build.gralde里面这样配置ndk具体版本号: android {ndkVersion "27.0.12077973" } Android Studio报错:Could not move temporary workspace () to immutable locat…...
Mac Parallels Desktop Kali 2025 代理设置
Mac Parallels Desktop Kali 2025 代理设置 核心步骤: kali设置桥接wifi 查看kali和主机ip 运行命令ifconfig查看kali ip: mac主机ip: kali设置proxy ip填写主机ip,port为主机proxy端口 enjoy...
Python 的内置函数 hash
Python 内建函数列表 > Python 的内置函数 hash Python 的内置函数 hash() 是一个非常有用的工具函数,主要用于获取对象的哈希值。哈希值是一个固定长度的整数,代表该对象的唯一标识。在 Python 中,hash() 函数常用于字典键值、集合元素等…...
文生视频(Text-to-Video)
🕒 生成时间:每张图大概 10–60 秒(取决于设备) ✅ 二、文生视频(Text-to-Video) 以下项目中,很多都基于 SD 模型扩展,但视频生成复杂度高,生成时间一般 超过 30 秒&am…...
(LeetCode 面试经典 150 题) 80. 删除有序数组中的重复项 II (双指针、栈)
题目:80. 删除有序数组中的重复项 II 思路:左指针 left 类似于指向栈顶的下一个待填的元素,每次遍历只需看当前元素nums[i]和栈顶的下一个元素nums[left-2]是否相等,不等就可以插入栈当中。时间复杂度0(n)。 C版本: …...
【舞蹈】编排:如何对齐拍子并让小节倍数随BPM递减
音的强弱关系 当前划分编排最小单位的代码的分析 📊 代码逻辑分析 ✅ 完整性方面 代码逻辑相对完整,包含了: 结构段落分析(intro, verse, chorus等)强拍时间点提取歌词时间轴处理AI增强的编舞建议生成⚠️ 主要问题 1. 强拍对齐逻辑不够精确 # 当前代码只是简单提取…...
LangGraph--基础学习(工具调用)
本节将详细学习大模型是怎么调用工具的,为什么可以调用工具等等,手写一个工具调用,后续可以通过mcp自己调用即可,没必要自己写,但是学习过程中需要手写,通常怎么使用第三方工具调用呢? import o…...
华为云 Flexus+DeepSeek 实战:华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】
华为云 FlexusDeepSeek 实战:华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】 文章目录 华为云 FlexusDeepSeek 实战:华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】前言1、…...
【appium】2.初始连接脚本配置
连接配置 from appium import webdriver desired_caps {platformName: Android,automationName: UIAutomator2,deviceName: ZTEB880,appPackage: com.taobao.taobao,appActivity: com.taobao.tao.welcome.Welcome,noReset: True }driver webdriver.Remote(http://localhost:…...
磁性传感器在电机控制闭环系统中的反馈作用
磁性传感器的基本原理和类型 基本原理 :磁性传感器是基于磁学原理来检测磁场强度、方向或其他与磁场相关的物理量。常见的磁性传感器有霍尔传感器、磁阻传感器等。霍尔传感器是利用霍尔效应工作的,当电流通过置于磁场中的半导体材料时,在垂直…...
Python:.py文件如何变成双击可执行的windows程序?(版本1)
1、如下.py文件,右键重命名文件后缀名:py改为:pyw 2、修改时,提示如下:不用管点击:是即可 3、之后双击,即可执行python代码文件。 好的,我们来详细介绍一下 Python 的 .pyw 文件。 简…...
Spring Boot + MyBatis + Vue:全栈开发的深度剖析与实践指南
一、技术栈深度剖析 (一)Spring Boot:后端开发的加速器 Spring Boot 是基于 Spring 框架的一个开源 Java 项目,旨在简化基于 Spring 的应用开发。它通过自动配置机制,能够根据项目中添加的依赖自动配置 Spring 和相关…...
学习C++、QT---03(C++的输入输出、C++的基本数据类型介绍)
每日一言 你比想象中更强大,那些咬牙坚持的瞬间,都在雕刻更好的你。 案例:C的输入输出 但是我也会用c语言的方式来回顾c语言的写法,因为两种语言都是密不可分的,所以不能忘记,所以两个一起写 注意点&#…...
八、Redis的主从原理、哨兵
简介: 想要了解Redis的主从原理,首先得认识一个基本的分布式理论-CAP理论。要理解这个理论,其实也非常简单。 CAP理论 C:Consistency、A:Available、P:Partition tolerance 。这是CAP三个字母的全称。C&…...
springboot通过独立事务管理器实现资源隔离与精准控制
安心流转站核心业务模块,为什么!我们考虑这样设计,下面讲讲专用事务管理器的设计与必要性! 一、为什么需要专属事务管理器? 在安心流转站模块中,存在 「多资源混合操作」 和 「业务高敏…...
59-Oracle 10046事件-知识准备
上一篇说到了autotrace,SQL调试时候的获取性能和参数数据,直接用上trace,还有个更全能的工具10046。是不是很多小伙伴会对这么个数字,觉得起名很奇怪,数字起名任性。“10046”本质是Oracle内核事件的随机性技术编号&am…...
2025年渗透测试面试题总结-2025年HW(护网面试) 03(题目+回答)
安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 2025年HW(护网面试) 03 1. 同源策略(Same-Origin Policy) 2. XSS攻击用途 3. XSS类…...