当前位置: 首页 > news >正文

Whisper微调及制作方言数据集

本文不生产技术,只做技术的搬运工!!!

前言

        最近在进行whisper微调实验,这个网上有很多成功案例,作者随机找了一个进行了复现,但是由于微调目的是适配本地方言,数据集的采集成为了一个重点难题,既要录制音频,又要打好标签,费时费力,作者开发了一个小软件,可以在录制音频时,将文本写入到标注文件中,进行快速音频采集标注(其实是多次一举,因为本来文本就是预先设定好的,直接录制完音频把念的稿子复制到标注文件里即可,作者这么做主要是想方便音频采集,因为作者不想手动改音频文件的名称,又想采集出来的音频以开始时间-结束时间.wav的形式保存)。

微调框架

https://github.com/yeyupiaoling/Whisper-Finetunehttps://github.com/yeyupiaoling/Whisper-Finetune大家自行配置即可,这个作者应该是中国人,写了中文版的ReadMe,整体很清晰明了

原始数据采集

        作者使用前言中提到的软件进行数据采集,采集完成后的原始数据如下图所示

每个wav文件都是一段录音,txt中包含了该段文本,如下图所示

数据处理脚本

import os
import json
import wavedef get_wav_duration(wav_path):"""获取WAV文件的时长(秒)。参数:wav_path (str): WAV文件的路径。返回:float: WAV文件的时长(秒)。"""with wave.open(wav_path, 'rb') as wav_file:frames = wav_file.getnframes()rate = wav_file.getframerate()duration = frames / float(rate)return durationdef getFileList(dir, Filelist, ext=None):"""获取文件夹及其子文件夹中文件列表输入 dir:文件夹根目录输入 ext: 扩展名返回: 文件路径列表"""newDir = dirif os.path.isfile(dir):if ext is None:Filelist.append(dir)else:if ext in dir:Filelist.append(dir)elif os.path.isdir(dir):for s in os.listdir(dir):newDir = os.path.join(dir, s)getFileList(newDir, Filelist, ext)return Filelistif __name__ == '__main__':path = "/home/workspace/yysblz0422/语音识别补录/补验"file_path = "val.jsonl"wav_path_list = []wav_path_list = getFileList(path,wav_path_list , ".wav")data = []for wav_path in wav_path_list:template = {"audio": {"path": "dataset/0.wav"}, "sentence": "近几年,不但我用书给女儿压岁,也劝说亲朋不要给女儿压岁钱,而改送压岁书。","language": "Chinese", "duration": 7.37}txt_path = wav_path.replace(".wav",".txt")with open(txt_path,"r") as f:template["sentence"] = f.read()template["audio"]["path"] = wav_pathtemplate["duration"] = get_wav_duration(wav_path)data.append(template)# 打开文件,使用写入模式with open(file_path, "w", encoding="utf-8") as jsonl_file:# 遍历数据列表,逐行写入 JSON 对象for item in data:# 将字典转换为 JSON 格式的字符串json_str = json.dumps(item, ensure_ascii=False)# 写入 JSON 字符串,换行分隔jsonl_file.write(json_str + "\n")print(f"数据已成功写入 {file_path}")

处理完成后,数据格式如下

采集软件展示

该软件可实现快速数据标注,同时也是一个非常好用的离线实时麦克风语音转文本工具,有软件需求或软件源代码需求的朋友可私聊作者。

相关文章:

Whisper微调及制作方言数据集

本文不生产技术,只做技术的搬运工!!! 前言 最近在进行whisper微调实验,这个网上有很多成功案例,作者随机找了一个进行了复现,但是由于微调目的是适配本地方言,数据集的采集成为了一…...

实现营销投放全流程自动化 超级汇川推出信息流智能投放产品“AI智投“

随着消费者行为模式的多样化和媒体渠道的日益分散,数字营销行业面临挑战。传统人工数据分析效率低、误差率高,大幅制约广告预算效能。针对上述痛点,近期阿里巴巴旗下超级汇川广告平台推出“AI智投”信息流智能投放产品,基于AI大模…...

shell脚本2

条件测试分类 测试特定的表达式是否成立,当条件成立时,测试语句的返回值为0,否则为其他数值 测试命令格式:[ 条件表达式 ] 文件测试 格式:[ 操作符 文件或目录 ] -d:测试是否为目录(Di…...

2025年3月电子学会青少年机器人技术(五级)等级考试试卷-理论综合

青少年机器人技术等级考试理论综合试卷(五级) 分数:100 题数:30 一、单选题(共20题,共80分) 1. 2025年初,中国科技初创公司深度求索在大模型领域迅速崛起,其开源的大模型成为全球AI领域的焦…...

E3650工具链生态再增强,IAR全面支持芯驰科技新一代旗舰智控MCU

近日,全球嵌入式软件开发解决方案领导者IAR与全场景智能车芯引领者芯驰科技正式宣布,IAR Embedded Workbench for Arm已全面支持芯驰E3650,为这一旗舰智控MCU提供开发和调试一站式服务,进一步丰富芯驰E3系列智控芯片工具链生态&am…...

Linux之安装配置Nginx

Linux系统下安装配置Nginx的详细步骤如下: 一、准备工作 系统环境:确保Linux系统已安装,并且具有网络连接(以便在线安装依赖或下载Nginx)。 安装依赖:Nginx依赖于一些开发库和工具,如gcc、pcr…...

PC接入deepseek

<template> <div class"btn"> <el-button type"primary" plain click"openAIDrawer">AI问答</el-button> </div> <!-- deepSeek --> <el-drawer v-model"deepSeekData.drawerShow" :title&quo…...

Atlas 800I A2 离线部署 DeepSeek-R1-Distill-Llama-70B

一、环境信息 1.1、硬件信息 Atlas 800I A2 1.2、环境信息 注意&#xff1a;这里驱动固件最好用商业版&#xff0c;我这里用的社区版有点小问题 操作系统&#xff1a;openEuler 22.03 LTS NPU驱动&#xff1a;Ascend-hdk-910b-npu-driver_24.1.rc3_linux-aarch64.run NPU固…...

CF每日4题

1500左右的做到还是有点吃力 2093E 1500 二分答案 题意&#xff1a;给定一个长度为 n 的数组&#xff0c;现在要把它切成 k 份&#xff0c;求每一份最小的MEX中的最大值。 就是找最大值&#xff0c;但是这个值是所有段最小的值采用二分答案&#xff0c;二分这个值&#xff0…...

vue3 实现将html内容导出为图片、pdf和word

话不多说直接开始 本文使用到的开源插件库地址 wang1xiang 1.1 下载依赖 npm install html2canvas jspdf html-docx-js-typescript file-saver --save 2.1 下载工具 npm install html2image-pdf-word --save 3.1 页面使用 <template><div><div click"…...

手机端本地服务与后端微服务的技术差异

以下是手机内部本地服务与后端微服务架构及通信协议的对比分析&#xff0c;结合两者的核心设计差异与技术实现特点展开&#xff1a; 一、架构设计对比 维度手机端本地服务后端微服务核心目标资源效率、离线优先、动态更新高并发处理、分布式事务、服务治理服务拆分粒度按功能…...

音视频之H.265/HEVC环路后处理

H.265/HEVC系列文章&#xff1a; 1、音视频之H.265/HEVC编码框架及编码视频格式 2、音视频之H.265码流分析及解析 3、音视频之H.265/HEVC预测编码 4、音视频之H.265/HEVC变换编码 5、音视频之H.265/HEVC量化 6、音视频之H.265/HEVC环路后处理 类似于以往的视频编码标准,H…...

RSUniVLM论文精读

一些收获&#xff1a; 1. 发现这篇文章的table1中&#xff0c;有CDChat ChangeChat Change-Agent等模型&#xff0c;也许用得上。等会看看有没有源代码。 摘要&#xff1a;RSVLMs在遥感图像理解任务中取得了很大的进展。尽管在多模态推理和多轮对话中表现良好&#xff0c;现有模…...

redis特性及应用场景

文章目录 什么是redis&#xff1f;热库redis作为热库的特性redis适用场景 什么是redis&#xff1f; redis在系统架构中的位置就是冷热分离架构的热数据库位置&#xff0c; redis就是热库&#xff0c; 我们一般说缓存数据库。 其他的像MySQL、SQL Server这种关系数据库、MongoDB…...

Java中正则表达式使用方法

1. 正则表达式概述 正则表达式&#xff08;Regular Expression&#xff0c;简称 Regex&#xff09;是一种用于匹配字符串的模式工具。在 Java 中&#xff0c;正则表达式通过 java.util.regex 包实现&#xff0c;主要涉及以下两个类&#xff1a; Pattern&#xff1a;表示一个编…...

CSS基础

1. CSS入门 1.1. CSS是什么 CSS是Cascading Style Sheets的缩写&#xff0c;翻译为层叠样式表。CSS是一种样式表语言&#xff0c;用来描述HTML文档的表现方式&#xff0c;如字体、色彩、背景色等等。我们先从一段简单的CSS代码开始。 代码1 CSS示例 p {color: red; }这段代…...

【Linux系统篇】:什么是信号以及信号是如何产生的---从基础到应用的全面解析

✨感谢您阅读本篇文章&#xff0c;文章内容是个人学习笔记的整理&#xff0c;如果哪里有误的话还请您指正噢✨ ✨ 个人主页&#xff1a;余辉zmh–CSDN博客 ✨ 文章所属专栏&#xff1a;Linux篇–CSDN博客 文章目录 一.信号概念1.生活角度的信号2.技术应用角度的信号3.补充内容前…...

SpringSecurity源码解读AbstractAuthenticationProcessingFilter

一、介绍 AbstractAuthenticationProcessingFilter 是 Spring Security 框架里的一个抽象过滤器,它在处理基于表单的认证等认证流程时起着关键作用。它继承自 GenericFilterBean,并实现了 javax.servlet.Filter 接口。此过滤器的主要功能是拦截客户端发送的认证请求,对请求…...

Python torchvision.transforms 下常用图像处理方法

torchvision.transforms 是 PyTorch 用于处理图像数据的一个模块&#xff0c;提供了丰富的图像变换功能。 1. transforms.Compose 的使用方法 transforms.Compose 用于将多个 transforms 操作组合起来&#xff0c;形成一个变换序列&#xff0c;然后按顺序对图像进行处理。其输…...

Zynq7020 制作boot.bin及烧录到开发板全流程解析

Zynq7020作为Xilinx推出的经典SoC芯片&#xff0c;其PS&#xff08;Processing System&#xff09;与PL&#xff08;Programmable Logic&#xff09;协同工作的特性使其在嵌入式开发中广泛应用。然而&#xff0c;初次接触Zynq的开发者在制作启动文件boot.bin及烧录时&#xff0…...

【办公类-89-02】20250424会议记录模版WORD自动添加空格补全下划线

背景需求 4月23日听了一个MJB的征文培训&#xff0c;需要写会议记录 把资料黏贴到模版后&#xff0c;发现每行需要有画满下划线 原来做这套资料&#xff0c;就是手动按空格到一行末&#xff0c;有空格才会出现下划线&#xff0c;也就是要按很多的空格&#xff08;凑满一行&…...

Python-36:饭馆菜品选择问题

问题描述 小C来到了一家饭馆&#xff0c;这里共有 nn 道菜&#xff0c;第 ii 道菜的价格为 a_i。其中一些菜中含有蘑菇&#xff0c;s_i 代表第 ii 道菜是否含有蘑菇。如果 s_i 1&#xff0c;那么第 ii 道菜含有蘑菇&#xff0c;否则没有。 小C希望点 kk 道菜&#xff0c;且希…...

某大型电解铝厂电解系统谐波治理装置改造沃伦森电气

电解铝行业谐波治理解决方案——无源滤波装置优化升级&#xff0c;保障稳定运行 在电解铝生产过程中&#xff0c;谐波污染问题严重影响电网电能质量&#xff0c;甚至可能导致滤波装置损坏&#xff0c;引发群爆事故。河南登封某大型电解铝厂通过无源滤波装置智能化改造&#xff…...

基于YOLO+DeepSeek的农作物病虫害检测系统

前言 本系统是一个基于YOLODeepSeek的农作物病虫害检测系统。 可使用YOLOV1-YOLOV12的任意模型进行目标检测。可以实现检测图片、批量检测图片、视频检测、摄像头检测四种方式。 能够检测出[“苹果-黑腐病”, “苹果-健康”, “苹果-结痂”, “甜椒-细菌性斑疹”, “甜椒-健康…...

Python实现技能记录系统

Python实现技能记录系统 来自网络&#xff0c;有改进。 技能记录系统界面如下&#xff1a; 具有保存图片和显示功能——允许用户选择图片保存&#xff0c;选择历史记录时若有图片可预览图片。 这个程序的数据保存在数据库skills2.db中&#xff0c;此数据库由用Python 自带的…...

【专题刷题】二分查找(一):深度解刨二分思想和二分模板

&#x1f4dd;前言说明&#xff1a; 本专栏主要记录本人的基础算法学习以及LeetCode刷题记录&#xff0c;按专题划分每题主要记录&#xff1a;&#xff08;1&#xff09;本人解法 本人屎山代码&#xff1b;&#xff08;2&#xff09;优质解法 优质代码&#xff1b;&#xff…...

基于Python+Flask的MCP SDK响应式文档展示系统设计与实现

以下是使用Python Flask HTML实现的MCP文档展示系统&#xff1a; # app.py from flask import Flask, render_templateapp Flask(__name__)app.route(/) def index():return render_template(index.html)app.route(/installation) def installation():return render_templa…...

Flask + ajax上传文件(一)

一、概述 本教程将教你如何使用Flask后端和AJAX前端实现文件上传功能,包含完整的代码实现和详细解释。 二、环境准备 1. 所需工具和库 Python 3.xFlask框架jQuery库Bootstrap(可选,用于美化界面)2. 安装Flask pip install flask三、项目结构 upload_project/ ├── a…...

【每天一个知识点】熵(Entropy)

“熵&#xff08;Entropy&#xff09;”是信息论、热力学、机器学习等多个领域的核心概念。它可以用一句话概括为&#xff1a; &#x1f511; 熵表示系统的不确定性或信息混乱程度。 &#x1f4da; 一、信息论中的熵&#xff08;Information Entropy&#xff09; 在 Claude Sh…...

GIT 使用小记

全局设置 PS C:\workspace> git config --global user.name "FreeMan" PS C:\workspace> git config --global user.email "12323772wawhyuser.noreply.gitee.com" PS C:\workspace> git remote add origin https://gitee.com/wawhy/mountain.git…...

如何保证高防服务器中的系统安全?

对于高防服务器中的系统安全&#xff0c;企业通常会采取一系列的防护措施和策略防止网络攻击、入侵、恶意软件和其他网络安全威胁&#xff0c;下面是几个较为主要的安全防护措施&#xff0c;能够帮助企业提升高防服务器的安全性。 定期更新服务器中操作系统以及所有安装的软件&…...

【go语言】window环境从源码编译go

背景 早就听过go语言已经实现自举&#xff0c; 也就是使用旧版本go&#xff0c;来编译新版源码&#xff0c;得到新版本go。 步骤 1. 下载源码 git clone https://github.com/golang/go.git 2. 开始make cd go\src make.bat 3. 等待编译 卡住就按下回车 验证新版本 ……...

医学图像(DICOM数据)读取及显示(横断面、冠状面、矢状面、3D显示)为什么用ITK+VTK,单独用ITK或者VTK能实一样功能吗?

在医学图像处理中&#xff0c;结合使用 ITK 和 VTK 是常见的做法&#xff0c;因为它们各自专注于不同的核心功能。以下是逐步解释为何代码中同时使用两者&#xff0c;以及单独使用是否可行的分析&#xff1a; 1. 为什么用ITK处理DICOM数据&#xff1f; 1.1 ITK的DICOM处理优势…...

TiDB 深度解析与 K8S 实战指南

一、TiDB 核心特性与架构原理 1. 核心特性 分布式架构&#xff1a; 采用计算&#xff08;TiDB Server&#xff09;、存储&#xff08;TiKV&#xff09;、调度&#xff08;PD&#xff09;分离设计&#xff0c;支持水平扩展至 PB 级数据量。通过 PD 动态调度 Region&#xff08…...

WPS右键菜单中“上传到云文档”消失,使用命令行注册解决

关于上传到wps云文档&#xff0c;右键菜单莫名消失的问题 尝试在WPS设置显示上传到wps云文档的右键菜单&#xff0c;以及使用设置和修复工具修复&#xff0c;均无法显示菜单。 最终解决方法&#xff1a; regsvr32 "D:\Program Files (x86)\WPS Office\12.1.0.20784\offic…...

计算机求职面经内容与技巧分享

计算机求职面经内容与技巧分享 一、求职前的充分准备 &#xff08;一&#xff09;简历优化 突出技术能力&#xff1a;在简历中&#xff0c;务必清晰呈现自己精通的编程语言&#xff0c;例如熟练掌握 Java、Python 等语言的核心语法、常用库及框架。详细列举熟悉的技术栈&#x…...

java Springboot使用扣子Coze实现实时音频对话智能客服

一、背景 因公司业务需求&#xff0c;需要使用智能客服实时接听顾客电话。 现在已经完成的操作是&#xff0c;智能体已接入系统进行对练&#xff0c;所以本文章不写对联相关的功能。只有coze对接&#xff5e; 扣子提供了试用Realtime WebSocket&#xff0c;点击右上角setting配…...

焦化烧结行业无功补偿解决方案—精准分组补偿 稳定电能质量沃伦森

在焦化、烧结等冶金行业&#xff0c;负荷运行呈现长时阶梯状变化&#xff0c;功率波动相对平缓&#xff0c;但对无功补偿的分组精度要求较高。传统固定电容器组补偿方式无法动态跟随负荷变化&#xff0c;导致功率因数不稳定&#xff0c;甚至可能因谐波放大影响电网安全。 行业…...

机器人项目管理新风口:如何高效推动智能机器人研发?

在2025年政府工作报告中&#xff0c;“智能机器人”首次被正式纳入国家发展战略关键词。从蛇年春晚的秧歌舞机器人惊艳亮相&#xff0c;到全球首个人形机器人马拉松的热议&#xff0c;智能机器人不仅成为科技前沿的焦点&#xff0c;也为产业升级注入了新动能。而在热潮背后&…...

ZooKeeper配置优化秘籍:核心参数说明与性能优化

#作者&#xff1a;张桐瑞 文章目录 tickTime&#xff1a;Client-Server通信心跳时间initLimit&#xff1a;Leader-Follower初始通信时限syncLimit&#xff1a;Leader-Follower同步通信时限dataDir&#xff1a;数据文件目录clientPort&#xff1a;客户端连接端口服务器名称与地…...

uniapp -- 实现微信小程序、app、H5端视频上传

布局及实现代码&#xff1a; <template><view class"flex flex-column p-4 grid-gap-4"><view class"flex flex-column grid-gap-4 bg-white p-4 rounded-4"><view class"font-weight-600">视频名称</view><i…...

2025年Redis分片存储性能优化指南

一、分片规则与负载均衡 动态哈希分片‌ 采用CRC16算法计算键哈希值&#xff0c;通过hash_slot CRC16(key) % 16384确定槽位分布&#xff0c;结合Redis Cluster自动管理槽位迁移。 总分片数按需动态调整&#xff0c;例如从16节点扩容至32节点时&#xff0c;触发槽位重分配以…...

前端跨端框架的开发以及IOS和安卓的开发流程和打包上架的详细流程

以下是关于 前端跨端框架开发 以及 iOS/Android 原生开发流程与上架 的详细指南&#xff0c;涵盖技术选型、开发工具、打包发布全流程&#xff1a; 一、前端跨端开发框架对比与流程 主流跨端框架 框架技术栈性能接近原生生态成熟度适用场景React NativeJS/React80%⭐⭐⭐⭐⭐…...

项目《基于Linux下的mybash命令解释器》(二)

一、使用系统命令的完整代码 #include<stdio.h> #include<wait.h> #include<stdlib.h> #include<unistd.h> #include<assert.h> #include<string.h> #include<pwd.h>#define ARG_MAX 10//防止参数不够&#xff0c;可以做到一改全改…...

arm64适配系列文章-第十章-arm64环境上jenkins的部署

ARM64适配系列文章 第一章 arm64环境上kubesphere和k8s的部署 第二章 arm64环境上nfs-subdir-external-provisioner的部署 第三章 arm64环境上mariadb的部署 第四章 arm64环境上nacos的部署 第五章 arm64环境上redis的部署 第六章 arm64环境上rabbitmq-management的部署 第七章…...

PyTorch生成式人工智能实战(2)——PyTorch基础

PyTorch生成式人工智能实战&#xff08;2&#xff09;——PyTorch基础 0. 前言1. 创建 PyTorch 张量2. PyTorch 张量索引和切片3. PyTorch 张量形状4. 在 PyTorch 张量数学运算小结系列链接 0. 前言 为了训练生成式人工智能模型&#xff0c;我们可以使用多种数据格式&#xff…...

解决高德地图AMapUtilCoreApi、NetProxy类冲突

问题&#xff1a; Duplicate class com.amap.apis.utils.core.api.AMapUtilCoreApi found in modules jetified-3dmap-10.0.600 (com.amap.api:3dmap:10.0.600) and jetified-search-9.7.1 (com.amap.api:search:9.7.1) Duplicate class com.amap.apis.utils.core.api.NetProx…...

java—14 ZooKeeper

一、ZooKeeper简介 ZooKeeper是一种分布式协调服务&#xff0c;用于管理大型主机。在分布式环境中协调和管理服务 是一种复杂的过程&#xff0c;ZooKeeper通过简单的架构和API解决了这个问题。ZooKeeper运行开 发人员专注于核心应用程序逻辑&#xff0c;而不必担心应用程序的分…...

特征存储的好处:特征存储在机器学习开发中的优势

随着企业寻求提升机器学习生产力和运营能力 (MLOps),特征存储 (Feature Store) 的普及度正在迅速提升。随着 MLOps 技术的进步,特征存储正成为机器学习基础设施的重要组成部分,帮助企业提升模型的性能和解释能力,并加速新模型与生产环境的集成。这些存储充当集中式存储库,…...

【Promethus(普罗米修斯)介绍安装及使用】

一、系统介绍 1、什么是Prometheus? Prometheus:不仅是一款时间序列数据库,在整个生态上还是一套完整的监控系统。同时,还涉及许多以“explore”命名的客户端数据采集工具以及pushgateway网关。 官网:https://prometheus.io/ 文献:https://prometheus.io/docs/introdu…...