当前位置: 首页 > news >正文

Paraformer和SenseVoice模型训练

0.数据准备

如果是训练paraformer模型,我们只需要准备train_wav.scp和train_text.txt以及验证集val_wav.scp和val_text.txt即可。

如果是训练SenseVoice模型,我们需要准备下面几个文件:

train_text.txt
train_wav.scp
train_text_language.txt
train_emo.txt
train_event.txt

其中必须的是train_wav.scp和train_text.txt文件。

下面是每个文件的格式要求:

BAC009S0764W0121 甚至出现交易几乎停滞的情况
BAC009S0916W0489 湖北一公司以员工名义贷款数十员工负债千万
asr_example_cn_en 所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些 > 也许对
ID0012W0014 he tried to think how it could be

注意:如果是中英混杂的句子,中文和英文之间要有空格。

BAC009S0764W0121 /root/train/data/BAC009S0764W0121.wav
BAC009S0916W0489 /root/train/data/BAC009S0916W0489.wav
asr_example_cn_en /root/train/data/asr_example_cn_en.wav
ID0012W0014 /root/train/data/ID0012W0014.wav

注意:音频路径不能使用URL路径,使用URL路径会导致生成的jsonl文件没有内容。

BAC009S0764W0121 <|zh|>
BAC009S0916W0489 <|zh|>
asr_example_cn_en <|zh|>
ID0012W0014 <|en|>
BAC009S0764W0121 <|NEUTRAL|>
BAC009S0916W0489 <|NEUTRAL|>
asr_example_cn_en <|NEUTRAL|>
ID0012W0014 <|NEUTRAL|>
BAC009S0764W0121 <|Speech|>
BAC009S0916W0489 <|Speech|>
asr_example_cn_en <|Speech|>
ID0012W0014 <|Speech|>

下面生成jsonl文件时需要注意,如果你只准备了train_wav.scp和train_text.txt文件,那么执行下面这样的命令。

# generate train.jsonl and val.jsonl from wav.scp and text.txt
sensevoice2jsonl \
++scp_file_list='["../../../data/list/train_wav.scp", "../../../data/list/train_text.txt"]' \
++data_type_list='["source", "target"]' \
++jsonl_file_out="../../../data/list/train.jsonl" \
++model_dir='iic/SenseVoiceSmall'

注意:SenseVoice会自动打标。

如果是准备了全部文件,那么执行下面命令。

# generate train.jsonl and val.jsonl from wav.scp, text.txt, text_language.txt, emo_target.txt, event_target.txt
sensevoice2jsonl \
++scp_file_list='["../../../data/list/train_wav.scp", "../../../data/list/train_text.txt", "../../../data/list/train_text_language.txt", "../../../data/list/train_emo.txt", "../../../data/list/train_event.txt"]' \
++data_type_list='["source", "target", "text_language", "emo_target", "event_target"]' \
++jsonl_file_out="../../../data/list/train.jsonl"

生成的jsonl文件会保存到上面指定的路径下。我们训练之前最好检查一下生成的jsonl文件是否对。

1.训练

现在我们可以开始训练了,首先是检查finetune.sh脚本中的参数看看对不对,如显卡索引对不对,默认是使用了两张显卡,如果你只有一张,那么就需要修改,如果你是两张,那么可以不用修改直接运行这个脚本。

训练中的loss曲线可通过tensorboard来查看,下面是我使用了300多条专业名词数据集做的微调训练的loss曲线。

可以看到这个训练是有效果的,如果这个loss曲线是上升的,说明这个模型训练的参数设置的不对或者训练的数据集不干净,比如音频或文本没有对应上,或者音频采样率过低,比如8k。训练这个模型,我们推荐使用的音频采样率是大于等于16k。

训练的时候我们执行bash finetune.sh就可以了。

如果想要查看tensorboard曲线,需要先安装这个tensorboard依赖,如果你使用的是autodl平台训练的,那么可以执行下面命令先把默认启动的tensorboard结束掉,然后重新执行,并且指定端口和路径。

ps -ef | grep tensorboard | awk '{print $2}' | xargs kill -9
nohup tensorboard --port 6007 --logdir /path/to/your/tf-logs/direction > tensorboard.log 2>&1 &

3. 其它

更多内容可以访问我的博客,点击这里跳转。

相关文章:

Paraformer和SenseVoice模型训练

0.数据准备 如果是训练paraformer模型&#xff0c;我们只需要准备train_wav.scp和train_text.txt以及验证集val_wav.scp和val_text.txt即可。 如果是训练SenseVoice模型&#xff0c;我们需要准备下面几个文件&#xff1a; train_text.txt train_wav.scp train_text_language.…...

Axure数据可视化科技感大屏设计资料——赋能多领域,展示无限价值

可视化大屏如何高效、直观地展示数据&#xff0c;并将其转化为有价值的决策依据&#xff0c;成为了许多企业和组织面临的共同挑战。Axure大屏可视化模板&#xff0c;作为一款强大的数据展示工具&#xff0c;正在以其出色的交互性和可定制性&#xff0c;赋能多个领域&#xff0c…...

C# Winform 入门(7)之简单的抽奖系统邮件

由于比较喜欢英语&#xff0c;这里就把汉字属性名都改成英语了 声明变量&#xff0c;生成随机数 int key 0;Random random new Random(); 窗体加载 private void Form1_Load(object sender, EventArgs e) {timer1.Enabledfalse; } 开始按钮 private void txt_begin_Click(ob…...

scala编程语言

一、抽象类 1、抽象属性和抽象方法 1&#xff09;基本语法 &#xff08;1&#xff09;定义抽象类&#xff1a;abstract class Person{} //通过 abstract 关键字标记抽象类 &#xff08;2&#xff09;定义抽象属性&#xff1a;val|var name:String //一个属性没有初始化&#xf…...

光流 | Farneback、Horn-Schunck、Lucas-Kanade、Lucas-Kanade DoG四种光流算法对比(附matlab源码)

🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅 以下是对四种光流算法的对比分析及MATLAB验证方案,包含原理说明、应用场景和可执行代码🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅 🍓🍓🍓🍓🍍🍍🍍🍍🍍🍍🍍🍍🍍🍍…...

146. LRU 缓存 带TTL的LRU缓存实现(拓展)

LRU缓存 方法一:手动实现双向链表 哈希表 struct Node{int val;int key;Node* prev;Node* next;Node(int a, int b): key(a), val(b), prev(nullptr), next(nullptr) {}Node():key(0), val(0), prev(nullptr), next(nullptr) {} }; class LRUCache { private:Node* removeTai…...

【C++代码整洁之道】第九章 设计模式和习惯用法

文章目录 1. 设计原则与设计模式2. 常见的设计模式及应用场景2.1 单例模式2.2 依赖注入2.3 Adapter模式2.4 Strategy模式2.5 Command模式2.6 Command处理器模式2.7 Composite模式2.8 Observer模式2.9 Factory模式2.10 Facade模式2.11 Money Class模式2.12 特例模式 3. 常见的设…...

【动态规划】混合背包模板

混合背包问题题解 题目传送门&#xff1a;AcWing 7. 混合背包问题 一、题目描述 有 N 种物品和一个容量是 V 的背包。物品分为三类&#xff1a; 01背包&#xff1a;只能用1次&#xff08;si -1&#xff09;完全背包&#xff1a;可以用无限次&#xff08;si 0&#xff09;多…...

Linux 线程1-线程的概念、线程与进程区别、线程的创建、线程的调度机制、线程函数传参

目录 1.线程概念 1.1 线程的核心特点 1.2‌线程的工作模型‌ 1‌.3线程的潜在问题‌ ‌ 1.4 进程和线程区别 1.4.1‌执行与调度‌ ‌ 1.4.2进程和线程区别对比表 1.4.3应用场景‌ ‌ 1.4.4总结 2.线程的创建 2.1验证进程结束后&#xff0c;进程中所有的线程都会强制…...

Python 助力人工智能与机器学习的深度融合

技术革新的 “源动力” 在当今数字化时代&#xff0c;人工智能&#xff08;AI&#xff09;与机器学习&#xff08;ML&#xff09;无疑是最具影响力的技术领域&#xff0c;它们如同强大的引擎&#xff0c;推动着各个行业的变革与发展。Python 凭借其简洁易读的语法、丰富的库和…...

【GPT写代码】动作视频切截图研究器

目录 背景源代码 end 背景 用python写一个windows环境运行的动作视频切截图研究器&#xff0c;用路径浏览的方式指定待处理的视频文件&#xff0c;然后点击分析按钮&#xff0c;再预览区域显示视频预览画面&#xff0c;然后拖动时间轴&#xff0c;可以在预览区域刷新显示相应的…...

从0到神谕:GPT系列的进化狂想曲——用AI之眼见证人类语言的终极形态

开始&#xff1a;语言模型的星际跃迁 在人工智能的浩瀚星海中&#xff0c;GPT系列如同光年加速器&#xff0c;推动人类语言的理解与生成突破维度限制。从2018年GPT-1的初试啼声&#xff0c;到2025年GPT-4o的全模态智慧&#xff0c;这场进化狂想曲不仅是技术的迭代史&#xff0c…...

Go并发编程终极指南:深入内核与工程实践

Go并发编程终极指南&#xff1a;深入内核与工程实践 Go并发编程终极指南&#xff1a;深入内核与工程实践 Go并发编程终极指南&#xff1a;深入内核与工程实践一、Goroutine调度器深度解构1.1 调度器演进史1.2 调度器源码级解析1.3 调度器可视化诊断 二、Channel底层实现揭秘2.1…...

Neo4j操作数据库(Cypher语法)

Neo4j数据库操作语法 使用的数据库版本 (终端查询) >neo4j --version 2025.03.0批量上传数据 UNWIND [{name: Alice, age: 30},{name: Bob, age: 25} ] AS person CREATE (p:Person) SET p.name = person.name, p.age = person.age RETURN p;查询结点总数 MATCH (n) RETU…...

DHCP之中继 Relay-snooping及配置命令

随着网络规模的不断扩大&#xff0c;网络设备不断增多&#xff0c;企业内不同的用户可能分布在不同的网段&#xff0c;一台 DHCP 服务器在正常情况下无法满足多个网段的地址分配需求。如果还需要通过 DHCP 服务器分配 IP 地址&#xff0c;则需要跨网段发送 DHCP 报文 DHCP Rel…...

小迪安全110-tp框架,版本缺陷,不安全写法,路由访问,利用链

入口文件 前端页面显示文件 就是这串代码让我们看到前端的笑脸图 不用入口文件我们要访问这个文件就要按照开发手册的url访问模式 那就是index.php/index/index/index 对应的就是模块&#xff0c;控制器&#xff0c;操作&#xff0c;函数名 如果想要创建新模块&#xff0c;和操…...

Vanna:用检索增强生成(RAG)技术革新自然语言转SQL

引言&#xff1a;为什么我们需要更智能的SQL生成&#xff1f; 在数据驱动的业务环境中&#xff0c;SQL 仍然是数据分析的核心工具。然而&#xff0c;编写正确的 SQL 查询需要专业知识&#xff0c;而大型语言模型&#xff08;LLM&#xff09;直接生成的 SQL 往往存在**幻觉&…...

大语言模型应用和训练(人工智能)

RAG&#xff08;Retrieval Augmented Generation&#xff0c;检索增强生成&#xff09; 定义&#xff1a;是一种将外部知识检索与语言模型生成能力相结合的技术。在传统的大语言模型中&#xff0c;模型的知识是在预训练阶段学到的&#xff0c;可能存在知识过时或不完整的问题。…...

NLP高频面试题(三十五)——LLaMA / ChatGLM / BLOOM的区别

一、LLaMA 训练数据 LLaMA由Meta开发,拥有多个参数规模的版本:7B、13B、33B和65B。其中,较小的7B和13B版本采用了约1万亿tokens进行训练,而更大的33B和65B版本使用了约1.4万亿tokens进行训练。 模型结构特点 LLaMA采用与GPT类似的causal decoder-only Transformer结构,…...

【Python Cookbook】字符串和文本(五):递归下降分析器

目录 案例 目录 案例 字符串和文本&#xff08;一&#xff09;1.使用多个界定符分割字符串2.字符串开头或结尾匹配3.用 Shell 通配符匹配字符串4.字符串匹配和搜索5.字符串搜索和替换字符串和文本&#xff08;三&#xff09;11.删除字符串中不需要的字符12.审查清理文本字符串1…...

专为 零基础初学者 设计的最简前端学习路线,聚焦核心内容,避免过度扩展,帮你快速入门并建立信心!

第一阶段&#xff1a;HTML CSS&#xff08;2-3周&#xff09; 目标&#xff1a;能写出静态网页&#xff0c;理解盒子模型和布局。 HTML基础 常用标签&#xff1a;<div>, <p>, <img>, <a>, <ul>, <form> 语义化标签&#xff1a;<head…...

大模型-爬虫prompt

爬虫怎么写prompt 以下基于deepseek r1 总结&#xff1a; 以下是为大模型设计的结构化Prompt模板&#xff0c;用于生成专业级网络爬虫Python脚本。此Prompt包含技术约束、反检测策略和数据处理要求&#xff0c;可根据具体需求调整参数&#xff1a; 爬虫脚本生成Prompt模板1 …...

PyTorch深度实践:基于累积最大值的注意力机制设计与性能优化

引言&#xff1a;注意力机制的创新与挑战 在自然语言处理和序列建模中&#xff0c;注意力机制&#xff08;Attention&#xff09;是提升模型性能的关键技术。传统基于 softmax 的注意力机制虽然成熟&#xff0c;但在计算效率和长序列建模中存在局限。本文将介绍一种创新的注意…...

编程bug001:off by one (差一错误)

为什么看似简单的编码错误可能造成大灾难&#xff1f; Off-by-One Error&#xff08;简称OBOE&#xff09;&#xff0c;即由于边界条件处理不当&#xff0c;导致循环、计数或索引时多算一次或少算一次的错误。这是非常常见的编程bug类型&#xff0c;尤其在处理数组、字符串或范…...

JavaScript 中常见的鼠标事件及应用

JavaScript 中常见的鼠标事件及应用 在 JavaScript 中&#xff0c;鼠标事件是用户与网页进行交互的重要方式&#xff0c;通过监听这些事件&#xff0c;开发者可以实现各种交互效果&#xff0c;如点击、悬停、拖动等。 在 JavaScript 中&#xff0c;鼠标事件类型多样&#xff0…...

使用Expo框架开发APP——详细教程

在移动应用开发日益普及的今天&#xff0c;跨平台开发工具越来越受到开发者青睐。Expo 是基于 React Native 的一整套工具和服务&#xff0c;它能够大幅降低原生开发的门槛&#xff0c;让开发者只需关注业务逻辑和界面实现&#xff0c;而不用纠结于复杂的原生配置。本文将从零开…...

深入探究 Hive 中的 MAP 类型:特点、创建与应用

摘要 在大数据处理领域,Hive 作为一个基于 Hadoop 的数据仓库基础设施,提供了方便的数据存储和分析功能。Hive 中的 MAP 类型是一种强大的数据类型,它允许用户以键值对的形式存储和操作数据。本文将深入探讨 Hive 中 MAP 类型的特点,详细介绍如何创建含有 MAP 类型字段的表…...

前端开发工厂模式的优缺点是什么?

一、什么是工厂模式&#xff1f; 工厂模式属于创建型设计模式&#xff0c;核心思想是将对象的实例化过程封装到特定方法或类中&#xff0c;让客户端不需要直接通过new关键字创建对象。 举个例子&#xff1a;就像奶茶店不需要顾客自己调配饮品&#xff0c;而是通过"点单-…...

框架PasteForm实际开发案例,换个口味显示数据,支持echarts,只需要标记几个特性即可在管理端显示(2)

PasteForm框架的主要思想就是对Dto进行标记特性,然后管理端的页面就会以不一样的UI呈现 使用PasteForm框架开发,让你免去开发管理端的烦恼,你只需要专注于业务端和用户端! 在管理端中,如果说表格是基本的显示方式,那么图表chart就是一个锦上添花的体现! 如果一个项目拥…...

QEMU学习之路(5)— 从0到1构建Linux系统镜像

QEMU学习之路&#xff08;5&#xff09;— 从0到1构建Linux系统镜像 一、前言 参考&#xff1a;从内核到可启动镜像&#xff1a;0到1构建你的极简Linux系统 二、linux源码获取 安装编译依赖 sudo apt install -y build-essential libncurses-dev flex bison libssl-dev li…...

AI Agent设计模式一:Chain

概念 &#xff1a;线性任务流设计 ✅ 优点&#xff1a;逻辑清晰易调试&#xff0c;适合线性处理流程❌ 缺点&#xff1a;缺乏动态分支能力 from typing import TypedDictfrom langgraph.graph import StateGraph, END# 定义后续用到的一些变量 class CustomState(TypedDict):p…...

实操(进程状态,R/S/D/T/t/X/Z)Linux

1 R 状态并不直接代表进程在运行&#xff0c;而是该进程在运行队列中进行排队&#xff0c;由操作系统在内存维护的队列 #include <stdio.h> #include <unistd.h>int main() {while(1){printf("我在运行吗\n");sleep(1);}return 0; }查看状态&#xff08…...

T-SQL语言的自动化运维

T-SQL语言的自动化运维 引言 在现代IT环境中&#xff0c;自动化运维成为了提高效率、降低成本、提升稳定性的重要手段。数据库作为系统的重要组成部分&#xff0c;运维工作往往需要耗费大量的人力物力。T-SQL&#xff08;Transact-SQL&#xff09;作为Microsoft SQL Server的…...

Day06 分割编译与中断处理

文章目录 1. 例程harib03c&#xff08;c源文件分割并整理makefile文件&#xff09;2. 例程harib03c&#xff08;用于描述段的信息&#xff09;3. 例程harib03d&#xff08;初始化PIC&#xff09;4. 例程harib03e&#xff08;中断处理程序&#xff09; 1. 例程harib03c&#xff…...

数字化三维实训室:无穿戴动作捕捉技术如何赋能体育与舞蹈

在高校体育与舞蹈教学中&#xff0c;精准的动作训练至关重要。传统训练方式依赖教练的肉眼观察与手动记录&#xff0c;存在效率低下、误差较大的情况。尤其在快速连续动作或复杂肢体形态的捕捉中&#xff0c;人工判读易受主观经验限制&#xff0c;难以实现标准化评估。面对传统…...

6. RabbitMQ 死信队列的详细操作编写

6. RabbitMQ 死信队列的详细操作编写 文章目录 6. RabbitMQ 死信队列的详细操作编写1. 死信的概念2. 消息 TTL 过期(触发死信队列)3. 队列超过队列的最大长度(触发死信队列)4. 消息被拒(触发死信队列)5. 最后&#xff1a; 1. 死信的概念 先从概念上解释上搞清楚这个定义&#…...

AI浪潮下,新手短视频制作的破局之道

AI浪潮下&#xff0c;新手短视频制作的破局之道 引言&#xff1a;短视频新时代&#xff0c;AI 带来的机遇与挑战 在当下这个信息飞速流转的时代&#xff0c;短视频已然成为了人们生活中不可或缺的一部分。无论是在通勤路上、午休间隙&#xff0c;还是茶余饭后&#xff0c;打开…...

合肥SMT贴片制造工艺全解析

内容概要 作为电子制造领域的核心工艺&#xff0c;SMT&#xff08;表面贴装技术&#xff09;在合肥地区电子产业链中占据重要地位。本解析以合肥本地化生产场景为基础&#xff0c;系统梳理从焊膏印刷到成品检测的全流程工艺框架。具体而言&#xff0c;制造流程涵盖四大核心阶段…...

ctfshow VIP题目限免 协议头信息泄露

根据提示是协议头信息泄露&#xff0c;那就我们抓个包&#xff0c;抓包才能看到请求体响应体里的协议头啊&#xff0c;抓包之后在响应包里发现了 flag...

【国产工具链发展,生态链分析,TSMaster VS Zcanpro的技术对比】

黎明篇&#xff1a;国产汽车测试工具链的崛起、差距与未来 副标题&#xff1a; 从跟随到超越&#xff0c;中国技术如何重塑全球研发体系 一、国产工具链的崛起逻辑 政策驱动&#xff1a;信创战略与供应链安全需求 国家“十四五”规划明确提出支持关键领域技术自主化&#xff0…...

Linux线程同步与互斥:【线程互斥】【线程同步】【线程池】

目录 一.线程互斥 1.1相关概念 1.2互斥量 为什么会出现负数&#xff1f;&#xff1f; 互斥量的接口 问题&#xff1a; 1.3互斥量实现原理探究 1.4互斥量封装 二.线程同步 2.1条件变量 2.2同步概念与竞态条件 2.3接口 2.4生产者消费者模型 优点 2.5基于BlockingQueue的…...

网络安全基础知识总结

什么是网络安全 采取必要措施&#xff0c;来防范对网络的攻击&#xff0c;侵入&#xff0c;干扰&#xff0c;破坏和非法使用&#xff0c;以及防范一些意外事故&#xff0c;使得网络处于稳定可靠运行的状态&#xff0c;保障网络数据的完整性、保密性、可用性的能力(CIA)。 举例…...

请求被中止: 未能创建 SSL/TLS 安全通道。

需要安装vs2019社区办&#xff0c;下载VisualStudioSetup.exe后&#xff0c;报无法从"https://aka,ms/vs/16/release/channel"下载通道清单错误&#xff0c;接着打开%temp%目录下的最新日志&#xff0c;发现日志里报&#xff1a; [27d4:000f][2025-04-04T21:15:43] …...

FPGA学习(四)——状态机重写LED流水灯并仿真

FPGA学习&#xff08;四&#xff09;——状态机重写LED流水灯并仿真 目录 FPGA学习&#xff08;四&#xff09;——状态机重写LED流水灯并仿真一、状态机编程思想1、状态机要素2、状态迁移图3、状态机写法 二、LED流水灯仿真实现1、代码实现2、modesim仿真 三、实现效果1、仿真…...

spark 集群

hadoop客户端环境准备 找到资料包路径下的Windows依赖文件夹&#xff0c;拷贝hadoop-3.1.0到非中文路径&#xff08;比如d:\hadoop-3.1.0&#xff09; ① 打开环境变量 ② 在下方系统变量中新建HADOOP_HOME环境变量,值就是保存hadoop的目录。 效果如下&#xff1a; ③ 配置P…...

leetcode117 填充每个节点的下一个右侧节点指针2

LeetCode 116 和 117 都是关于填充二叉树节点的 next 指针的问题&#xff0c;但它们的区别在于 树的类型 不同&#xff0c;117与 116 题类似&#xff0c;但给定的树是 普通二叉树&#xff08;不一定完全填充&#xff09;&#xff0c;即某些节点可能缺少左或右子节点。 树的结构…...

Java全栈面试宝典:线程安全机制与Spring Boot核心原理深度解析

目录 一、Java线程安全核心原理 &#x1f525; 问题1&#xff1a;线程安全的三要素与解决方案 线程安全风险模型 线程安全三要素 synchronized解决方案 &#x1f525; 问题2&#xff1a;synchronized底层实现全解析 对象内存布局 Mark Word结构&#xff08;64位系统&…...

CCF GESP C++编程 三级认证真题 2025年3月

C 三级 2025 年 03 月 题号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 答案 D B A A B A C A C D D D B D C 1 单选题 第 1 题 Base64 编码将每3字节的输入数据编码为 4 字节的输出数据。如果输入数据长度不是 3 的倍数&#xff0c;会用 号填充。在Base64编码中&#xff0c;如果…...

人工智能爬虫导致维基共享资源带宽需求激增 50%

2025 年 4 月 1 日&#xff0c;维基媒体基金会在博文中表示&#xff0c;自 2024 年 1 月以来&#xff0c;维基共享资源下载多媒体的带宽消耗激增 50%&#xff0c;这一变化趋势主要由用于 AI 训练数据集的网络爬虫导致。以下是具体分析1&#xff1a; 爬虫流量特征与数据存储模式…...

方案精读:华为数据治理之旅【全文阅读】

本文介绍了华为的数据管理工作,包括数据治理、数据质量建设、数据管理工作两阶段历程、数据管理组织和数据管理工作思考。华为以业务数字化为前提,以数据入湖为基础,重点建设数据中台,提高数据质量和管理能力,以支撑公司数字化转型。 重点内容: 1. 数据治理:华为进行数…...