当前位置：首页 > news >正文

语音识别——语音转文字

news 来源：原创 2025/8/14 14:05:16

SenseVoiceSmall阿里开源大模型，SenseVoice 是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测（AED）。经过超过40万小时的数据训练，支持50多种语言

SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测

多语言识别： 采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型。
富文本识别：
- 具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。
- 支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
高效推理： SenseVoice-Small 模型采用非自回归端到端框架，推理延迟极低，10s 音频推理仅耗时 70ms，15 倍优于 Whisper-Large。
微调定制： 具备便捷的微调脚本与策略，方便用户根据业务场景修复长尾样本问题。
服务部署： 具有完整的服务部署链路，支持多并发请求，支持客户端语言有，python、c++、html、java 与 c# 等。

项目地址：https://github.com/FunAudioLLM/SenseVoice

以下为模型调用方法，输出的文字可能会包括一些表情，可以通过正则化的方式移除这些表情：

import pyaudio
import numpy as np
import wave
import osfrom funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocessmodel = AutoModel(model=r"D:\Downloads\SenseVoiceSmall",trust_remote_code=True,remote_code="./model.py",    vad_model="fsmn-vad",vad_kwargs={"max_single_segment_time": 30000},device="cpu",use_itn=True,disable_update=True,disable_pbar = True,disable_log = True
)# 利用语音识别模型将音频数据转换为文本
def sound2text(audio_file):"""利用语音识别模型将音频数据转换为文本"""# enres = model.generate(input=audio_file,cache={},language="zh",  # "zh", "en", "yue", "ja", "ko", "nospeech"use_itn=True,batch_size_s=60,merge_vad=True,  #merge_length_s=15,)text = rich_transcription_postprocess(res[0]["text"])return textif __name__ == "__main__":# 读取音频文件audio_file = r"C:\Users\lvkong\Desktop\temp_wave\waving_20250513_135512_嗯鹅.wav"# 如果音频文件存在，直接读取if os.path.exists(audio_file):with wave.open(audio_file, 'rb') as wf:audio_data = wf.readframes(wf.getnframes())else:# 否则录制一段音频print("请开始说话（录音5秒钟）...")CHUNK = 1024FORMAT = pyaudio.paInt16CHANNELS = 1RATE = 16000RECORD_SECONDS = 5p = pyaudio.PyAudio()stream = p.open(format=FORMAT,channels=CHANNELS,rate=RATE,input=True,frames_per_buffer=CHUNK)frames = []for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):data = stream.read(CHUNK)frames.append(data)stream.stop_stream()stream.close()p.terminate()# 保存录音with wave.open(audio_file, 'wb') as wf:wf.setnchannels(CHANNELS)wf.setsampwidth(p.get_sample_size(FORMAT))wf.setframerate(RATE)wf.writeframes(b''.join(frames))audio_data = b''.join(frames)print(f"录音已保存为 {audio_file}")# 利用语音识别模型将音频数据转换为文本text = sound2text(audio_file)# 输出文本print("识别结果:")print(text)

正则化移除除中文外的其他内容：

# 提取字符串中的汉字
def extract_chinese(input_string):"""提取字符串中的汉字:param input_string: 原始字符串:return: 转换后的中文字符串"""# 使用正则表达式提取所有汉字chinese_characters = re.findall(r'[\u4e00-\u9fa5]', input_string)# 将汉字列表合并为字符串chinese_text = ''.join(chinese_characters)# 返回中文字符串return chinese_text

此外，SenseVoiceSmall模型还支持pipeline的方式加载调用

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasksinference_pipeline = pipeline(task=Tasks.auto_speech_recognition,model=r'D:\Downloads\SenseVoiceSmall',model_revision="master",device="cuda:0",use_itn=True,disable_update=True)rec_result = inference_pipeline(r"D:\Project\Chat_Project\output_5.wav")
print(rec_result)

语音识别——语音转文字

SenseVoiceSmall阿里开源大模型，SenseVoice 是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或…...

编程日记 2025/8/14 14:05:16

语音识别——声纹识别

通过将说话人的声音与数据库中的记录声音进行比对，判断说话人是否为数据库白名单中的同一人，从而完成语音验证。目前，3D-Speaker 声纹验证的效果较为出色。 3D-Speaker 是一个开源工具包，可用于单模态和多模态的说话人验证、说话…...

编程日记 2025/8/10 13:30:35

c++作业整理2

直接访问就是直接利用变量的地址直接进行访问。答案：T 解析：直接访问通过变量名（实际对应内存地址）访问数据，与间接访问（通过指针）相对。 char *s"C Language"; 表示 s 是一个指向字…...

编程日记 2025/8/14 14:05:13

无人机屏蔽与滤波技术模块运行方式概述！

一、模块运行方式 1. 电磁屏蔽模块动态频段干扰：通过发射与无人机通信频段（如2.4GHz、5.8GHz、GPS频段等）同频的强干扰信号，切断无人机与遥控器、图传设备间的通信链路，实现迫降或返航功能。例如便携式屏蔽器通过…...

编程日记 2025/8/12 16:24:28

兼顾长、短视频任务的无人机具身理解！AirVista-II：面向动态场景语义理解的无人机具身智能体系统

作者：Fei Lin 1 ^{1} 1, Yonglin Tian 2 ^{2} 2, Tengchao Zhang 1 ^{1} 1, Jun Huang 1 ^{1} 1, Sangtian Guan 1 ^{1} 1, and Fei-Yue Wang 2 , 1 ^{2,1} 2,1单位： 1 ^{1} 1澳门科技大学创新工程学院工程科学系， 2 ^{2} 2中科院自动化研究所…...

编程日记 2025/8/12 17:48:49

深入探索 OpenCV：从实时视频流到图像处理的实战指南

引言在当今数字化时代，计算机视觉技术正逐渐成为推动科技发展的核心力量之一。从自动驾驶汽车到智能家居设备，从医疗影像诊断到工业自动化，计算机视觉的应用无处不在。而 OpenCV（Open Source Computer Vision Library&#xff0…...

编程日记 2025/8/14 5:43:42

Linux线程控制

POSIX线程库与线程有关的函数构成了一个完整的系列，绝大多数函数的名字都是以“pthread_”打头的要使用这些函数库，要通过引入头文 <pthread.h>链接这些线程函数库时要使用编译器命令的“-lpthread”选项创建线程功能：创建⼀个新…...

编程日记 2025/8/12 19:35:35

软件设计师考试《综合知识》设计模式之——工厂模式与抽象工厂模式考点分析

软件设计师考试《综合知识》工厂模式与抽象工厂模式考点分析 1. 分值占比与考察趋势（75分制） 年份题量分值占总分比例核心考点2023111.33%抽象工厂模式适用场景2022222.67%工厂方法 vs 抽象工厂区别2021111.33%工厂方法模式结构2020111.33%简单工厂模式…...

编程日记 2025/8/13 4:22:37

携程旅行酒店详情 token1004 分析 phantom-token

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！ 部分python代码这个网站有一个坑&am…...

编程日记 2025/8/12 10:22:26

QT——概述

<1>, Qt概述 Qt 是⼀个跨平台的 C 图形⽤⼾界⾯应⽤程序框架 Qt ⽀持多种开发⼯具，其中⽐较常⽤的开发⼯具有：Qt Creator、Visual Studio、Eclipse. 一，Qt Creator 集成开发环境（IDE） Qt Creator 是⼀个轻量…...

编程日记 2025/8/10 5:33:13

uniapp-vue3项目中引入高德地图的天气展示

前言： uniapp-vue3项目中引入高德地图的天气展示效果： 操作步骤： 1、页面上用定义我们的当前天气信息：<view></view> 2、引入我们的map文件 <script setup>import amapFile from ../../libs/amap-wx.js …...

编程日记 2025/8/11 11:19:10

Unity碰撞检测：射线与胶囊体投射/Layer（层）、LayerMask(遮罩层）

一、Physics碰撞检测 1.Physics.Raycast射线投射 Physics.Raycast 是 Unity 中用于执行射线检测（Raycasting）的方法。它允许你从一个点沿特定方向发射一条无形的“射线”，并检查这条射线是否与场景中的任何碰撞体相交。这个功能非常有用&am…...

编程日记 2025/8/7 20:05:28

浪潮云边协同：赋能云计算变革的强力引擎

在数字化浪潮以排山倒海之势席卷全球的当下，第五届数字中国建设峰会在福州盛大开幕。这场以“创新驱动新变革，数字引领新格局”为主题的行业盛会，宛如一座汇聚智慧与力量的灯塔，吸引了国内外众多行业精英齐聚一堂，共同…...

编程日记 2025/8/14 8:05:40

“傅里叶变换算法”来检测纸箱变形的简单示例

为了创建一个具有科技质感且能动态展示结果的纸箱变形检测傅里叶变换网页，下面将分别更新 HTML、CSS 和 JavaScript 文件。以下是更新后的代码： 1. HTML 文件 (index.html) <!DOCTYPE html> <html lang"zh-CN"> <head><…...

编程日记 2025/8/11 5:27:46

【SPIN】用Promela验证顺序程序：从断言到SPIN实战（SPIN学习系列--2）

你写了一段自认为“天衣无缝”的程序，但如何确保它真的没有bug？靠手动测试？可能漏掉边界情况；靠直觉？更不靠谱！这时候，Promela SPIN组合就像程序的“显微镜”——用形式化验证技术，…...

编程日记 2025/8/9 3:57:59

如何卸载并重新安装 Mozilla Firefox 浏览器

如果你在 Windows 上遇到现有的 Mozilla FireFox 安装问题，以下是重新安装 FireFox 的步骤。这可以帮助用户解决由于某些扩展或设置问题，或者不小心下载了令人讨厌的广告软件而导致的问题。虽然现在使用 Firefox 浏览器的用户在渐渐沦为小众群体，但是 Firefox 浏览器依然是最…...

编程日记 2025/8/8 2:22:34

Linux 后台运行的方法

Linux 后台运行的两种方法：screen 和 nohup 使用指南如有错误，敬请指正方法一：使用 screen 管理后台任务（推荐） 🔹 安装（如未安装） sudo apt install screen # Ubuntu/Debian …...

编程日记 2025/8/10 21:31:59

《无限暖暖》画质测评

《无限暖暖》作为一款采用虚幻5引擎打造的多平台畅玩、高自由度换装探索类RPG游戏，凭借其精美的画面、沉浸式操作和暖暖美丽坚毅的人设吸引了大量玩家。在其中玩家可以通过做各样任务收集美好并感受到丰富的人生体验，暖暖所在的世界里有超多的NPC可以互…...

编程日记 2025/8/8 2:22:30

websocket简介与基本使用

websocket是什么 WebSocket 是一种基于 TCP 的全双工通信协议，允许客户端和服务器之间建立持久连接，实现实时、双向的数据传输。它是 HTTP 协议的补充，专为低延迟、高效率的实时通信设计。核心特点特性说明全双工通信客户端和服务器可以同时…...

编程日记 2025/8/11 2:41:42

面试题：请解释Java中的垃圾回收机制（Garbage Collection, GC），并讨论不同的垃圾回收算法及其优缺点

Java垃圾回收机制（GC） Java的垃圾回收机制负责自动管理内存，回收不再使用的对象以释放内存空间。GC通过以下步骤实现： 标记（Marking） ：识别哪些对象是可达的，哪些是不可达的。清除…...

编程日记 2025/8/9 19:29:00

解决 Ubuntu 22.04 安装后启动卡死问题

最近在一台 PC 上安装了 Ubuntu 22.04 系统，但发现系统启动时出现问题：屏幕上出现一个旋转的小圈，旋转片刻后停止，系统无法正常进入桌面环境。经过一番排查，我找到了一种有效的解决方法，通过进入恢复模式并…...

编程日记 2025/8/11 14:57:41

线程的两种实现方式

线程的两种实现方式——内核支持线程（kernal Supported Thread, KST）， 用户级线程（User Level Thread, ULT） 1. 内核支持线程顾名思义，内核支持线程即为在内核支持下的那些线程，它们的创建&am…...

编程日记 2025/8/13 4:38:18

Python Bug 修复案例分析：asyncio 事件循环异常引发的程序崩溃两种修复方法

在 Python 异步编程的工作中，asyncio库为我们提供了高效处理并发任务的强大工具。然而，asyncio在使用过程中也可能因为一些细节处理不当而引发 Bug。下面，我们就来深入分析一个因asyncio事件循环异常导致程序崩溃的典型案例。兴趣的友友可以借…...

编程日记 2025/8/10 8:46:44

TCP（传输控制协议）建立连接的过程

TCP（传输控制协议）建立连接的过程称为三次握手（Three-Way Handshake）。这是为了确保通信双方能够可靠地建立连接，并同步初始序列号。以下是详细步骤： 三次握手过程（通俗比喻：打电话…...

编程日记 2025/8/14 14:05:14

（十九）Java集合框架深度解析：从基础到高级应用

一、集合框架概述 1.1 什么是集合框架 Java集合框架(Java Collections Framework, JCF)是Java语言中用于表示和操作集合的一套标准化体系结构。它提供了一组接口、实现类和算法，用于存储和操作对象组，解决了数组在存储对象时的诸多限制。集合框架的主…...

编程日记 2025/8/14 3:23:25

数据结构与算法-线性表-单链表（Linked List）

1 线性表 1.2 单链表（Linked List） 顺序表在内存中是连续的进行存储，可以随机获取某个元素，但是在插入和删除元素的时候就非常不方便，需要移动很多相关的元素，链表就可以解决这个问题。链表就是每个节点…...

编程日记 2025/8/12 1:23:09

Vue3学习（组合式API——生命周期函数基础）

目录一、Vue3组合式API中的生命周期函数。 （1）各阶段生命周期涉及函数简单介绍。 <1>创建挂载阶段的生命周期函数。 <2>更新阶段的生命周期函数。 <3>卸载阶段的生命周期函数。 <4>错误处理的生命周期函数。 （2&…...

编程日记 2025/8/13 1:32:48

MySQL索引优化面试高频考点解析（附实战场景）

文章目录当索引失效成为面试官的"送命题"（必看！）高频考点一：索引失效的七大死亡陷阱1. 隐式类型转换（血泪案例！）2. 函数操作毁所有高频考点二：最左前缀原则的魔鬼细节组…...

编程日记 2025/8/11 8:10:21

三目云台20倍变焦智能监控技术

“三目云台20倍转动”通常指的是一种具备三目变焦功能和20倍光学变焦能力的云台摄像机。以下是对这一概念的详细解释： 一、三目变焦功能三目云台摄像机通常配备“长、短、广”三组定焦镜头，每组镜头都有其独特的作用： 长焦镜头 &#xff…...

编程日记 2025/8/12 17:32:52

SQL注入---05--跨站注入

1 权限说明 select * from mysql.user; 这里的Y表示我前面的命令权限为root，n表示不支持root权限导致结果： 如果为root的话，我就可操作这些命令并且可以进行跨数据库攻击，但是如果不是高权限root就无法执行这些操作 2 root权限…...

编程日记 2025/8/13 9:59:48

1. ADTS（Audio Data Transport Stream）帧结构在ADTS（Audio Data Transport Stream）帧结构中，“上面扩展28 bit”指的是ADTS固定头（adts_fixed_header()）和ADTS可变头（adts_variable_header()）各自包含的28位信息。 1.1 ADTS固定头（adts_fixed_header()） AAC 帧…...

编程日记 2025/8/11 11:17:45

HGDB企业版迁移到HGDB安全版

文章目录环境文档用途详细信息环境系统平台：Linux x86-64 Red Hat Enterprise Linux 7 版本：4.5.8,6.0 文档用途 HGDB企业版数据库通过命令备份恢复，迁移到HGDB安全版中。详细信息 1、环境介绍 1 IP 操作系统 cpux.x.65.10 …...

编程日记 2025/8/10 21:14:15

智慧化系统安全分析报告

智慧化系统的安全背景与现状一、政策法规背景 （一）全球主要国家/地区政策对比地区政策名称核心内容实施时间特点中国《生成式人工智能服务管理暂行办法》明确服务提供者责任，强调数据合法、隐私保护，禁止生成违法内容2023年8…...

编程日记 2025/8/12 23:39:30

概率相关问题

问题汇总 1. 贝叶斯定理（贝叶斯公式和全概率公式）2. 概率题2.1 随机发生器的概率为1/2 1. 贝叶斯定理（贝叶斯公式和全概率公式） 定义：在信息和条件有限的情况下，基于过去的数据，通过动态调整的…...

编程日记 2025/8/12 1:56:25

使用 GitDiagram 快速将 GitHub 仓库转换为交互式图表

前言当面对 GitHub 上文件目录错综复杂的新项目，且你急需快速了解其系统设计或架构流程时，你可能会感到束手无策。今天大姚给大家分享一个开源利器 GitDiagram，它可以轻松将任何复杂的 GitHub 仓库转化为直观、交互式的图表，这对…...

编程日记 2025/8/12 12:26:00

AWS CloudHSM：金融级密钥安全管理实战，如何通过FIPS 140-2认证守护数据生命线？

数据泄露平均成本430万美元，加密漏洞成头号杀手！当《数据安全法》撞上金融科技合规，开发者如何用硬件安全模块（HSM）构建不可破解的密钥堡垒？本文揭秘AWS CloudHSM如何成为支付系统、电子病历、区块链的“数…...

编程日记 2025/8/10 10:55:43

自定义分区器-基础

什么是分区在 Spark 里，弹性分布式数据集（RDD）是核心的数据抽象，它是不可变的、可分区的、里面的元素并行计算的集合。在 Spark 中，分区是指将数据集按照一定的规则划分成多个较小的子集，每个子集可以独立…...

编程日记 2025/8/13 19:14:37

＜C++＞ MFC自动关闭对话框（MessageBoxTimeout）

MFC自动关闭对话框（MessageBoxTimeout） 记录一下今天在界面开发中的解决方案。自动关闭对话框有两种方案： 1.使用定时器实现延迟关闭（DeepSeek方案） 提示框显示几秒后自动关闭，可以使用 SetTimer KillT…...

编程日记 2025/8/11 16:28:59

一个基于 Spring Boot 的实现，用于代理百度 AI 的 OCR 接口

一个基于 Spring Boot 的实现，用于代理百度 AI 的 OCR 接口 BaiduAIController.javaBaiduAIConfig.java在 application.yml 或 application.properties 中添加配置：application.yml同时，需要在Spring Boot应用中配置RestTemplate：…...

编程日记 2025/8/13 13:07:23

Python60日基础学习打卡D26

算圆形面积错误代码 import mathdef calculate_circle_area(r):try:S math.pi * r**2except r＜0:print("半径不能为负数")return S 正确代码 import mathdef calculate_circle_area(radius):try:if radius < 0:return 0return math.pi * radius…...

编程日记 2025/8/11 19:32:25

报销单业务笔记

文章目录业务点业务点-对公对私业务点-多系统标志特殊业务入参入参报文出参出参报文中间的逻辑多对多关系其他应该是整体成功还是可以部分成功这种多对多关多关系有没有优雅的判断方式报销单是个通用场景，有通用逻辑，在此基础上进行适度定制&#x…...

编程日记 2025/7/16 2:50:42

小红书的评论区营销经验分享

在小红书等社交平台上采用“主账号提问小号解答”的营销策略，其核心作用是通过角色分工和场景化互动，降低用户对广告的抵触心理，同时提升内容的可信度和转化效率。以下是其底层逻辑和具体作用分析： 一、角色分工：制造…...

编程日记 2025/8/10 19:08:35

通义灵码 2.5.4 版【编程智能体】初体验

一、通义灵码安装 1.VSCode通义灵码插件安装 VSCode搜索lingma，出现Lingma-Alibaba,点击安装即可，安装完毕如下图所示。可以看到右侧版本信息如下：alibaba-cloud.tongyi-lingma版本2.5.4上次更新时间2025-05-13, 11:02:16，安装…...

编程日记 2025/8/8 9:19:39

2025ICPC陕西省赛题解一

L. easy 每行选能选的最小的两个，注意处理奇数的情况。 #include <bits/stdc.h> #define x first #define y second #define int long longusing namespace std; typedef unsigned long long ULL ; typedef pair<int,int> PII ; typedef pair<lon…...

编程日记 2025/8/9 5:16:59

java方法的练习题

方法中对自定义类型的传递 package MethodParameter.MethodParameter03;public class MP03 {public static void main(String[] args) {Person p new Person();p.m_Age 100;p.m_Name "John";B b new B();b.test02(p);System.out.println(p.m_Age p.m_Name);} }…...

编程日记 2025/8/12 19:37:26

【在qiankun模式下el-dropdown点击，浏览器报Failed to execute ‘getComputedStyle‘ on ‘Window‘: parameter 1 is not o

在qiankun模式下el-dropdown点击，浏览器报Failed to execute ‘getComputedStyle’ on ‘Window’: parameter 1 is not of type ‘Element’ 错误在qiankun模式下el-dropdown点击，浏览器报Failed to execute ‘getComputedStyle’ on ‘Window’: par…...

编程日记 2025/8/12 16:30:33

世界模型+大模型+自动驾驶论文小汇总

最近看了一些论文，懒得一个个写博客了，直接汇总起来文章目录大模型VLM-ADVLM-E2EOpenDriveVLAFASIONAD：自适应反馈的类人自动驾驶中快速和慢速思维融合系统快系统慢系统快慢结合世界模型End-to-End Driving with Online Trajectory Evalu…...

编程日记 2025/7/31 4:58:04

elementUI如何动态增减表单项

设置prop的字段：:prop"configs.${i}.platform" <template><el-dialogtitle"编辑配置":close-on-click-modal"false":before-close"beforeClose":visible.sync"visible"v-if"visible"class&q…...

编程日记 2025/8/12 5:27:30

vite运行只能访问localhost解决办法

1、找到package.json的scripts方法 2、然后指定 vite --host即可...

编程日记 2025/7/16 2:50:25

相关文章：