当前位置: 首页 > news >正文

2noise团队开源ChatTTS,支持多语言、流式合成、语音的情感、停顿和语调控制

简介

在这里插入图片描述

ChatTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 2noise 团队开发,专门为对话场景设计。它在 GitHub 上广受欢迎,因其自然流畅的语音合成能力和多功能性而备受关注。

项目背景

  • 目标:设计初衷是为大语言模型(LLM)助手等对话任务提供高质量的语音生成能力,同时支持多语言和多样化的语音控制。

  • 训练数据:完整版模型基于超过 10 万小时的中英文语音数据训练,开源版本则使用了 40,000 小时的预训练数据(未经过特定微调,SFT)。

  • 许可:代码采用 AGPLv3+ 许可证,模型采用 CC BY-NC 4.0 许可证,仅限学术研究和非商业用途。

技术特点

ChatTTS 在开源 TTS 领域表现出色,尤其在韵律(prosody)和对话自然度上超越了许多同类模型。

  • 多语言支持:支持中文和英文,能够处理混合语言输入(例如中英文混杂的句子),适合多语言对话场景。

  • 生成式架构:基于生成式模型(可能结合 Transformer 和 VAE),支持端到端的语音合成,生成自然且富有表现力的语音。

  • 细粒度控制:
    ** 支持特殊标记(如 [laugh] 表示笑声、[uv_break] 表示停顿、[oral_2] 表示口语化语气),用户可手动调整语音的情感、停顿和语调。
    ** 提供词级和句级的控制选项,例如调整语速、音色温度(temperature)和采样参数(top_K、top_P)。

  • 零样本能力:通过随机采样音色(sample_random_speaker),可以生成多样化的说话人声音,无需特定训练。

  • 流式生成:支持流式音频输出,适合实时应用。

  • 开源资源:提供 40,000 小时预训练模型和音色统计文件(spk_stats),便于开发者进一步研究和优化。

安装与使用

环境要求

  • Python 3.11+,依赖 PyTorch、torchaudio 等库。

  • 建议使用 GPU,至少 4GB 显存(生成 30 秒音频的最低要求),如 RTX 4090 可达 7 个语义 token/秒。

安装步骤


git clone https://github.com/2noise/ChatTTS
cd ChatTTS
conda create -n chattts python=3.11
conda activate chattts
pip install -r requirements.txt```### 基本使用示例
```python###################################
# Sample a speaker from Gaussian.rand_spk = chat.sample_random_speaker()
print(rand_spk) # save it for later timbre recoveryparams_infer_code = ChatTTS.Chat.InferCodeParams(spk_emb = rand_spk, # add sampled speaker temperature = .3,   # using custom temperaturetop_P = 0.7,        # top P decodetop_K = 20,         # top K decode
)###################################
# For sentence level manual control.# use oral_(0-9), laugh_(0-2), break_(0-7) 
# to generate special token in text to synthesize.
params_refine_text = ChatTTS.Chat.RefineTextParams(prompt='[oral_2][laugh_0][break_6]',
)wavs = chat.infer(texts,params_refine_text=params_refine_text,params_infer_code=params_infer_code,
)###################################
# For word level manual control.text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
wavs = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text,  params_infer_code=params_infer_code)
"""
In some versions of torchaudio, the first line works but in other versions, so does the second line.
"""
try:torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]).unsqueeze(0), 24000)
except:torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]), 24000)

应用场景

  • 对话助手:为 LLM(如 ChatGPT)提供语音输出,增强交互体验。

  • 教育与培训:生成自然语音用于语言学习或课程内容。

  • 内容创作:用于视频配音、播 播客或有声书的语音合成。

  • 研究:学术研究人员可利用其开源模型探索 TTS 技术。

看看效果

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

相关文献

在线体验地址:https://chattts.com/zh?__theme=dark
github地址:https://github.com/2noise/ChatTTS/tree/main

相关文章:

2noise团队开源ChatTTS,支持多语言、流式合成、语音的情感、停顿和语调控制

简介 ChatTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 2noise 团队开发,专门为对话场景设计。它在 GitHub 上广受欢迎,因其自然流畅的语音合成能力和多功能性而备受关注。 项目背景 目标:设计…...

企业级防火墙与NAT网关配置

实训背景 某公司需部署一台Linux网关服务器,要求实现以下功能: 基础防火墙:仅允许SSH(22)、HTTP(80)、HTTPS(443)入站,拒绝其他所有流量。共享上网&#xf…...

AI数据分析的正道是AI+BI,而不是ChatBI

一、AI大模型在数据分析中的应用现状与局限 当前用户直接上传PDF、Excel等原始数据至AI大模型进行自动分析的趋势显著,但其技术成熟度与落地效果仍需审慎评估。 1.主流AI大模型的数据分析能力对比 GPT-4/Claude 3系列:在通用数据分析任务中表现突出&a…...

C++设计模式优化实战:提升项目性能与效率

🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,拥有高级工程师证书;擅长C/C、C#等开发语言,熟悉Java常用开发技术,能熟练应用常用数据库SQL server,Oracle…...

G1学习打卡

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 import argparse import os import numpy as np import torchvision.transforms as transforms from torchvision.utils import save_image from torch.utils.…...

8.2 对话框2

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的 8.2.3 FolderBrowserDialog(文件夹对话框) 组件 FolderBrowserDialog组件,用于选择文件夹 Folder…...

Java中的列表(List):操作与实现详解

引言 列表(List)是Java集合框架中最基础且使用最频繁的线性数据结构。它允许有序存储元素,支持重复值和快速访问。本文将深入探讨Java列表的核心操作方法,并剖析两种经典实现类(ArrayList和LinkedList)的底…...

在kotlin的安卓项目中使用dagger

在 Kotlin 的 Android 项目中使用 ​​Dagger​​(特别是 ​​Dagger Hilt​​,官方推荐的简化版)进行依赖注入(DI)可以大幅提升代码的可测试性和模块化程度。 1. 配置 Dagger Hilt​​ ​​1.1 添加依赖​​ 在 bu…...

MongoDB常见面试题总结(上)

MongoDB 基础 MongoDB 是什么? MongoDB 是一个基于 分布式文件存储 的开源 NoSQL 数据库系统,由 C 编写的。MongoDB 提供了 面向文档 的存储方式,操作起来比较简单和容易,支持“无模式”的数据建模,可以存储比较复杂…...

leetcode6.Z字形变换

题目说是z字形变化&#xff0c;但其实模拟更像n字形变化&#xff0c;找到字符下标规律就逐个拼接就能得到答案 class Solution {public String convert(String s, int numRows) {if(numRows1)return s;StringBuilder stringBuilder new StringBuilder();for (int i 0; i <…...

VSCode中选择Anaconda的Python环境

1、安装Anaconda 2、安装VSCode 一、创建创建新的 Conda 环境 conda create --name myenv python3.8 conda activate myenv 二、在 VSCode 中配置 Conda 环境 1、打开 VSCode&#xff0c;安装 Python 插件。 2、按 CtrlShiftP 打开命令面板&#xff0c;输入并选择 Pytho…...

【基于规则】基于距离的相似性度量

基于点:设时两条序曲线分别为X,Y,在曲线上选取点Xx和Yy,计算点之间的距离,用来度量两条曲线的相似性。这类算法的精确度取决于选点的规则,以及距离的计算方式 欧几里得距离:不允许时间偏移,直接计算两个时序数据点之间的距离,适用于长度相同的序列 dtw:优化了选点的方…...

Python 序列构成的数组(当列表不是首选时)

当列表不是首选时 虽然列表既灵活又简单&#xff0c;但面对各类需求时&#xff0c;我们可能会有更好的选 择。比如&#xff0c;要存放 1000 万个浮点数的话&#xff0c;数组&#xff08;array&#xff09;的效率要高 得多&#xff0c;因为数组在背后存的并不是 float 对象&…...

LeetCode零钱兑换(动态规划)

题目描述 给你一个整数数组 coins &#xff0c;表示不同面额的硬币&#xff1b;以及一个整数 amount &#xff0c;表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额&#xff0c;返回 -1 。 你可以认为每种硬币的数量是无…...

vscode+wsl 运行编译 c++

linux 的 windows 子系统&#xff08;wsl&#xff09;是 windows 的一项功能&#xff0c;可以安装 Linux 的发行版&#xff0c;例如&#xff08;Ubuntu&#xff0c;Kali&#xff0c;Arch Linux&#xff09;等&#xff0c;从而可以直接在 windows 下使用 Linux 应用程序&#xf…...

C++学习之libevent ②

目录 1.连接服务器函数bufferevent_socket_connect() 2.bufferevent缓冲区的读写函数bufferevent_write() bufferevent_read() 3.给bufferevent设置回调函数bufferevent_setcb&#xff08;&#xff09; 4.bufferevent回调函数的函数原型 5.基于bufferevent的套接字客户端处…...

彩色路径 第32次CCF-CSP计算机软件能力认证

应该用dp做的但是我太懒懒得看题解了 留到考试的时候看 超时20分代码&#xff1a; #include<bits/stdc.h> using namespace std; int N, M, L, K; struct Edge {int to, length;Edge(int to, int length) :to(to), length(length) {} }; vector<int> color;//颜色…...

第1章 绪论

自1946年&#xff0c;第一台计算机问世以来&#xff0c;计算机产业飞速发展。为了编写出一个好得程序&#xff0c;必须分析待处理的对象的特征以及各处理对象之间存在的关系。这就是数据结构这门学科形成和发展的背景。 1.1什么是数据结构 数据结构是计算机科学中组织和存储数…...

SpringCloud微服务(一)Eureka+Nacos

一、认识 微服务技术对比&#xff1a; SpringCloud&#xff1a; 版本匹配&#xff1a; 二、服务拆分以及远程调用 消费者与提供者&#xff1a; Eureka&#xff1a; 搭建EurekaServer&#xff1a; Ribbon负载均衡&#xff1a; 实现原理&#xff1a; IRule&#xff1a;规则接口…...

Python 字典和集合(子类化UserDict)

本章内容的大纲如下&#xff1a; 常见的字典方法 如何处理查找不到的键 标准库中 dict 类型的变种set 和 frozenset 类型 散列表的工作原理 散列表带来的潜在影响&#xff08;什么样的数据类型可作为键、不可预知的 顺序&#xff0c;等等&#xff09; 子类化UserDict 就创造自…...

时区转换工具+PWA离线网页

时区转换工具PWA离线网页 一、时区转换工具对比 工具说明Date原生 JS API&#xff0c;有限的时区支持&#xff0c;无法指定时区&#xff0c;仅使用本地时区。Intl.DateTimeFormat原生格式化显示&#xff0c;可指定时区&#xff0c;但不能修改时区逻辑。luxon强烈推荐&#xf…...

Hadoop序列化与反序列化具体实践

首先创建两个类 两个类的代码 Student类&#xff1a; import org.apache.hadoop.io.Writable;import java.io.DataInput; import java.io.DataOutput; import java.io.IOException;public class Student implements Writable {public Student(String name, int age) {this.n…...

​​​​​​​Github AI开发者生态最新动态今日速览(20250408)

以下是截至2025年4月8日的GitHub AI开发者生态最新动态速览&#xff0c;结合技术更新、工具发布及行业趋势&#xff1a; 1. GitHub Copilot 重大升级与生态扩展 Agent Mode全量发布&#xff1a;Copilot在VS Code中启用Agent模式&#xff0c;可自主完成多文件代码重构、测试驱动…...

通过扣子平台将数据写入飞书多维表格

目录 1.1 创建飞书开放平台应用 1.2 创建飞书多维表格 1.3 创建扣子平台插件 1.1 创建飞书开放平台应用 1.1.1 打开地址&#xff1a;飞书开放平台&#xff0c;点击创建应用 注&#xff1a;商店应用需要申请ISV资质&#xff0c;填写企业主体信息&#xff0c;个人的话&#x…...

WEB安全--内网渗透--Kerberos之AS_REQAS_REP

一、前言 之前的文章提到过&#xff0c;在内网的域环境中&#xff0c;服务器之间默认使用的是Kerberos协议。 光了解NTLM协议是远远不够的&#xff0c;为了内网渗透&#xff0c;我后面将详细介绍Kerberos协议的原理以及漏洞的利用。 二、Kerberos协议 Kerberos是一种网络身份…...

【Hadoop入门】Hadoop生态之MapReduce简介

1 MapReduce核心原理 MapReduce是一种分布式计算框架&#xff0c;专为处理大规模数据集设计。其核心理念是将复杂计算任务分解为两个核心阶段&#xff1a; Map阶段&#xff1a;将输入数据分割为独立片段&#xff0c;并行处理生成中间键值对Reduce阶段&#xff1a;对Map阶段输出…...

使用Scrapy编写图像下载程序示例

最近闲来无事想要用Scrapy库来编写一个图像下载程序。首先&#xff0c;我得回忆一下Scrapy的基本结构。Scrapy是一个强大的爬虫框架&#xff0c;适合用来抓取网页数据&#xff0c;包括图片。不过&#xff0c;用户可能不太熟悉Scrapy的具体用法&#xff0c;特别是图片下载的部分…...

Linux/树莓派网络配置、远程登录与图形界面访问实验

一.准备工作 1.修改网络适配器&#xff08;选择本机网卡&#xff09; 2.创建一个新的用户。 3.使用新用户登录&#xff0c;使用ip a指令查看IP&#xff08;现代 Linux 发行版&#xff08;如 Ubuntu、Debian、CentOS、Fedora 等&#xff09;&#xff09;。 通过sudo arp-sca…...

01-Redis-基础

1 redis诞生历程 redis的作者笔名叫做antirez&#xff0c;2008年的时候他做了一个记录网站访问情况的系统&#xff0c;比如每天有多少个用户&#xff0c;多少个页面被浏览&#xff0c;访客的IP、操作系统、浏览器、使用的搜索关键词等等(跟百度统计、CNZZ功能一样)。最开始存储…...

MCP-Playwright: 赋予AI模型操控浏览器的能力

在人工智能快速发展的时代&#xff0c;我们一直在寻找让AI与现实世界更好地交互的方式。今天我想向大家介绍一个强大的开源项目&#xff1a;MCP-Playwright&#xff0c;它正在改变AI模型与Web环境交互的方式。 源码地址&#xff1a;https://github.com/executeautomation/mcp-…...

Scala集合计算高级函数及案例

一、说明 1.过滤&#xff1a;遍历集合&#xff0c;获取满足指定条件的元素组成新集合 2.转化 / 映射&#xff08;map&#xff09;&#xff1a;将集合中的每个元素映射到某一个函数 List(1, 2, 3, 4, 5, 6, 7, 8, 9)中每个元素加 1&#xff0c;得到List(2, 3, 4, 5, 6, 7, 8,…...

​​如何测试一个API接口?从原理到实践详解

在微服务架构和前后端分离的现代软件开发中&#xff0c;API接口是系统的“血管”&#xff0c;承担着数据传输与逻辑处理的核心功能。本文将用通俗的语言&#xff0c;结合实例&#xff0c;系统讲解API接口测试的原理、方法及工具&#xff0c;助你掌握这一关键技能。 ​ 目录 ​…...

弹簧质点系统(C++实现)

本文实现一个简单的物理算法&#xff1a;弹簧质点系统&#xff08;Mass-Spring System&#xff09;。这是一个经典的物理模拟算法&#xff0c;常用于模拟弹性物体&#xff08;如布料、弹簧等&#xff09;的行为。我们将使用C来实现这个算法&#xff0c;并结合链表数据结构来管理…...

java设计模式-代理模式

代理模式(proxy) 基本介绍 1、代理模式&#xff1a;为一个对象提供一个替身&#xff0c;一控制对这个对象的访问。即通过代理对象访问目标对象。这样做的好处是&#xff1a;可以在目标对象实现的基础上&#xff0c;增强额外的功能操作&#xff0c;及扩展目标对象的功能。 2、被…...

【比赛编排软件的设计与实现】

有个朋友想要一个比赛编排软件&#xff0c;闲来无事&#xff0c;花几个晚上的时间帮忙编写了一下&#xff0c;主要本人也比较喜欢看NBA&#xff0c;想尝试实现类似的功能。最终实现功能展示如下&#xff1a; ![请添加图片描述](https://i-blog.csdnimg.cn/direct/6af8f323452…...

nginx如何实现负载均衡?

Nginx 是一款高性能的 Web 服务器和反向代理服务器&#xff0c;它可以通过配置实现负载均衡功能。以下是实现负载均衡的详细步骤和方法&#xff1a; 1. 基本概念 负载均衡是将客户端请求分发到多个后端服务器上&#xff0c;以提高系统的可用性和性能。Nginx 支持多种负载均衡策…...

Jetson NX开发板基础配置全指南

一、系统刷机教程 1. 准备工作 硬件准备&#xff1a; ✅ Jetson NX开发板 ✅ 19V 电源适配器 ✅ Type-C数据线 ✅ 16GB以上Micro SD卡 软件准备&#xff1a; &#x1f539; SDK Manager &#x1f539; Ubuntu 20.04虚拟机或者物理机 2. 刷机步骤 进入恢复模式&#xff1a; …...

【Linux高级IO(三)】Reactor

核心代码 Epoller.hpp #pragma once#include "nocopy.hpp" #include <cerrno> #include <sys/epoll.h> #include <unistd.h> #include <string.h> #include "Log.hpp"class Epoller : public nocopy //类Epoller继承自nocopy类&a…...

山东大学计算机网络第五章习题解析

参考教材&#xff1a;计算机网络&#xff1a;自顶向下方法&#xff1a;原书第 8 版 / &#xff08;美&#xff09;詹姆斯F. 库罗斯&#xff08;James F. Kurose&#xff09;&#xff0c;&#xff08;美&#xff09;基恩W. 罗斯&#xff08;Keith W. Rose&#xff09;著&#xf…...

openexr-2.3.0-windows编译

本文操作按照《c&c开源库编译指南》中内容规范编写&#xff0c;编译环境配置、工具下载、目录规划&#xff0c;及更多其他开源库编译方法请参考该文章。 c&c开源库编译指南&#xff1a;https://blog.csdn.net/binary0006/article/details/144086155 本文章中的源代码已…...

【NLP 面经 8】

目录 一、文本生成任务 模型架构方面 训练数据方面 生成策略方面 二、命名实体识别任务NER 模型架构方面 特征工程方面 训练优化方面 三、情感分析任务 模型架构方面 训练数据方面 超参数调整方面 四、计算余弦相似度并添加符合条件结果 提示&#xff1a; 思路与算法 任由深渊的…...

Qt项目——记事本

目录 前言工程文档一、功能介绍二、界面预览三、UI设计师工具四、给三个按钮设置贴图五、信号与槽六、实现文件打开功能代码实现代码实现 七、实现文件保存代码内容 八、实现文件关闭代码实现 九、显示高亮和行列位置代码实现 十、实现快捷功能代码实现 总结 前言 这个项目就是…...

WHAT - React 惰性初始化

目录 在 React 中如何使用惰性初始化示例&#xff1a;常规初始化 vs. 惰性初始化1. 常规初始化2. 惰性初始化 为什么使用惰性初始化示例&#xff1a;从 localStorage 获取值并使用惰性初始化总结 在 React 中&#xff0c;惰性初始化&#xff08;Lazy Initialization&#xff09…...

HOW - 如何测试 React 代码

目录 一、使用 React 测试库&#xff1a;testing-library/react二、使用测试演练场&#xff1a;testing-playground.com三、使用 Cypress 或 Playwright 进行端到端测试四、使用 MSW 在测试中模拟网络请求 一、使用 React 测试库&#xff1a;testing-library/react testing-li…...

React 条件渲染

开发环境&#xff1a;Reacttsantd 通常你的组件会需要根据不同的情况显示不同的内容。在 React 中&#xff0c;你可以通过使用 JavaScript 的 if 语句、&& 和 ? : 运算符来选择性地渲染 JSX。 例子 我们在满足 isPacked{true} 条件的物品清单旁加上一个勾选符号✔。…...

使用 Canal 实现 MySQL 与 ES 数据同步的技术实践

前言 本文将详细讲解如何使用阿里的 Canal 工具&#xff0c;实现 MySQL 向 ES&#xff08;Elasticsearch&#xff09;的数据同步。 数据同步有多种方式&#xff0c;双写同步数据方式因性能慢、存在分布式事务及数据一致性问题、业务耦合度高且难以扩展&#xff0c;不适合采用…...

《实战AI智能体》什么是 Scrum 项目管理及为什么需要它

Scrum 项目管理是一种敏捷项目管理方法,强调团队合作、迭代开发和客户参与。它的核心概念包括 Scrum 团队、产品待办事项列表、Sprint、每日站立会议、Sprint 回顾会议等。Scrum 团队由产品负责人、Scrum 主管和开发团队组成,他们共同负责项目的规划、执行和交付: 产品待办事…...

智能硬件开发革命:低代码平台+物联网

物联网和低代码开发 初识物联网 物联网的概念 20 世纪末&#xff0c;随着计算机网络和通信技术的兴起&#xff0c;互联网开始走进并融入人们的生活。传统互联网通常以人作为主体&#xff0c;数据的产生和传输都在人的控制下进行&#xff0c;数据的应用结果也在具体的人身上得…...

「合诚」携手企企通共建新材料和健康产业采购数智化新生态

在科技革命与产业变革深度融合的时代背景下&#xff0c;新材料与健康产业正迎来数字化、智能化的快速发展。 技术突破与消费升级的双重驱动&#xff0c;推动着行业不断创新&#xff0c;同时也对企业的供应链管理提出了更高要求。 1、合诚&#xff1a;聚焦新材料与健康产业&am…...

ansible角色

一、角色 role 本质上就是目录 /etc/ansible/roles 1、创建角色 tree查看目录结构 在同一个角色中&#xff0c;相互引用文件、操作时&#xff0c;不需要添加任何路径 删除角色&#xff0c;将角色目录中的角色文件删除 案例&#xff1a;部署zabbix agent 执行角色...