视频
文稿
昨天给大家分享了文字转语音的两个方法,很多朋友对使用自己声音ai配音很感兴趣,今天来更具体的说一下方法跟注意的细节。
首先,需要提前录制自己的声音,大家在录制的时候,一定要在安静的环境录制,不能有背景音乐,杂音,回声,咬字清楚,情绪稳定录音,
在录制完成之后,最好对音频进去 去除杂音,爆音,降噪 跟,消除齿音的操作。
我是直接录制练习普通话的四声歌,然后分段保存出来,格式要求 wav,注意每段音频时长在2到10秒之间,至少5段音频。
声音的录制非常重要,有好的素材,才能生成跟自己更像的声音。
打开飞浆官网,左侧注册账号或登录,往下滑找到 入门类,点击 使用你自己的声音做语音合成,打开后点击右侧, 运行一下,提示项目复制,然后验证完成,再点击 启动环境,免费资源选择v100 32G,
点击确定,等待项目启动,点击进入,往下滑,点击 安装实验所需环境,当下面显示 运行时长,结束时间,环境就安装好了。
项目是运行在远程电脑上的,不会站用自己电脑资源。
双击左侧的untitled.streamlit.py ,等应用加载完成,往下滑,可以看到上传音频的要求,点击 这个按钮,上传你提前录制好的音频,,
然后点击 检验数据,提示标注进度100%后,继续往下,输入训练步数,默认100,跟实验名称,点击微调训练,训练步数不同,时间不一样,100轮大约5分钟左右。
微调训练成功之后,点击导出模型,然后就可以合成声音了,输入文本,
选择声码器,官方提供了3个声码器,默认选择第一个,实验模型就是刚才自己新创建的,点击 合成,听一下吧,有那么点意思,声音可以下载,也可以倍速播放。
我切换3个声码器生成同一段话大家听一下,质量最高,生成时间最长的,反而是音质最差的。
如果感觉声音还是不像,还可以返回重新训练,我这次训练500次, 耗时大约20分钟,训练完成 点击导出模型,覆盖旧的模型。
重新生成,听起来更像一些了,我的语速一般是比较快的,向左调整滑块,调整语速,再次生成,现在感觉跟自己的声音基本就差不多了。
也可以导出自己的模型,方便别人下载使用,打包的模型放在inference目录,可以直接下载,使用的时候上传到这个目录解压即可。
如果需要更好发音人,点击 一键重置,重新训练。