Amadeus复刻计划(AI拟声篇 一 So-vits-svc的训练)
目前主流的AI合成声音模型有三种:VITS:最早出现的基于GAN的网络模型,用于文字转语音,但是想要提升合成
目前主流的AI合成声音模型有三种:
VITS: 最早出现的基于GAN的网络模型,用于文字转语音,但是想要提升合成质量需要手动对数据集进行标注,并且很难跨语种,如使用日语训练集进行训练的模型,无法使用中文输入进行推理
(资料图)
So-vits-svc:据说是国人根据的VITS和soft-vc创建的开源模型,版本迭代到了4.0,其用于“AI换声”,可理解为柯南的蝴蝶结变声器,由于其仅学习声色特征,可用于跨语种(当然相似度肯定不如原语种直接换声)
ps:由于其拟声特性,许多人使用其进行歌声合成,但是考虑到必须有干声素材作为输入,灵活性并不高,之后笔者打算结合xstudio等软件作为输入尝试下调教
仓库地址:https://github.com/svc-develop-team/so-vits-svc
diffsinger:基于diffsion扩散模型实现的歌声合成,扩散模型也是Stable diffusion这一AI绘画模型所使用的,不过这一模型最大的问题就是很吃算力资源,文档中提到训练时需要准备不小于20G显存的显卡,因此笔者暂时放弃该模型。不过据说稳定性很高,有爱好者尝试后可以在评论区交流交流。
仓库地址:https://github.com/MoonInTheRiver/DiffSinger
笔者近些天折腾了下so-vits-svc的训练,以下是基本流程,希望能给后来者以借鉴
数据准备:
笔者从命运石之门(stein;gate)游戏中提取牧濑红莉栖角色语音2906条,将提取出的ogg格式语音转化为wav格式,并将其放在cristina文件夹下待用(理论上来说应该手动筛选掉时长过短或无意义的音频,但数据量过大,笔者并未人工处理)
ps:感谢大佬的开源项目用于解包游戏文件:https://github.com/rdavisau/sg-unpack
模型准备:
本人使用的是B站大佬的整合包,其打包了整个python环境与预训练模型,加入了几个简单的bat脚本,操作较为方便,有一定编程基础且不懒的可以直接通过上述仓库clone
视频链接:https://www.bilibili.com/video/BV1H24y187Ko
3. 需要了解的模型文件结构:
其中Cristina文件夹即先前整理过的放置角色语音的文件夹,直接放在dataset_raw文件夹下即可,logs/44k文件夹下存储了训练后的权重模型,其中默认放置了D_0,G_0作为预训练模型,config.json中决定了训练该如何进行,其中参数的意义在下文单独介绍
3.5.config.json的参数意义
大部分参数不需要去动他,除非你深刻了解自己要做什么,可以动的参数:
seed:初始化随机种子,如果训练效果不好,可以更改该值再次训练,或许会好些?不过一次完整的训练过程中不应改动该值
epochs:总共训练的轮次,一般设置为10000确保其不会停止,请记住,并不一定训练轮次越多,效果越好
learing_rate:学习步长,设置时尽量与batch_size成反比,如batch_size->2*batch_size,learing_rate->0.5*learning_rate
batch_size:其值越大训练越快,也越占显存,根据自己电脑显存设置,记得同步更改learning_rate
keep_ckpts: 最大保存模型数量,设置为0表示保存所有模型,一个模型大约500M,请根据自己硬盘容量进行设置
4. 点击数据预处理.bat或使用官方代码
5. 开始训练即可
6.检测训练效果
初级:直接从logs/44k中取出模型进行推理,人耳判别好坏
中级:训练过程中会打印每个epoch所花费的时间,以及相关loss数值,可以一般化的了解
高级:使用
然后在6006端口获取可视化数据
7.补充下各loss的意义
写在最后:
笔者使用租赁的3090,设置batch_size为12,跑上述2906个语音数据,大概3分钟一个epoch,在跑了一百多个epoch,步长为10400后效果较为理想。
并且先前笔者使用100个语音数据在个人电脑上(2060)简单跑了3000步左右(epoch次数忘了……),已经基本可以还原音色(或者是可以听出来是谁了),感觉模型质量还不错,鼓励大家尝试
ps: 对于命运石之门角色音线合成有兴趣的欢迎加群交流,群内已打包上传cris的音频数据集,桶子的声音也很有辨识度哇(笑)
交流群:
723240586
关键词:
目前主流的AI合成声音模型有三种:VITS:最早出现的基于GAN的网络模型,用于文字转语音,但是想要提升合成
文 半岛全媒体记者 史静 谷朝明 蒋凯 图 警方提供3月25日,市北警方侦办了一起电信诈骗案,其中有9名老
1、《孔子的修齐治平之道》是栾贵川编纂并在2016年5月出版的图书。文章到此就分享结束,希望对大家有所帮助。
1、《孔林》是近现代初诗人潘受创作的一首诗。文章到此就分享结束,希望对大家有所帮助。
佳兆业桥星村招商无望?官方回应!35村旧改地图曝光!,招商,万科,千灯湖,桥星村,碧桂园,佳兆业桥,旧改地图
南方网讯(记者 潘沈思通讯员 何烷钰)4月19日,广州市白云区金沙街开展六个争先创优中的“承诺、亮诺、践
2023呼和浩特五一大召寺开放时间一览2023年五一期间,呼和浩特大召寺正常开放,具体请以景区通知为准。开放
好消息!好消息!美食视频中的一股清流《食情局》来啦!
1、喝茶好处:1红茶,性温和,适合身体弱的人喝,每天喝几杯茶能解决四肢寒凉。2、2绿茶,适合年轻的人喝,
今天小编肥嘟来为大家解答以上的问题。爱他美金装4段,向语洁_我爱美金相信很多小伙伴还不知道,现在让我们
1、如果白蚁对人体造成伤害,要根据皮肤损伤来判断是否有毒。如果只是小伤口,用肥皂水冲洗后可以自然愈合
你需要的东西锅刀钢包碗指甲锡制咖啡罐锤子七叶树坚果含有需要浸出的单宁酸。七叶树是俄亥俄州的州树,它的
“中国始终是心之所向。”意大利对外贸易委员会中国总协调官张保龙·布鲁诺在接受《国际锐评》评论员采访时
环氧树脂潜伏性固化剂,关于环氧树脂潜伏性固化剂介绍这个很多人还不知道,我们一起来看看!1、环氧树脂潜伏
1、西南医科大学比较好,因为西南医科大学是全国高等院校医学教育研究联盟理事单位。2、西南医科大学坐落于
1、你好朋友从今年10月份开始苹果官方更换电池又原来的618降价到238的价格所以是官方现在更换电池是最划算
1、金钱树为多年生常绿草本植物,是极为少见的带地下块茎的观叶植物,那么金钱树叶子发黄的时候该怎么办呢
4月21日,商务部电子商务司负责人介绍2023年一季度网络零售市场发展情况。国家统计局数据显示,一季度全国
中国证券登记结算有限责任公司官网21日发布通知,根据中国证监会关于沪深港通交易日历优化的统一部署,自20
根据《2023年金湾区集中公开招聘合同制职员笔试公告》等有关规定,经过笔试、资格审核、面试、体检、考察等