Releases: fishaudio/Bert-VITS2
Extra:Japanese Specialized Version
After seeing the success of the Chinese special version, we also trained the Japanese special version.
Update log:
1.Delete Chinese and English support.
2.Merge Pull Request(#312 ), which fixed an error existed in previous Japanese g2p. (Thanks @litagin02 )
3.We increased Japanese training data several times. Now up to ~800h single language.
4.Thrown away DurationDiscriminator, which often lead to training unstable.
5.Changed the emotion VectorQuantize, try to have a larger codebook_size but smaller codebook_dim to help increase the usage of codebook. By the hand, We also fix the loss_commit,add it to backward.
The base model could be found at huggingface.
Bert-VITS2 development team
yours truly
Extra-v2:中文特化修复版
本次是在Extra:中文特化版上所作的一些小优化,模型完全兼容,可进行无缝迁移。
主要所作的改动如下:
1.修改了g2p部分,进行全句g2p并换用了g2pW以提升g2p准确率。(感谢 @duliangang )
2.删除了Clap加噪,增强了Clap prompt的控制力。
3.重新加入了DD。
4.config中加入了FP16推理支持,显存占用低至<4G
5.优化中文文本的规范化(#275)
底模以及g2pW模型已上传openi,模型训练请前往Extra-Fix分支。
由于我们大部分精力已经转向了Fish-Speech开发,Bert-VITS2目前是半弃坑状态。稍后我们计划训练一个日语特化基座模型,其余事宜待定。
Bert-VITS2开发组
敬上
Extra:中文特化版本
本次中文特化版本,使用国产IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型作为Bert特征提取,基本上完全解决了发音的bad case,同时在情感表达方面有大幅提升。可以作为先前V1.0.1纯中文版本更好的替代。
同时合入了先前去除的Clap模型。
目前只支持中文推理,多语言待定。
此版本不作为正式版本发布于Github。
请前往ZH-Clap分支训练。
底模及Bert模型均已上传openi。
由于换用了较大的Bert,推理所需显存较大,至少8G。
v2.3 Final Release
本次更新内容如下:
1.完善了 webui_preprocess.py(By @OedoSoldier )
2.修正了存在于 Duration Predictor Discriminator 的 bug。并添加了 LSTM。对 SDP 有较大提升。
3.支持 BF16 训练。
4.对英语的 G2P 进行修复。
5.添加基于 WavLM 的 Discriminator(来源于 StyleTTS2)
6.因情感控制效果不佳,去除了 CLAP。更换了更简单的 BERT 融合语义方式。(By @litagin02 )
这可能是 Bert-VITS2 近期的 final release,接下来我们将会加入对 Fish Speech 的开发。
Bert-VITS2项目组
敬上
This might be our final release for the time being as we shift our focus toward our new project Fish Speech.
We continue to appreciate your constructive advice for further improvements. Please feel free to share your thoughts in pull requests.
Base model: https://huggingface.co/OedoSoldier/Bert-VITS2-2.3
Update: The configuration for the gin_channels
parameter in the pre-trained 2.3 weights has been adjusted to 512. To align with this change, we've updated the corresponding entry in the config.json file.
v2.2 Clap-Enhanced prompt audio generation
本次更新主要内容如下:
1.修正了commons.py中slicer存在的bug,彻底解决卡死问题,并有提速。(PR By @OedoSoldier )
2.Emotion 模型换用CLAP多模态模型,推理支持输入text prompt引导风格化进行合成。
3.借鉴vq-vae对CLAP做vq,同时对clap vec概率置空,防止过拟合。(PR By @OedoSoldier )
4.推理&训练时未使用到的其他语种bert不再置空,而是使用rand。(PR By @OedoSoldier )
5.新增预处理webuI.
6.preprocess_text阶段不再选择val_per_spk,换用val_per_lang(uage)
底模和CLAP模型已上传openi。
Bert-VITS2开发组
敬上
Base model:
v2.1 Emo and muti-lang optimize
本次更新主要内容如下:
1.修正了日/英的bert对齐问题,效果进一步优化。
2.对底模使用的数据进行优化和加量,减少finetune失败以及电音的可能性。
3.日语bert换用wwm。
4.修正多机训练。
5.修正在A800上速度异常的问题
6.新增spec cache开关和spec预生成脚本(可选)。
7.新增emo embedding。
8.完善多语言推理。
9.新增模型混合功能。
10.修正混合合成时,前后句子停顿过长的问题。
11.新增Onnx导出支持。
底模和使用到的wwm bert现在已可在https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/show_model 下载。
感谢所有开发者做出的贡献。
Bert-VITS2开发组
敬上
v2.0.2-fix
我们修正了存在于2.0先前版本的重大bug,并且重炼了底模。
在日语和英语性能上较2.0有较大改善。推荐使用此版本。
此外,我们还加入了自动混合合成(auto),可以免打标进行混合语言合成。 @Artrajz
新的WebUI加入了盲盒机制(见附件)。 @jiangyuxiaoxiao
底模请见https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/model_filelist_tmpl?name=Bert-VITS2%E4%B8%AD%E6%97%A5%E8%8B%B1%E5%BA%95%E6%A8%A1-fix
v2.0.1 Release(CN-EN-JP multi-language)
紧急通知
我们在2.0版本中发现了重大bug,该bug导致日文和英文bert被置0后训练,即失去bert效果。
我们将重炼2.0版本底模,已经开炉的建议关炉静候
本次我们基于1.1.1做了非常大量的更改,支持了三语言训练及混合合成。
这是自1.0以来最大的更改,因此另起2.0大版本号。
本版本对日语做了极大的优化,效果提升非常巨大。
主要更新内容如下:
1.日语bert换用deberta-large。
2.日语g2p经过了大量修改和优化。
(感谢 @OedoSoldier 和 @Akito-UzukiP 的贡献)
3.新增英语支持,具体请参见新增的reference。
4.将英语的g2p和bert稍作修改。(PR by @OedoSoldier )
4.新增推理向下兼容支持,只需指定版本号即可推理先前版本模型。(PR by @jiangyuxiaoxiao )
5.新增全局配置文件,只需修改config.yml即可控制训练流程。(PR by @jiangyuxiaoxiao )
6.新增WebUI合成的翻译支持(PR By @jiangyuxiaoxiao )
7.降低训练显存开销。
8.修正nccl训练卡死问题。
9.新增preprocess_text的数据集自动清洗功能。
10.新增server_fastapi和更美观好用的前端。(请见Release附件 @jiangyuxiaoxiao )
11.WebUI美化。 (PR By @AnyaCoder )
12.修正resample的运行问题。
13.预添加emotional embedding,将在下个版本实装。
14.新增bert和底模自动下载功能。
15.修正音量不均衡问题。(PR By @lzyplayer )
16.修正多机训练rank获取不正确问题。(PR By @Lvjinhong )
使用到的所有bert模型和底模均可在 https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/show_model 下载
Bert-VITS开发组
敬上
v1.1.1(CN-JP multi-language pretrain model)
自1.1版本发布以来,我们在主分支又进行了诸多测试并进行了bug修复。
现放出适配主分支的中-日双语言底模,可供微调使用。
中-日底模:https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/model_filelist_tmpl?name=Bert-VITS2%E4%B8%AD%E6%97%A5%E5%BA%95%E6%A8%A1
日语bert境内分流下载:https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/model_filelist_tmpl?name=bert-base-japanese-v3
中文bert境内分流下载:https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/model_filelist_tmpl?name=chinese-roberta-wwm-ext-large
本次所做的主要调整有:
1.修正了bert重复加载的问题,大幅提升bert生成速度。 (PR by @jiangyuxiaoxiao )
2.修正了webui多语言推理可能出现的问题。
3.修正了bert_gen.py的hps未传入问题。
4.将transformer flow层数翻倍。
5.修正了Duration predictor 的前向激活函数
6.添加分段合成,可以使用 | 来控制分段。
7.GPU利用率优化。(对于新GPU)
感谢 @leng-yue @innnky @ylzz1997 @fumiama 所作出的贡献。