AIを使ったリアルタイムボイスチェンジャーのモデル学習用ツール
AIを使ったリアルタイムボイスチェンジャー「MMVC(RealTime-Many to Many Voice Conversion)」
で使用するモデルを学習するためのリポジトリです。
google colaboratoryを用いることで、個人の環境に依存せず、かつ簡単に機械学習の学習フェーズを実行可能です。
MMVCを実際に動かすClient software
https://github.com/isletennos/MMVC_Client
「簡単」「だれでも」「好きな声に」「リアルタイムで」
制作中 (v1.3.0.0)
https://www.nicovideo.jp/watch/sm40386035 (v1.2.0.0)
本ソフトウェアの利用規約は基本的にMITライセンスに準拠します。
- このソフトウェアは、コピー利用、配布、変更の追加、変更を加えたもの再配布、商用利用、有料販売など
どなたでも自由にお使いいただくことができます。 - ライセンスの記載が可能なプラットフォームでの利用の場合、下記クレジットどちらかををご利用ください。
VRCでの利用などライセンス記載が不可の場合、記載は不要です。
(可能であればパターン2を使ってくれると製作者はうれしいです) - このソフトウェアについて、製作者はいかなる保証も致しません。
また、このソフトウェアを利用したことで問題が起きた際に、ソフトウェアの製作者は一切の責任を負いません。 - このソフトウェアで利用する音声データは、必ず元の音声データの所持者の許諾を得たものを利用すること。
または音声データの配布元の利用規約内で利用すること。
MMVCの利用規約とは別に、下記音声データを利用する場合、それぞれの音声ライブラリ提供者様の利用規約に同意する必要があります。
※本ソフトウェアでは下記企業様・団体様に特別に許可を頂き、音声データを本ソフトウェア用に改変、再配布を行っております。
[利用規約][ずんだもん 音声データ] ※本ソフトウェアに同梱しているものと同様の音声データになります
[利用規約][九州そら 音声データ]
[利用規約][四国めたん 音声データ]
[利用規約][春日部つむぎ 音声データ]
ずんだもん/四国めたん/九州そら/春日部つむぎ
の3キャラクターを利用する場合に限り、下記ライセンスパターンに加えて、どのツールで作られた音声かわかるように
MMVC:ずんだもん
MMVC:ずんだもん/四国めたん
等の記載を下記ライセンスパターンと一緒に記載ください。
こちらもVRCでの利用などライセンス記載が不可の場合、記載は不要です。
ライセンスパターン 1
Copyright (c) 2022 Isle.Tennos
Released under the MIT license
https://opensource.org/licenses/mit-license.php
ライセンスパターン 2
MMVCv1.x.x.x(使用バージョン)
Copyright (c) 2022 Isle.Tennos
Released under the MIT license
https://opensource.org/licenses/mit-license.php
git:https://github.com/isletennos/MMVC_Trainer
community(discord):https://discord.gg/PgspuDSTEc
・Google アカウント
このリポジトリをダウンロードして、展開、展開したディレクトリをgoogle drive上にアップロードしてください。
本チュートリアルではずんだもん(SSS LLC.)の音声データを利用します。
そのため、MMVCの利用規約とは別に[ずんだもん 利用規約]を遵守する必要があります。
-
自分の声の音声データを録音します。
JVSコーパスやITAコーパス等を台本にし、100文程度読み上げます。
また、録音した音声は24000Hz 16bit 1chである必要があります。
※MMVC用にテキストを分割したITAコーパスです。ご利用ください。
https://drive.google.com/file/d/14oXoQqLxRkP8NJK8qMYGee1_q2uEED1z/view?usp=sharing -
dataset/textful/000_myvoice に音声データとテキストデータを配置します。 最終的に下記のようなディレクトリ構成になります。
dataset
├── textful
│ ├── 000_myvoice
│ │ ├── text
│ │ │ ├── s_voice_001.txt
│ │ │ ├── s_voice_002.txt
│ │ │ ├── ...
│ │ └── wav
│ │ ├── s_voice_001.wav
│ │ ├── s_voice_002.wav
│ │ ├── ...
│ │── 001_target
│ │ ├── text
│ │ └── wav
│ │
│ └── 1205_zundamon
│ ├── text
│ │ ├── t_voice_001.txt
│ │ ├── t_voice_002.txt
│ │ ├── ...
│ └── wav
│ ├── t_voice_001.wav
│ ├── t_voice_002.wav
│ ├── ...
│
└── textless
-
下記リンクより、「G_180000.pth」「D_180000.pth」をダウンロード。 https://drive.google.com/drive/folders/1vXdL1zSrgsuyACMkiTUtVbHgpMSA1Y5I?usp=sharing
-
「G_180000.pth」「D_180000.pth」をfine_modelに配置します。(良く忘れるポイントなので要注意!)
-
notebookディレクトリにある「Create_Configfile_zundamon.ipynb」をgoogle colab 上で実行、学習に必要なconfigファイルを作成します
-
configsに作成されたtrain_config_zundamon.jsonの
- "eval_interval"
modelを保存する間隔です。 - "batch_size"
colabで割り当てたGPUに合わせて調整してください。
上記2項目を環境に応じて最適化してください。わからない方はそのままで大丈夫です。
- "eval_interval"
-
notebookディレクトリにある「Train_MMVC.ipynb」をgoogle colab 上で実行してください。
logs/にモデルが生成されます。
- notebookディレクトリにある「MMVC_Interface.ipynb」をgoogle colab 上で実行してください。
- 自分の声の音声データとその音声データに対応するテキスト、変換したい声の音声データとその音声データに対応するテキストを用意します。
この時、用意する音声(自分の声の音声データ/変換したい声の音声データ共に)は24000Hz 16bit 1chを強く推奨しております。 - 下記のようなディレクトリ構成になるように音声データとテキストデータを配置します。
textfulの直下には2ディレクトリになります。
(1205_zundamonディレクトリは無くても問題ありません)
dataset
├── textful
│ ├── 000_myvoice
│ │ ├── text
│ │ │ ├── s_voice_001.txt
│ │ │ ├── s_voice_002.txt
│ │ │ ├── ...
│ │ └── wav
│ │ ├── s_voice_001.wav
│ │ ├── s_voice_002.wav
│ │ ├── ...
│ │── 001_target
│ │ ├── text
│ │ │ ├── t_voice_001.txt
│ │ │ ├── t_voice_002.txt
│ │ │ ├── ...
│ │ └── wav
│ │ ├── t_voice_001.wav
│ │ ├── t_voice_002.wav
│ │ ├── ...
│ └── 1205_zundamon
│ ├── text
│ │ ├── t_voice_001.txt
│ │ ├── t_voice_002.txt
│ │ ├── ...
│ └── wav
│ ├── t_voice_001.wav
│ ├── t_voice_002.wav
│ ├── ...
│
└── textless
以降、「チュートリアル : ずんだもんになる Ph2.」と同様のため割愛
以降、「チュートリアル : ずんだもんになる Ph3.」と同様のため割愛
前準備編 | ニコニコ動画 | YouTube |
---|---|---|
要修正音声 | ニコニコ動画 | YouTube |
前準備編2 | ニコニコ動画 | YouTube |
学習編_前1 | ニコニコ動画 | YouTube |
学習編_前2 | ニコニコ動画 | YouTube |
学習編_後 | ニコニコ動画 | YouTube |
リアルタイム編 | ニコニコ動画 | YouTube |
質問編 | ニコニコ動画 | YouTube |
応用編_九州そら | ニコニコ動画 | YouTube |
応用編_音街ウナ | ニコニコ動画 | YouTube |
下記サイトをご参考ください。
https://mmvc.readthedocs.io/ja/latest/index.html
開発の最新情報や、不明点のお問合せ、MMVCの活用法などMMVCに関するコミュニティサーバです。
https://discord.gg/PgspuDSTEc
-
JVS (Japanese versatile speech) corpus
contributors : 高道 慎之介様/三井 健太郎様/齋藤 佑樹様/郡山 知樹様/丹治 尚子様/猿渡 洋様
https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus -
ITAコーパス マルチモーダルデータベース
contributors : 金井郁也様/千葉隆壱様/齊藤剛史様/森勢将雅様/小口純矢様/能勢隆様/尾上真惟子様/小田恭央様
CharacterVoice : 東北イタコ(木戸衣吹様)/ずんだもん(伊藤ゆいな様)/四国めたん(田中小雪様)/九州そら(西田望見)
https://zunko.jp/multimodal_dev/login.php -
つくよみちゃんコーパス
contributor : 夢前黎様
CharacterVoice : つくよみちゃん(夢前黎様)
https://tyc.rei-yumesaki.net/material/corpus/
https://arxiv.org/abs/2106.06103
https://github.com/jaywalnut310/vits
Isle Tennos
Twitter : https://twitter.com/IsleTennos