ffmpegが入っていないことが問題のようです。 ググるか、おそらくWindowsなら
winget install ffmpeg
によりffmpegをインストールできます。その後で試してみてください。
Google Colabのノートブックは以前のバージョンのノートブックのコピーを使っていませんか? Colabノートブックは最新のバージョンに合ったノートブックで動かすことを前提としています。ノートブック記載のバージョンを確認して、最新のcolabノートブック(を必要ならコピーして)から使うようにしてください。
フォルダ名をインストールした時から変えていませんか?フォルダ名を変えるとパスが変わってしまい、インストール時に指定したパスと異なるためにエラーが出ます。フォルダ名を元に戻してください。
デフォルトの100エポックは音声データ量によっては過剰な場合があります。デフォルトでは1000ステップごとにモデルが保存されるはずなので、途中で学習を中断してみて途中のもので試してみてもいいでしょう。
またバッチサイズが大き過ぎてメモリがVRAMから溢れると非常に遅くなることがあります。VRAM使用量がギリギリだったり物理メモリに溢れている場合はバッチサイズを小さくしてみてください。
分かりません。試行錯誤してください。
参考として、数分程度でも学習はできるらしく、またRVCでよく言われているのは多くても45分くらいで十分説があります。ただ多ければ多いほど精度が上がる可能性もありますが、分かりません。
分かりません。試行錯誤してください。python speech_mos.py -m <モデル名>
によって自然性の一つの評価ができるので、それが少し参考になります(ただあくまで一つの指標です)。
参考として、最初の2k-3kで声音はかなり似始めて、5k-10k-15kステップほどで感情含めてよい感じになりやすく、そこからどんどん回して20kなり30kなり50kなり100kなりでどんどん微妙に変わっていきます。が、微妙に変わるので、どこがいいとかは分かりません。
デフォルトでserver_fastapi.py
の入力文字上限は100文字に設定されています。
config.yml
のserver.limit
の100を好きな数字に変更してください。
上限をなくしたい方はserver.limit
を-1に設定してください。
- 学習を中断するには、学習の進捗が表示されている画面(bat使用ならコマンドプロンプト)を好きなタイミングで閉じてください。
- 学習を再開するには、WebUIでモデル名を再開したいモデルと同じ名前に設定して、前処理等はせずに一番下の「学習を開始する」ボタンを押してください(「スタイルファイルの生成をスキップする」にチェックを入れるのをおすすめします)。
Data/{モデル名}/config.json
を手動で変更してから、学習を再開してください。
ググったり調べたりChatGPTに聞くか、それでも分からない場合・または手順通りやってもエラーが出る等明らかに不具合やバグと思われる場合は、GitHubのIssueに投稿してください。