Skip to content

Yukkuri

anoyetta edited this page Aug 19, 2019 · 7 revisions

ACT.TTSYukkuri

「ゆっくり」 ACTのTTSをゆっくりなどの他の合成音声エンジンに置き換えます。

ディレイ読上げ

/wait 1,ゆっくりです
読上げるテキストに上記のように記述すると、トリガー検出から1秒後に「ゆっくりです」を読上げます

扱えるTTSの種類

AquesTalk(ゆっくり)

ニコニコ動画の「ゆっくり実況」で有名なTTSエンジン。
ゲームのアラートとして使用する場合は読上げ速度を早めにしておくのがオススメです。
AquesTal10になり非常にクリアな音質になりました。

Open JTalk(MEI)

名工大が開発したオープンソースのTTSエンジン。
男性の声と「MEI(メイ)」という女性の声が使えます。
これを使う場合はあまり句読点を入れないほうが自然に喋るような気がします。
おまけで初音ミクの声から合成したボイスデータも同梱しています(type-α, type-β)が、元々が歌うためのものなのでかなり聞き取りづらいです。

HOYA Voice Text Web API

HOYAサービス株式会社が提供しているWeb経由で使用できるTTSエンジン。
ユーザ登録をしてAPIKey(アプリケーションからアクセスするためのパスワードのようなもの)を発行して貰う必要がありますが無料で使えます。
テレ東の「モヤモヤさまぁ~ず」のナレーションの「ショウ」君が有名です。
発声の際にWebにアクセスするためレスポンスは非常に悪いですが、同じ文章の2回目以降の発声はローカル側のキャッシュを利用するため気にならなくなります。
音声やイントネーション等の品質は非常に高いと思います。

※注意
パーティメンバのパラメータを数値等の代名詞付きで読上げているような場合は使用しないほうが良いです。
毎回読上げる文章の内容が変化するためキャッシュが効きません。

Amazon Polly

AWS (Amazon Web Service) で提供される深層学習を利用したテキスト読み上げサービスです。
一応、有料になりますが無料利用枠があるためほぼ無料で使用できます。また、無料利用枠が終了してもTTSYukkuriでの使用範囲内ならば、数円~数十円程度の請求額しか発生しないでしょう。
音質、変換精度、コスト、将来性を考えたときにベストな選択肢と考えられます。

こちらからAWSの利用登録してTTSYukkuriにAPIキーを設定して使用してください。
Amazon Polly

CeVIO Creative Studio(さとうささら)※ただし製品版が必要

別途、有償のソフトが必要です。
有償なだけあって高品質なTTSエンジンです。

棒読みちゃん

棒読みちゃんに読上げてもらいます。
棒読みちゃんには文章だけを連携して、文章の解析、速度・ピッチ等の調整、TTSの再生等は棒読みちゃん側の制御になります。
当プラグイン側で再生していないため、TTSに対するサウンドデバイスの変更や再生方式の変更は効きません。

VOICEROID

v3.1.0からVOICEROIDにも対応しました。
しかしVOICEROIDには外部から操作するためのAPIがないため使い勝手がよくありません。参考程度に考えてください。

再生方式について

環境に合わせて再生方式を選べるようになっています

DirectSound

Windowsのゲーム向けAPIによる再生。
ゲーム向けであるため低遅延及び同時再生に強いのが特徴。ただし方式としては古いためノイズ等が発生しやすく近年のWindowsでは推奨されない再生方式になります。

WASAPI

Windows Vista から搭載された新しいAPIによる再生。

WASAPI (Buffered) ※推奨

再生方式としてはWASAPIと同じですがTTSYukkuri側の処理をさらに最適化した再生方式になります。
低遅延かつ同時再生に強く、Windows 10への適性も高い方式になります。
特にこだわりがなければこの方式を選択することをおすすめします。

遅延やノイズについて

WASAPI (Buffered) < DirectSound <<<< WASAPI
計測してみた結果、喋りだしまでの時間は上記のとおりでした(左ほど高速)。
WASAPI (Buffered) では「喋りだしの遅延は一切ありません」。実際DirectSoundとの差は僅差ではありますが、レガシーとなってしまったDirectSoundを敢えて使用するメリットはありません。

DISCORD連携

DISCORD に対してTTSやWAVEサウンドの再生を飛ばします。
DISCORD のBOTとして動作します。
設定方法は こちら を参考にしてください。

結局何を選べばいいのか?

  • 再生方式
    WASAPI (Buffered)

  • TTSの種類
    CeVIO Creative Studio

これがベストです。
再生方式は、WASAPI (Buffered) の一択です。他の再生方式はトラブルシューティング用の保険です。
TTSについては好みや予算の問題があるものの、CeVIO Creative Studio がベストです。さとうささらのクリアな音声はゲーム中にも聞きやすく、イントネーションも自然です。

次点として、AquesTalk になります。無料で使えることとゆっくり動画などで聞き慣れていること、動作が最も軽快であること、すべての要件において高いレベルでバランスが取れています。

お金はかけたくないが、ゆっくりの音声が好きになれないという場合は、Amazon Polly がおすすめです。実質的に無料ですし、音声・イントネーション等も高性能です。

NAudio

本ソフトは、NAudioライブラリを使用しており、その著作権はMark Heath氏に帰属します。
配布元: http://naudio.codeplex.com/
ライセンス: http://naudio.codeplex.com/license

AquesTalk(いわゆる、ゆっくりボイス)

本ソフトは、株式会社アクエスト(以降、アクエスト)の音声合成ライブラリAquesTalk, AqKanji2Koeを 個人利用 の規定に従ってアクエストの許諾を受けて使用、再頒布を行っております。
当該ライブラリを用途外に使用したり、営利目的に使用する場合は別途許諾及び頒布ライセンスが必要になります。

VoiceroidUtil

本ソフトは、VoiceroidUtil, RucheHomeLib をMITライセンスに基づき使用しています。
https://github.com/ruche7/VoiceroidUtil

謝辞

・GB19xx様
https://github.com/GB19xx/ACT.TPMonitor
のFF14ヘルパークラスを流用させていただきました