index.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>RUSLAN: Russian Spoken Language Corpus For Speech Synthesis</title>
</head>
<body>
    <h1>RUSLAN: Russian Spoken Language Corpus For Speech Synthesis</h1>

    <div>
        <p>
            <b>Authors:</b>
            <a href="https://linkedin.com/in/lenar-gabdrakhmanov-545729174/">Lenar Gabdrakhmanov</a>,
            <a href="http://linkedin.com/in/rustem-garaev">Rustem Garaev</a>,
            <a href="http://razinkov.ai">Evgenii Razinkov</a>
            (L. Gabdrakhmanov and R. Garaev contributed equally to this work)
        </p>

        <p>
            <b>Abstract:</b>
            We present RUSLAN &ndash; a new open Russian spoken language corpus for text-to-speech task.
            RUSLAN contains 22200 audio samples with text annotations &ndash; more than 31 hours of high-quality
            speech of one person &ndash; being the largest annotated Russian corpus in terms of speech duration
            for a single speaker. We trained deep neural network for text-to-speech task on our corpus
            and evaluated quality of the synthesized speech using Mean Opinion Score test.
            Synthesized speech achieves 4.05 score for naturalness
            and 3.78 score for intelligibility on a 5-point MOS scale.
        </p>

        <p>
            <b>Аннотация:</b>
            Мы представляем "RUSLAN" &ndash; новый открытый датасет на русском языке для задачи преобразования текста в речь.
            Корпус, состоящий из 22,200 высококачественных аудиозаписей речи с соответствующими текстовыми аннотациями
            общей продолжительностью более 31 часа, является наибольшим по продолжительности датасетом
            для одного диктора на русском языке.
            Мы обучили глубокую нейронную сеть для задачи преобразования текста в речь на нашем корпусе и оценили
            качество синтезированной речи с помощью средней экспертной оценки <i>MOS</i> (<i>Mean Opinion Score</i>).
            Сгенерированная речь получила 4.05 балла за естественность и 3.78 за разборчивость
            по 5-балльной шкале <i>MOS</i>.
        </p>

        <p>
            <b>Link:</b>
            <a href="https://link.springer.com/chapter/10.1007%2F978-3-030-26061-3_12">Springer</a>
        </p>

        <p>
            <b>Download:</b>
            Corpus is available
            <a href="https://drive.google.com/drive/folders/1QjaIKtPHmj-baiUMjjQqe8XjZ5XpiNoC">here</a> (7 Gb)
            under the <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/">CC BY-NC-SA 4.0</a> license.
        </p>

        <p>
            Feel free to ask any questions
            <a href="https://github.com/ruslan-corpus/ruslan-corpus.github.io/issues">here</a>.
        </p>

        <p>
            <b>Citation:</b>
            <div style="font-family: monospace; border: 1px solid #ddd; background-color: #f2f2f2; padding: 1em 1.25em;">
                Gabdrakhmanov L., Garaev R., Razinkov E. (2019) RUSLAN: Russian Spoken Language Corpus for Speech Synthesis.
                In: Salah A., Karpov A., Potapova R. (eds) Speech and Computer. SPECOM 2019.
                Lecture Notes in Computer Science, vol 11658. Springer, Cham
            </div>
        </p>
    </div>
    <br>

    <div>
        <h4>Samples from corpus:</h4>

        <ol>
            <li>
                <p>"Это было в октябре тысяча девятьсот сорок пятого года."</p>
                <audio controls="controls">
                    <source src="audio/01.wav" type="audio/wav">
                </audio>
            </li>
            <li>
                <p>"Причем нам нужен именно западный моряк."</p>
                <audio controls="controls">
                    <source src="audio/02.wav" type="audio/wav">
                </audio>
            </li>
            <li>
                <p>"Кабинеты предназначены для штатных сотрудников. Общие залы, разделенные перегородками, для внештатных."</p>
                <audio controls="controls">
                    <source src="audio/03.wav" type="audio/wav">
                </audio>
            </li>
        </ol>
    </div>

    <br>

    <div>
        <h4>Synthesized speech (based on texts which are not presented in corpus):</h4>

        <ol>
            <li>
                <p>"Синтез речи &ndash; это увлекательно"</p>
                <audio controls="controls">
                    <source src="audio/04.wav" type="audio/wav">
                </audio>
            </li>

            <li>
                <p>"На вход подается текст, на выходе получается речь"</p>
                <audio controls="controls">
                    <source src="audio/05.wav" type="audio/wav">
                </audio>
            </li>

            <li>
                <p>"Эксперименты подтверждают результаты"</p>
                <audio controls="controls">
                    <source src="audio/06.wav" type="audio/wav">
                </audio>
            </li>

            <li>
                <p>"Как платил Незнайка за свои вопросы"</p>
                <audio controls="controls">
                    <source src="audio/07.wav" type="audio/wav">
                </audio>
            </li>

            <li>
                <p>"Почему же так важно упомянуть эту группу? Раздел теоретической физики, описывающий физические явления"</p>
                <audio controls="controls">
                    <source src="audio/08.wav" type="audio/wav">
                </audio>
            </li>

            <li>
                <p>"Ты звонишь, я звоню, мы звоним"</p>
                <audio controls="controls">
                    <source src="audio/09.wav" type="audio/wav">
                </audio>
            </li>
        </ol>
    </div>
</body>
</html>