-
Notifications
You must be signed in to change notification settings - Fork 0
/
index.html
145 lines (128 loc) · 6.55 KB
/
index.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>RUSLAN: Russian Spoken Language Corpus For Speech Synthesis</title>
</head>
<body>
<h1>RUSLAN: Russian Spoken Language Corpus For Speech Synthesis</h1>
<div>
<p>
<b>Authors:</b>
<a href="https://linkedin.com/in/lenar-gabdrakhmanov-545729174/">Lenar Gabdrakhmanov</a>,
<a href="http://linkedin.com/in/rustem-garaev">Rustem Garaev</a>,
<a href="http://razinkov.ai">Evgenii Razinkov</a>
(L. Gabdrakhmanov and R. Garaev contributed equally to this work)
</p>
<p>
<b>Abstract:</b>
We present RUSLAN – a new open Russian spoken language corpus for text-to-speech task.
RUSLAN contains 22200 audio samples with text annotations – more than 31 hours of high-quality
speech of one person – being the largest annotated Russian corpus in terms of speech duration
for a single speaker. We trained deep neural network for text-to-speech task on our corpus
and evaluated quality of the synthesized speech using Mean Opinion Score test.
Synthesized speech achieves 4.05 score for naturalness
and 3.78 score for intelligibility on a 5-point MOS scale.
</p>
<p>
<b>Аннотация:</b>
Мы представляем "RUSLAN" – новый открытый датасет на русском языке для задачи преобразования текста в речь.
Корпус, состоящий из 22,200 высококачественных аудиозаписей речи с соответствующими текстовыми аннотациями
общей продолжительностью более 31 часа, является наибольшим по продолжительности датасетом
для одного диктора на русском языке.
Мы обучили глубокую нейронную сеть для задачи преобразования текста в речь на нашем корпусе и оценили
качество синтезированной речи с помощью средней экспертной оценки <i>MOS</i> (<i>Mean Opinion Score</i>).
Сгенерированная речь получила 4.05 балла за естественность и 3.78 за разборчивость
по 5-балльной шкале <i>MOS</i>.
</p>
<p>
<b>Link:</b>
<a href="https://link.springer.com/chapter/10.1007%2F978-3-030-26061-3_12">Springer</a>
</p>
<p>
<b>Download:</b>
Corpus is available
<a href="https://drive.google.com/drive/folders/1QjaIKtPHmj-baiUMjjQqe8XjZ5XpiNoC">here</a> (7 Gb)
under the <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/">CC BY-NC-SA 4.0</a> license.
</p>
<p>
Feel free to ask any questions
<a href="https://github.com/ruslan-corpus/ruslan-corpus.github.io/issues">here</a>.
</p>
<p>
<b>Citation:</b>
<div style="font-family: monospace; border: 1px solid #ddd; background-color: #f2f2f2; padding: 1em 1.25em;">
Gabdrakhmanov L., Garaev R., Razinkov E. (2019) RUSLAN: Russian Spoken Language Corpus for Speech Synthesis.
In: Salah A., Karpov A., Potapova R. (eds) Speech and Computer. SPECOM 2019.
Lecture Notes in Computer Science, vol 11658. Springer, Cham
</div>
</p>
</div>
<br>
<div>
<h4>Samples from corpus:</h4>
<ol>
<li>
<p>"Это было в октябре тысяча девятьсот сорок пятого года."</p>
<audio controls="controls">
<source src="audio/01.wav" type="audio/wav">
</audio>
</li>
<li>
<p>"Причем нам нужен именно западный моряк."</p>
<audio controls="controls">
<source src="audio/02.wav" type="audio/wav">
</audio>
</li>
<li>
<p>"Кабинеты предназначены для штатных сотрудников. Общие залы, разделенные перегородками, для внештатных."</p>
<audio controls="controls">
<source src="audio/03.wav" type="audio/wav">
</audio>
</li>
</ol>
</div>
<br>
<div>
<h4>Synthesized speech (based on texts which are not presented in corpus):</h4>
<ol>
<li>
<p>"Синтез речи – это увлекательно"</p>
<audio controls="controls">
<source src="audio/04.wav" type="audio/wav">
</audio>
</li>
<li>
<p>"На вход подается текст, на выходе получается речь"</p>
<audio controls="controls">
<source src="audio/05.wav" type="audio/wav">
</audio>
</li>
<li>
<p>"Эксперименты подтверждают результаты"</p>
<audio controls="controls">
<source src="audio/06.wav" type="audio/wav">
</audio>
</li>
<li>
<p>"Как платил Незнайка за свои вопросы"</p>
<audio controls="controls">
<source src="audio/07.wav" type="audio/wav">
</audio>
</li>
<li>
<p>"Почему же так важно упомянуть эту группу? Раздел теоретической физики, описывающий физические явления"</p>
<audio controls="controls">
<source src="audio/08.wav" type="audio/wav">
</audio>
</li>
<li>
<p>"Ты звонишь, я звоню, мы звоним"</p>
<audio controls="controls">
<source src="audio/09.wav" type="audio/wav">
</audio>
</li>
</ol>
</div>
</body>
</html>