+
+ Scaling Transformers for Low-Bitrate High-Quality Speech Coding +
++
+ + Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu + +
++ Stability AI +
++
+
+
+
+ Abstract+ |
+
---|
+
+
+ Model Architecture+ |
+
---|
+
+
+ Performance Comparison+ |
+
---|
+ +
+ Speech Samples (16 kHz)
+
+
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
---|---|---|---|---|---|---|---|
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | + +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | + +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | + +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ +
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
---|---|---|---|---|---|---|---|
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | + +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | + +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | + +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | ++ + | +
+ +
+ Multilingual Speech Samples (16 kHz)
+
+
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
+ |
+
---|---|---|---|---|---|
+ |
+ + + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | +|
+ |
+ + + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | +|
+ |
+ + + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | +|
+ |
+ + + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | +|
+ |
+ + + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | +|
+ |
+ + + | ++ + | ++ + | ++ + | ++ + | +
+ + | ++ + | ++ + | ++ + | ++ + | +
+
+ Causal TAAE Samples (16 kHz)
+
+
+
+ |
+
+ |
+
+ |
+
---|---|---|
+ + | ++ + | ++ + | +
+ + | ++ + | ++ + | +
+ + | ++ + | ++ + | +
+ + | ++ + | ++ + | +
+ + | ++ + | ++ + | +
+ + | ++ + | ++ + | +
+ + | ++ + | ++ + | +
+ + | ++ + | ++ + | +
+
+