feat: add step1 audio tts #121

weedge · 2025-02-20T12:22:06Z

feat:

add step speech lm and streamer
add default step tts speakers asset
add add tts mode: lm_gen, voice_clone: voice clone w/o lm gen, decode wav code
support tts mode:
- lm_gen: text+ref audio waveform lm gen audio wav code to gen waveform with static batch stream:
  text+ref audio waveform -> tokenizer -> text+audio token ids -> step1 lm -> audio token ids (wav_code) -> flow(CFM) -> mel - vocoder(HiFT) -> waveform
- voice_clone: voice clone w/o lm gen, decode wav code:
  src+ref audio waveform -> speech tokenizer-> audio token ids (wav_code) -> flow(CFM) -> mel - vocoder(HiFT) -> clone ref audio waveform
add step tts test

python -m unittest test.modules.speech.tts.test_step.TestStepTTS.test_get_voices
REF_AUDIO_PATH=./test/audio_files/asr_example_zh.wav \
    REF_TEXT="欢迎大家来体验达摩院推出的语音识别模型" \
    python -m unittest test.modules.speech.tts.test_step.TestStepTTS.test_set_voice

python -m unittest test.modules.speech.tts.test_step.TestStepTTS.test_synthesize
python -m unittest test.modules.speech.tts.test_step.TestStepTTS.test_synthesize_speak

# ref audio 
TTS_STREAM_FACTOR=4 \
    REF_AUDIO_PATH=./test/audio_files/asr_example_zh.wav \
    REF_TEXT="欢迎大家来体验达摩院推出的语音识别模型" \
    TTS_TEXT="万物之始,大道至简,衍化至繁。君不见黄河之水天上来，奔流到海不复回。君不见高堂明镜悲白发，朝如青丝暮成雪。人生得意须尽欢，莫使金樽空对月。天生我材必有用，千金散尽还复来。" \
    python -m unittest test.modules.speech.tts.test_step.TestStepTTS.test_synthesize

TTS_STREAM_FACTOR=4 \
REF_AUDIO_PATH=./test/audio_files/asr_example_zh.wav \
    REF_TEXT="欢迎大家来体验达摩院推出的语音识别模型" \
    TTS_TEXT="万物之始,大道至简,衍化至繁。君不见黄河之水天上来，奔流到海不复回。君不见高堂明镜悲白发，朝如青丝暮成雪。人生得意须尽欢，莫使金樽空对月。天生我材必有用，千金散尽还复来。" \
    python -m unittest test.modules.speech.tts.test_step.TestStepTTS.test_synthesize_speak

# ---- TTS_MODE: voice_clone ----
# src audio + default ref audio
SRC_AUDIO_PATH=./test/audio_files/asr_example_zh.wav \
    python -m unittest test.modules.speech.tts.test_step.TestStepTTS.test_synthesize

add step tts grpc client

# grpc serve
python -m src.cmd.grpc.speaker.server.serve

# tts lm gen
TTS_TAG=tts_step IS_SAVE=1 IS_RELOAD=1 \
    TTS_WARMUP_STEPS=2 TTS_LM_MODEL_PATH=./models/stepfun-ai/Step-Audio-TTS-3B \
    TTS_TOKENIZER_MODEL_PATH=./models/stepfun-ai/Step-Audio-Tokenizer \
    python -m src.cmd.grpc.speaker.client
# tts voice clone
TTS_TAG=tts_step IS_SAVE=1 IS_RELOAD=1 \
    TTS_WARMUP_STEPS=2 TTS_LM_MODEL_PATH=/content/models/stepfun-ai/Step-Audio-TTS-3B \
    TTS_TOKENIZER_MODEL_PATH=/content/models/stepfun-ai/Step-Audio-Tokenizer \
    TTS_STREAM_FACTOR=2 \
    TTS_MODE=voice_clone \
    SRC_AUDIO_PATH=./test/audio_files/asr_example_zh.wav \
    python -m src.cmd.grpc.speaker.client

tts batch inference stream: feat: tts batch stream generate waveform stepfun-ai/Step-Audio#74

colab 笔记：

解析笔记：https://github.com/weedge/doraemon-nb/blob/main/tts_step_audio.ipynb
流式(static batch stream)：https://github.com/weedge/doraemon-nb/blob/main/tts_step_audio_stream.ipynb
achatbot + step tts: https://github.com/weedge/doraemon-nb/blob/main/achatbot_step_tts.ipynb

step-audio TTS from step-audio (Speech Decoder)

step1 LM 3B + flow (code from CosyVoice)+ HiFT(code from CosyVoice)

⭐️ Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction | paper code

speech tokenizer

a dual codebook speech tokenizer framework. like ARCON (from stepfun team);

linguistic tokenizer use FunASR Paraformer(NAR) model;

semantic tokenizer use CosyVoice speech tokenizer(from SenseVoice)

https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer
ARCON: Advancing Auto-Regressive Continuation for Video Frames
linguistic tokenization: Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition
semantic tokenization: CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

step1 LM 3B from step-audio 130B distillation

flow (CFM)

see:

HiFT vocoder

see:

Signed-off-by: weedge <weege007@gmail.com>

…de wav code Signed-off-by: weedge <weege007@gmail.com>

Signed-off-by: weedge <weege007@gmail.com>

weedge added 7 commits February 18, 2025 18:32

feat: add step_audio tts

7712711

Signed-off-by: weedge <weege007@gmail.com>

feat: add step1 speech lm and streamer

e9aceca

Signed-off-by: weedge <weege007@gmail.com>

feat: add step tts

679d474

Signed-off-by: weedge <weege007@gmail.com>

feat: add step tts infer

ce942ea

Signed-off-by: weedge <weege007@gmail.com>

feat: add step tts speakers asset

70fdebf

Signed-off-by: weedge <weege007@gmail.com>

feat: add tts mode: lm_gen, voice_clone: voice clone w/o lm gen, deco…

73906e8

…de wav code Signed-off-by: weedge <weege007@gmail.com>

feat: add step tts test

2505022

Signed-off-by: weedge <weege007@gmail.com>

weedge added TTS AR voice clone labels Feb 21, 2025

weedge added 5 commits February 21, 2025 15:03

add step tts grpc client

3e4cfdf

Signed-off-by: weedge <weege007@gmail.com>

fix: async task exception

df29617

Signed-off-by: weedge <weege007@gmail.com>

fix: test case

3f5fd34

Signed-off-by: weedge <weege007@gmail.com>

fix: voice clone src_audio_path

4c6daef

Signed-off-by: weedge <weege007@gmail.com>

feat: add tts_synth_args for tts synthesize rpc request

69eb4c6

Signed-off-by: weedge <weege007@gmail.com>

weedge merged commit a2fa7ec into main Feb 21, 2025

This was referenced Feb 21, 2025

[achatbot] add step-audio tts stepfun-ai/Step-Audio#82

Closed

feat: add audio step chat LM #122

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: add step1 audio tts #121

feat: add step1 audio tts #121

weedge commented Feb 20, 2025 •

edited

Loading

feat: add step1 audio tts #121

feat: add step1 audio tts #121

Conversation

weedge commented Feb 20, 2025 • edited Loading

step-audio TTS from step-audio (Speech Decoder)

speech tokenizer

step1 LM 3B from step-audio 130B distillation

flow (CFM)

HiFT vocoder

weedge commented Feb 20, 2025 •

edited

Loading