cli.transcribe 支持大文件wav吗 #2676

deevarvar · 2025-01-22T10:16:03Z

Describe the bug
File "/home/xcsong/workspace/wenet/wenet/transformer/embedding.py", line 100, in position_encoding
# pytorch/pytorch#69434
if isinstance(offset, int):
assert offset + size <= self.max_len
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ <--- HERE
pos_emb = self.pe[:, offset:offset + size]
elif isinstance(offset, torch.Tensor) and offset.dim() == 0: # scalar
RuntimeError: AssertionError:

To Reproduce
wenet --device cuda --language chinese ./20minutes.wav

Expected behavior
期望可以有结果

60s的音频是可以的，但是20分钟就assert了，
cli.transcribe有 stream模式吗

wwfcnu · 2025-02-05T10:22:18Z

Describe the bug File "/home/xcsong/workspace/wenet/wenet/transformer/embedding.py", line 100, in position_encoding # pytorch/pytorch#69434 if isinstance(offset, int): assert offset + size <= self.max_len ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ <--- HERE pos_emb = self.pe[:, offset:offset + size] elif isinstance(offset, torch.Tensor) and offset.dim() == 0: # scalar RuntimeError: AssertionError:

To Reproduce wenet --device cuda --language chinese ./20minutes.wav

Expected behavior 期望可以有结果

60s的音频是可以的，但是20分钟就assert了， cli.transcribe有 stream模式吗

本来就是流式识别吧，只要内存够大，处理多长的音频应该都没问题

Mddct · 2025-02-08T09:25:02Z

需要借助vad之类的工具

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

cli.transcribe 支持大文件wav吗 #2676

cli.transcribe 支持大文件wav吗 #2676

deevarvar commented Jan 22, 2025

wwfcnu commented Feb 5, 2025

Mddct commented Feb 8, 2025

cli.transcribe 支持大文件wav吗 #2676

cli.transcribe 支持大文件wav吗 #2676

Comments

deevarvar commented Jan 22, 2025

wwfcnu commented Feb 5, 2025

Mddct commented Feb 8, 2025