[BUG]本地运行“启用参考音频”模式，合成后有80%的概率会出现最后一个字容易被吞掉和裁剪的情况。 #341

leetraman822 · 2024-07-06T03:58:43Z

首先感谢大佬们制作的这个强大技术。
在使用本地部署后，出现了几个问题。
1.原参考音频的首尾念字是完整的念完的。但是推理之后，就有很大概率会出现最后一个字被吞掉，或者最后一个字念一半被剪掉的情况。不启用参考音频模式基本上就不会有这个问题。
2.无论是否启用音频参考，在我输入“一，二，三，四，五。”汉字时，朗读会出现错误。比如出现“一二二二四”等无法正确朗读的现象，而且每个字似乎都被裁剪没说完。但当我输入“一二三四五”时，则不会出现。

AnyaCoder · 2024-07-06T04:54:20Z

试着把参考音频的前后空白缩短，留个0.5s左右。
尽量不选择中间空白太长的音频。
仍有吞字问题考虑微调一下。

leetraman822 added the bug Something isn't working label Jul 6, 2024

leetraman822 closed this as completed Jul 26, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BUG]本地运行“启用参考音频”模式，合成后有80%的概率会出现最后一个字容易被吞掉和裁剪的情况。 #341

[BUG]本地运行“启用参考音频”模式，合成后有80%的概率会出现最后一个字容易被吞掉和裁剪的情况。 #341

leetraman822 commented Jul 6, 2024

AnyaCoder commented Jul 6, 2024

[BUG]本地运行“启用参考音频”模式，合成后有80%的概率会出现最后一个字容易被吞掉和裁剪的情况。 #341

[BUG]本地运行“启用参考音频”模式，合成后有80%的概率会出现最后一个字容易被吞掉和裁剪的情况。 #341

Comments

leetraman822 commented Jul 6, 2024

AnyaCoder commented Jul 6, 2024