Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feature]关于快速支持方言的一些想法(some idea for support chinese dialect) #362

Open
shuxiang opened this issue Jul 8, 2024 · 8 comments
Labels
enhancement New feature or request

Comments

@shuxiang
Copy link

shuxiang commented Jul 8, 2024

前提
我看了介绍,目前的体系是不基于音素的,直接用文字会导致一些非 常用字 于样本上无法覆盖

方案
我的想法是,目前的大部分方言都有拼音方案,而且想要支持方言的人大部分也比较了解方言拼音。

可以增加一个叫"方言"的语音选项,样本标注文本就填拼音就好,每个字的拼音直接用空格分隔就好,和英文单词的分割一样,非常好处理。这样就可以支持所有的汉语方言。个人去改代码添加语言支持也是很麻烦的事,可能会漏掉很多需要修改的地方。

考虑到常用汉字都好几千,正常文本用到的至少7000+,还有多音字的处理等等麻烦事;而实际上绝大部分汉语方言,带声调的音节数量,总共最多也就2000,甚至北方方言一般1000以下。这是用拼音相对于用汉字的好处。

如此,需要的语音样本数量将非常少,就能覆盖全部音节。

此外,方言训练本身最大的问题就是获取语音样本困难,除了粤语,其它语言很难获取到足够的语音样本数据。如果所需要的样本少,甚至可以自己录制就够了。现在开源社区中,也已经有了一些方言输入法,个人想办法把汉字转成方言拼音也是比较简单的。

以上

@shuxiang shuxiang added the enhancement New feature or request label Jul 8, 2024
@shuxiang
Copy link
Author

shuxiang commented Jul 8, 2024

英语好难写~
The core idea is using dialect Pinyin instead of text,only a small amount of voice sample data is needed for cover dialect syllables

@shuxiang
Copy link
Author

shuxiang commented Jul 8, 2024

有这功能,然后无论是搞语言学的,搞方言的,都可以自己默默折腾去了 >_<

@AnyaCoder
Copy link
Collaborator

完全可行,你可以按照一门新语言来对待方言数据集。准备千小时以上数据做预训练。

@PoTaTo-Mika
Copy link
Contributor

欢迎pr,也欢迎自行实践得出结论

@lanyuer
Copy link

lanyuer commented Jul 15, 2024

espeak NG

@mustapa0
Copy link

@AnyaCoder 我现在有数据集,我应该怎么做预训练呀

@AnyaCoder
Copy link
Collaborator

@AnyaCoder 我现在有数据集,我应该怎么做预训练呀

将音频打好标,每个音频旁边放.lab后缀的标注文件,里面仅含有标注文本。
然后用我们文档里的训练命令即可,去除+lora选项。注意调整学习率等参数。

@mustapa0
Copy link

@AnyaCoder 我现在有数据集,我应该怎么做预训练呀

将音频打好标,每个音频旁边放.lab后缀的标注文件,里面仅含有标注文本。 然后用我们文档里的训练命令即可,去除+lora选项。注意调整学习率等参数。

好的谢谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

5 participants