Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

(080)自选wav2vec2模型 #245

Open
A2Sumie opened this issue Oct 23, 2024 · 7 comments
Open

(080)自选wav2vec2模型 #245

A2Sumie opened this issue Oct 23, 2024 · 7 comments

Comments

@A2Sumie
Copy link

A2Sumie commented Oct 23, 2024

我看到日语对齐的话,目前用的是jonatasgrosman/wav2vec2-large-xlsr-53-japanese这个模型
但是似乎存在一些数据集更好/更长的模型如
NTQAI/wav2vec2-large-japanese
rinna/japanese-wav2vec2-base 这个直接用的reasonspeech v1有19000小时的数据集

现在用的模型对于广播以外的内容确实效果比较抽风,因为用的模型确实是单人声音的
能不能直接在gui里加入自选wav2vec2的功能

(以及如果我急着用,直接把cache里的模型那些symlink给改了行不行)

@A2Sumie
Copy link
Author

A2Sumie commented Oct 23, 2024

(和标题无关,但是看了下reasonspeech v2感觉性能好强啊,万一也能和whisperX整合在一个gui里就好了)

@A2Sumie
Copy link
Author

A2Sumie commented Oct 23, 2024

搭了一个原版的whisperX,用NTQAI/wav2vec2-large-japanese确实效果好很多(用高亮词看,断句和gui里的高度不同不理解为啥)
rinna/japanese-wav2vec2-base死活报错找不到模型(看了HuggingFace缓存,似乎模型部分不会下载不懂为什么),不过数据集又长又是电视,而我的内容也差不多,很希望能用

以及有关离线的whisperX https://github.com/nkilm/offline-whisperx 这个用的是pypi的3.1.3版

希望有机会可以支持了

@CheshireCC
Copy link
Owner

我看到日语对齐的话,目前用的是jonatasgrosman/wav2vec2-large-xlsr-53-japanese这个模型 但是似乎存在一些数据集更好/更长的模型如 NTQAI/wav2vec2-large-japanese rinna/japanese-wav2vec2-base 这个直接用的reasonspeech v1有19000小时的数据集

现在用的模型对于广播以外的内容确实效果比较抽风,因为用的模型确实是单人声音的 能不能直接在gui里加入自选wav2vec2的功能

(以及如果我急着用,直接把cache里的模型那些symlink给改了行不行)

一开始确实有制作 自选 whisperX 模型 功能的想法,但是因为比较麻烦,平时时间比较有限就没做,其实 whisperX 算是打开一个思路,完全可以把 对齐功能扩展成更丰富的模型功能,

@A2Sumie
Copy link
Author

A2Sumie commented Oct 23, 2024

我看到日语对齐的话,目前用的是jonatasgrosman/wav2vec2-large-xlsr-53-japanese这个模型 但是似乎存在一些数据集更好/更长的模型如 NTQAI/wav2vec2-large-japanese rinna/japanese-wav2vec2-base 这个直接用的reasonspeech v1有19000小时的数据集
现在用的模型对于广播以外的内容确实效果比较抽风,因为用的模型确实是单人声音的 能不能直接在gui里加入自选wav2vec2的功能
(以及如果我急着用,直接把cache里的模型那些symlink给改了行不行)

一开始确实有制作 自选 whisperX 模型 功能的想法,但是因为比较麻烦,平时时间比较有限就没做,其实 whisperX 算是打开一个思路,完全可以把 对齐功能扩展成更丰富的模型功能,

那么这是算……not planned吗🥲
那至少有没有可能把日语的默认模型换成NTQAI/wav2vec2-large-japanese,现在的默认模型对说话人处在对话或者有笑声/音效的场景真的不太有效
Rinna的在独立whisperX上死活识别不到也不清楚效果

@quentinztq
Copy link

所以你找到办法使用这个模型了吗?

@A2Sumie
Copy link
Author

A2Sumie commented Oct 29, 2024

所以你找到办法使用这个模型了吗?

rinna的没有,虽然我觉得offline whisper是可以用的,但是机器要重装不想再去和环境战斗了

@A2Sumie
Copy link
Author

A2Sumie commented Nov 8, 2024

所以你找到办法使用这个模型了吗?

这两天琢磨reazon的各种东西,刚看见基于reazonspeech2的wav2vec2了
https://research.reazon.jp/blog/2024-10-21-Wav2Vec2-base-release.html
这个项目名挺标准的所以我猜……原版的whisperX里也能用吧
真的如果开发者不打算把offline那堆弄进来也该考虑把默认用日语的wav2vec2给换一下了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants