(080)自选wav2vec2模型 #245

A2Sumie · 2024-10-23T01:01:33Z

我看到日语对齐的话，目前用的是jonatasgrosman/wav2vec2-large-xlsr-53-japanese这个模型
但是似乎存在一些数据集更好/更长的模型如
NTQAI/wav2vec2-large-japanese
rinna/japanese-wav2vec2-base 这个直接用的reasonspeech v1有19000小时的数据集

现在用的模型对于广播以外的内容确实效果比较抽风，因为用的模型确实是单人声音的
能不能直接在gui里加入自选wav2vec2的功能

（以及如果我急着用，直接把cache里的模型那些symlink给改了行不行）

A2Sumie · 2024-10-23T03:07:12Z

（和标题无关，但是看了下reasonspeech v2感觉性能好强啊，万一也能和whisperX整合在一个gui里就好了）

A2Sumie · 2024-10-23T04:49:55Z

搭了一个原版的whisperX，用NTQAI/wav2vec2-large-japanese确实效果好很多（用高亮词看，断句和gui里的高度不同不理解为啥）
rinna/japanese-wav2vec2-base死活报错找不到模型（看了HuggingFace缓存，似乎模型部分不会下载不懂为什么），不过数据集又长又是电视，而我的内容也差不多，很希望能用

以及有关离线的whisperX https://github.com/nkilm/offline-whisperx 这个用的是pypi的3.1.3版

希望有机会可以支持了

CheshireCC · 2024-10-23T13:29:49Z

我看到日语对齐的话，目前用的是jonatasgrosman/wav2vec2-large-xlsr-53-japanese这个模型但是似乎存在一些数据集更好/更长的模型如 NTQAI/wav2vec2-large-japanese rinna/japanese-wav2vec2-base 这个直接用的reasonspeech v1有19000小时的数据集

现在用的模型对于广播以外的内容确实效果比较抽风，因为用的模型确实是单人声音的能不能直接在gui里加入自选wav2vec2的功能

（以及如果我急着用，直接把cache里的模型那些symlink给改了行不行）

一开始确实有制作自选 whisperX 模型功能的想法，但是因为比较麻烦，平时时间比较有限就没做，其实 whisperX 算是打开一个思路，完全可以把对齐功能扩展成更丰富的模型功能，

A2Sumie · 2024-10-23T22:53:37Z

我看到日语对齐的话，目前用的是jonatasgrosman/wav2vec2-large-xlsr-53-japanese这个模型但是似乎存在一些数据集更好/更长的模型如 NTQAI/wav2vec2-large-japanese rinna/japanese-wav2vec2-base 这个直接用的reasonspeech v1有19000小时的数据集
现在用的模型对于广播以外的内容确实效果比较抽风，因为用的模型确实是单人声音的能不能直接在gui里加入自选wav2vec2的功能
（以及如果我急着用，直接把cache里的模型那些symlink给改了行不行）

一开始确实有制作自选 whisperX 模型功能的想法，但是因为比较麻烦，平时时间比较有限就没做，其实 whisperX 算是打开一个思路，完全可以把对齐功能扩展成更丰富的模型功能，

那么这是算……not planned吗🥲
那至少有没有可能把日语的默认模型换成NTQAI/wav2vec2-large-japanese，现在的默认模型对说话人处在对话或者有笑声/音效的场景真的不太有效
Rinna的在独立whisperX上死活识别不到也不清楚效果

quentinztq · 2024-10-29T08:49:22Z

所以你找到办法使用这个模型了吗？

A2Sumie · 2024-10-29T09:42:17Z

所以你找到办法使用这个模型了吗？

rinna的没有，虽然我觉得offline whisper是可以用的，但是机器要重装不想再去和环境战斗了

A2Sumie · 2024-11-08T13:52:44Z

所以你找到办法使用这个模型了吗？

这两天琢磨reazon的各种东西，刚看见基于reazonspeech2的wav2vec2了
https://research.reazon.jp/blog/2024-10-21-Wav2Vec2-base-release.html
这个项目名挺标准的所以我猜……原版的whisperX里也能用吧
真的如果开发者不打算把offline那堆弄进来也该考虑把默认用日语的wav2vec2给换一下了

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

(080)自选wav2vec2模型 #245

(080)自选wav2vec2模型 #245

A2Sumie commented Oct 23, 2024 •

edited

Loading

A2Sumie commented Oct 23, 2024 •

edited

Loading

A2Sumie commented Oct 23, 2024

CheshireCC commented Oct 23, 2024

A2Sumie commented Oct 23, 2024

quentinztq commented Oct 29, 2024

A2Sumie commented Oct 29, 2024

A2Sumie commented Nov 8, 2024

(080)自选wav2vec2模型 #245

(080)自选wav2vec2模型 #245

Comments

A2Sumie commented Oct 23, 2024 • edited Loading

A2Sumie commented Oct 23, 2024 • edited Loading

A2Sumie commented Oct 23, 2024

CheshireCC commented Oct 23, 2024

A2Sumie commented Oct 23, 2024

quentinztq commented Oct 29, 2024

A2Sumie commented Oct 29, 2024

A2Sumie commented Nov 8, 2024

A2Sumie commented Oct 23, 2024 •

edited

Loading

A2Sumie commented Oct 23, 2024 •

edited

Loading