Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于论文中在Table 7中在EgoSchema数据集性能 #8

Open
Kouuh opened this issue Dec 25, 2024 · 5 comments
Open

关于论文中在Table 7中在EgoSchema数据集性能 #8

Kouuh opened this issue Dec 25, 2024 · 5 comments

Comments

@Kouuh
Copy link

Kouuh commented Dec 25, 2024

我想请教下在论文中的Table7中论文提出的框架的性能是52.2,但在当前项目的readme.md文件中并没有看到复现该指标。而且在项目中我看以gpt3.5作为语言模型最好的指标是达到了60.2?那论文中是为什么没有以这个指标汇报。
谢谢

@CeeZh
Copy link
Owner

CeeZh commented Dec 25, 2024 via email

@Kouuh
Copy link
Author

Kouuh commented Dec 26, 2024

你好,我们论文做的比较早,里面的gpt3.5版本比较老。项目里用了更新版本的gpt3.5,所以结果有点不一样。60.2是few shot,而我们paper里都是zero shot,所以没有更新。

On Wed, Dec 25, 2024 at 5:16 PM Kouuh @.> wrote: 我想请教下在论文中的Table7中论文提出的框架的性能是52.2,但在当前项目的readme.md文件中并没有看到复现该指标。而且在项目中我看以gpt3.5作为语言模型最好的指标是达到了60.2?那论文中是为什么没有以这个指标汇报。 谢谢 — Reply to this email directly, view it on GitHub <#8>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA . You are receiving this because you are subscribed to this thread.Message ID: @.>

感谢回复。
还想请教个问题,有关利用lavila生成视频的caption,是否方便提供相关的代码?
不方便的话,想了解下你们采用的是lavila中的demo_narrator.py还是main_infer_narrator.py中的推理代码?
其实主要想了解论文中关于视频帧采样的实现。

@CeeZh
Copy link
Owner

CeeZh commented Dec 26, 2024 via email

@Kouuh
Copy link
Author

Kouuh commented Dec 26, 2024

我们用的是main_infer_narrator. 最优的视频采样就是把三分钟的视频分成多个连续的1s的clip,每个1s的clip都用lavila提取caption。超参数基本就是用了lavila默认的超参数。

On Thu, Dec 26, 2024 at 12:24 PM Kouuh @.> wrote: 你好,我们论文做的比较早,里面的gpt3.5版本比较老。项目里用了更新版本的gpt3.5,所以结果有点不一样。60.2是few shot,而我们paper里都是zero shot,所以没有更新。 … <#m_3867860816910500951_> On Wed, Dec 25, 2024 at 5:16 PM Kouuh @.> wrote: 我想请教下在论文中的Table7中论文提出的框架的性能是52.2,但在当前项目的readme.md文件中并没有看到复现该指标。而且在项目中我看以gpt3.5作为语言模型最好的指标是达到了60.2?那论文中是为什么没有以这个指标汇报。 谢谢 — Reply to this email directly, view it on GitHub <#8 <#8>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA . You are receiving this because you are subscribed to this thread.Message ID: @.> 感谢回复。 还想请教个问题,有关利用lavila生成视频的caption,是否方便提供相关的代码? 不方便的话,想了解下你们采用的是lavila中的demo_narrator.py还是main_infer_narrator.py http://demo_narrator.xn--pymain_infer_narrator-or18bo115c.py中的推理代码? 其实主要想了解论文中关于视频帧采样的实现。 — Reply to this email directly, view it on GitHub <#8 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AKXZD55ENTO3HLOYXCE4CL32HNZITAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDKNRSGEYTIMRQGM . You are receiving this because you commented.Message ID: @.**>

我看了下main_infer_narrator.py文件里的处理数据流程。我想确认下是不是走的dataset参数为ego4d的那条逻辑。

此外还有个问题想请教下,关于论文里的采样频率,我看一共分了四种:1,1/2,1/4,1/8,那每一种采样频率都是只抽取4帧吗?

@CeeZh
Copy link
Owner

CeeZh commented Jan 2, 2025

抱歉晚回复。
对,我们用的是ego4d那条逻辑,改一下让他能处理egoschema的video就行。四种采样频率因为都是采样1s的clip,所以全都用了lavila默认的setting也就是4帧。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants