关于论文中在Table 7中在EgoSchema数据集性能 #8

Kouuh · 2024-12-25T08:16:13Z

我想请教下在论文中的Table7中论文提出的框架的性能是52.2，但在当前项目的readme.md文件中并没有看到复现该指标。而且在项目中我看以gpt3.5作为语言模型最好的指标是达到了60.2？那论文中是为什么没有以这个指标汇报。
谢谢

CeeZh · 2024-12-25T21:46:03Z

你好，我们论文做的比较早，里面的gpt3.5版本比较老。项目里用了更新版本的gpt3.5，所以结果有点不一样。60.2是few shot，而我们paper里都是zero shot，所以没有更新。

On Wed, Dec 25, 2024 at 5:16 PM Kouuh ***@***.***> wrote: 我想请教下在论文中的Table7中论文提出的框架的性能是52.2，但在当前项目的readme.md文件中并没有看到复现该指标。而且在项目中我看以gpt3.5作为语言模型最好的指标是达到了60.2？那论文中是为什么没有以这个指标汇报。谢谢 — Reply to this email directly, view it on GitHub <#8>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA> . You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

Kouuh · 2024-12-26T03:24:35Z

你好，我们论文做的比较早，里面的gpt3.5版本比较老。项目里用了更新版本的gpt3.5，所以结果有点不一样。60.2是few shot，而我们paper里都是zero shot，所以没有更新。
…
On Wed, Dec 25, 2024 at 5:16 PM Kouuh @.> wrote: 我想请教下在论文中的Table7中论文提出的框架的性能是52.2，但在当前项目的readme.md文件中并没有看到复现该指标。而且在项目中我看以gpt3.5作为语言模型最好的指标是达到了60.2？那论文中是为什么没有以这个指标汇报。谢谢 — Reply to this email directly, view it on GitHub <#8>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA . You are receiving this because you are subscribed to this thread.Message ID: @.>

感谢回复。
还想请教个问题，有关利用lavila生成视频的caption，是否方便提供相关的代码？
不方便的话，想了解下你们采用的是lavila中的demo_narrator.py还是main_infer_narrator.py中的推理代码？
其实主要想了解论文中关于视频帧采样的实现。

CeeZh · 2024-12-26T03:50:19Z

我们用的是main_infer_narrator. 最优的视频采样就是把三分钟的视频分成多个连续的1s的clip，每个1s的clip都用lavila提取caption。超参数基本就是用了lavila默认的超参数。

…

On Thu, Dec 26, 2024 at 12:24 PM Kouuh ***@***.***> wrote: 你好，我们论文做的比较早，里面的gpt3.5版本比较老。项目里用了更新版本的gpt3.5，所以结果有点不一样。60.2是few shot，而我们paper里都是zero shot，所以没有更新。 … <#m_3867860816910500951_> On Wed, Dec 25, 2024 at 5:16 PM Kouuh *@*.*> wrote: 我想请教下在论文中的Table7中论文提出的框架的性能是52.2，但在当前项目的readme.md文件中并没有看到复现该指标。而且在项目中我看以gpt3.5作为语言模型最好的指标是达到了60.2？那论文中是为什么没有以这个指标汇报。谢谢 — Reply to this email directly, view it on GitHub <#8 <#8>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA <https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA> . You are receiving this because you are subscribed to this thread.Message ID: @.*> 感谢回复。还想请教个问题，有关利用lavila生成视频的caption，是否方便提供相关的代码？不方便的话，想了解下你们采用的是lavila中的demo_narrator.py还是main_infer_narrator.py <http://demo_narrator.xn--pymain_infer_narrator-or18bo115c.py>中的推理代码？其实主要想了解论文中关于视频帧采样的实现。 — Reply to this email directly, view it on GitHub <#8 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AKXZD55ENTO3HLOYXCE4CL32HNZITAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDKNRSGEYTIMRQGM> . You are receiving this because you commented.Message ID: ***@***.***>

Kouuh · 2024-12-26T06:16:02Z

我们用的是main_infer_narrator. 最优的视频采样就是把三分钟的视频分成多个连续的1s的clip，每个1s的clip都用lavila提取caption。超参数基本就是用了lavila默认的超参数。
…
On Thu, Dec 26, 2024 at 12:24 PM Kouuh @.> wrote: 你好，我们论文做的比较早，里面的gpt3.5版本比较老。项目里用了更新版本的gpt3.5，所以结果有点不一样。60.2是few shot，而我们paper里都是zero shot，所以没有更新。 … <#m_3867860816910500951_> On Wed, Dec 25, 2024 at 5:16 PM Kouuh @.> wrote: 我想请教下在论文中的Table7中论文提出的框架的性能是52.2，但在当前项目的readme.md文件中并没有看到复现该指标。而且在项目中我看以gpt3.5作为语言模型最好的指标是达到了60.2？那论文中是为什么没有以这个指标汇报。谢谢 — Reply to this email directly, view it on GitHub <#8 <#8>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA https://github.com/notifications/unsubscribe-auth/AKXZD57EPDGYB7PXRC3QT4D2HJSWFAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43ASLTON2WKOZSG42TQNRRGMZDCOA . You are receiving this because you are subscribed to this thread.Message ID: @.> 感谢回复。还想请教个问题，有关利用lavila生成视频的caption，是否方便提供相关的代码？不方便的话，想了解下你们采用的是lavila中的demo_narrator.py还是main_infer_narrator.py http://demo_narrator.xn--pymain_infer_narrator-or18bo115c.py中的推理代码？其实主要想了解论文中关于视频帧采样的实现。 — Reply to this email directly, view it on GitHub <#8 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AKXZD55ENTO3HLOYXCE4CL32HNZITAVCNFSM6AAAAABUFWY7Y2VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDKNRSGEYTIMRQGM . You are receiving this because you commented.Message ID: @.**>

我看了下main_infer_narrator.py文件里的处理数据流程。我想确认下是不是走的dataset参数为ego4d的那条逻辑。

此外还有个问题想请教下，关于论文里的采样频率，我看一共分了四种:1，1/2，1/4，1/8，那每一种采样频率都是只抽取4帧吗？

CeeZh · 2025-01-02T17:26:50Z

抱歉晚回复。
对，我们用的是ego4d那条逻辑，改一下让他能处理egoschema的video就行。四种采样频率因为都是采样1s的clip，所以全都用了lavila默认的setting也就是4帧。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于论文中在Table 7中在EgoSchema数据集性能 #8

关于论文中在Table 7中在EgoSchema数据集性能 #8

Kouuh commented Dec 25, 2024

CeeZh commented Dec 25, 2024 via email

Kouuh commented Dec 26, 2024

CeeZh commented Dec 26, 2024 via email

Kouuh commented Dec 26, 2024 •

edited

Loading

CeeZh commented Jan 2, 2025

关于论文中在Table 7中在EgoSchema数据集性能 #8

关于论文中在Table 7中在EgoSchema数据集性能 #8

Comments

Kouuh commented Dec 25, 2024

CeeZh commented Dec 25, 2024 via email

Kouuh commented Dec 26, 2024

CeeZh commented Dec 26, 2024 via email

Kouuh commented Dec 26, 2024 • edited Loading

CeeZh commented Jan 2, 2025

Kouuh commented Dec 26, 2024 •

edited

Loading