Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

您好,对于大数据集如何构造相似度矩阵 #2

Open
yangye19960922 opened this issue Mar 7, 2022 · 3 comments
Open

您好,对于大数据集如何构造相似度矩阵 #2

yangye19960922 opened this issue Mar 7, 2022 · 3 comments

Comments

@yangye19960922
Copy link

作者您好,最近有幸拜读了您的论文,想在自己的工业数据上实践一下,发现有一个比较棘手的问题。
公式(3.6)是建立我们时序相似度的矩阵,矩阵的大小为N*N,如果我没理解错的话N代表的是序列的数量,那如果我想要计算一些比较大(10W条以上的数据量)的数据集的相似度矩阵的话,可能就会出现内存不足的报错,想请问一下这样的实际情况是否有一些针对性的方法呢

附上我用自己数据及创建dtw矩阵报错的信息
MemoryError: Unable to allocate 1.02 TiB for an array with shape (374147, 374147) and data type float64

@daochenzha
Copy link
Owner

@yangye19960922 这个是目前的一个limitation,也是我们的未来工作。大数据下没有办法完全算这个矩阵。可能的方法是随机采样,构建一个稀疏矩阵,然后用多层GNN去学。

@yangye19960922
Copy link
Author

嗷 好的,我突然有一个比较业余的问题想请教您,就如果我是一个N*M的数据集,有M-1个变量,我对他进行分类的话,是属于时序单变量分类还是多变量分类呀。
image
数据大概就是这样的。

@daochenzha
Copy link
Owner

@yangye19960922 多变量分类

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants