您好，对于大数据集如何构造相似度矩阵 #2

yangye19960922 · 2022-03-07T03:15:27Z

作者您好，最近有幸拜读了您的论文，想在自己的工业数据上实践一下，发现有一个比较棘手的问题。
公式（3.6）是建立我们时序相似度的矩阵，矩阵的大小为N*N,如果我没理解错的话N代表的是序列的数量，那如果我想要计算一些比较大（10W条以上的数据量）的数据集的相似度矩阵的话，可能就会出现内存不足的报错，想请问一下这样的实际情况是否有一些针对性的方法呢

附上我用自己数据及创建dtw矩阵报错的信息
MemoryError: Unable to allocate 1.02 TiB for an array with shape (374147, 374147) and data type float64

daochenzha · 2022-03-07T03:46:21Z

@yangye19960922 这个是目前的一个limitation，也是我们的未来工作。大数据下没有办法完全算这个矩阵。可能的方法是随机采样，构建一个稀疏矩阵，然后用多层GNN去学。

yangye19960922 · 2022-03-07T13:06:54Z

嗷好的，我突然有一个比较业余的问题想请教您，就如果我是一个N*M的数据集，有M-1个变量，我对他进行分类的话，是属于时序单变量分类还是多变量分类呀。

数据大概就是这样的。

daochenzha · 2022-03-13T00:41:42Z

@yangye19960922 多变量分类

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

您好，对于大数据集如何构造相似度矩阵 #2

您好，对于大数据集如何构造相似度矩阵 #2

yangye19960922 commented Mar 7, 2022

daochenzha commented Mar 7, 2022

yangye19960922 commented Mar 7, 2022

daochenzha commented Mar 13, 2022

您好，对于大数据集如何构造相似度矩阵 #2

您好，对于大数据集如何构造相似度矩阵 #2

Comments

yangye19960922 commented Mar 7, 2022

daochenzha commented Mar 7, 2022

yangye19960922 commented Mar 7, 2022

daochenzha commented Mar 13, 2022