19.4.18_组会问题记录与学习

4.18 机器学习与认知计算所第四次组会问题记录

根据层次聚类算法，进行有统计意义的计算

会议上，老师对我的实验结果进行了质疑，以前没接触过对应的聚类统计方法，在上一次设计实验时，并没有考虑到实验的随机性，缺乏这方面的知识。刚好亡羊补牢在此进行针对性的学习。

上次实验，我们将mnist在cam中gap层的数据进行了导出，得到了一个 300x64x10 的矩阵，这相当于是一个根据标签分类好的数据集。

我们现在要实现对每个簇两两之间差距的度量，得到一个可信的值。batch_size 可以有多种选择

Single-linkage:要比较的距离为元素对之间的最小距离

Complete-linkage:要比较的距离为元素对之间的最大距离

Group average：要比较的距离为类之间的平均距离（平均距离的定义与计算：假设有A，B两个类，A中有n个元素，B中有m个元素。在A与B中各取一个元素，可得到他们之间的距离。将nm个这样的距离相加，得到距离和。最后距离和除以nm得到A，B两个类的平均距离。

根据统计方法进行类中心的计算，也可以局部化去研究更好的类中心

由于我们已经知道对应的数据的类别，就不要再给10类的数据进行训练了

所有直接给每一类进行一个k-means算法，来获得这个类的类中心

k-means算法进行迭代运算的是欧式距离，我们可以用MMD或者其他距离计算公式来迭代计算

然后来影响feature map 上面的参数，进行反回，影响热力图的生成

目前的想法就是对输入样本经过计算后的值，和类中心进行度量距离，如果距离很小，说明很近，返回要加强，如果距离很小，返回要减少

个人认为，如果乘以一个系数这种方法虽然粗犷，但是应该会有比较好的结果