SealHuang +

非参 permutation test 中需要注意的问题

作为一种经典的非参检验方法,permutation test以其不依赖特定的总体分布,得到了广泛应用。其基本原理就是将数据样本根据某个标准(依赖于假设)随机打乱,将其设为零分布,再计算数据未打乱时的检验指标,将其放入“零分布”中查看其所在位置,看有多少“随机样本”的检验指标值大于真实指标,并用它们的数量除以数据打乱的总次数,得到p-value进行推断。

使用非参 permutation test 时可能出现的问题

虽然说permutation test不依赖于特定的总体分布,但不表示在任何分布中使用permutation test得到的值都是有意义的。以下记录几个简单的例子。

所有样本值都相同

这是一种比较极端的情况。如果所有样本值都相同,则无论怎样打乱,去计算如均值,标准差之类的统计量时,得到结果永远都是相同的。如果不加以观察,仍然依照“标准流程”进行操作时(即只比较打乱后的量是否比真实值大),则会得到“显著”的结果。

只有一个样本值与其他值不同

与上例相似,若只有一个值与其他样本值不同,则最终结果会取决于这个不同值被分到不同组的概率(假设样本总是被随机分为两组,这个概率与两组的样本数量有关)。若依然采用“标准流程“,则很可能得到”非常显著“的结果。

Blog

Technique

Theory