winsorize缩尾处理原理?
异常值处理,原理大致是将异常值修建成与正常分布最大值or 最小值相同。

eg,如果你的log_size都在20左右,例如在15~20之间区间浮动,有些特别大或特别小的值出现,用winsorize就会把他们变成区间的最大值or最小值。这个“特别大”or“特别小”是你自己可以定义的,如果你认为比20高出10%算作异常值,那么22就会被修改成20,放在样本里。
什么是winsorize处理?
您好,1、winsorize是用相应分位数的值替代分位数之外的值,而不是删掉,这样可以最大限度的保存数据信息另外,这个跟数据多少没关系。
主要是根据已有文献来的,如果别人用winsorize你也要用,否则你的结论和别人的没有可比性。不过就我看来,至少在金融领域,使用winsorize比较普遍,删除异常值的做法越来越少的被使用了。

2、异常值处理,原理大致是将异常值修建成与正常分布最大值or 最小值相同。
eg,如果你的log_size都在20左右,例如在15~20之间区间浮动,有些特别大或特别小的值出现,用winsorize就会把他们变成区间的最大值or最小值。
这个“特别大”or“特别小”是你自己可以定义的,如果你认为比20高出10%算作异常值,那么22就会被修改成20,放在样本里。

到此,以上就是小编对于winsorize是什么意思的问题就介绍到这了,希望介绍的2点解答对大家有用,有任何问题和不懂的,欢迎各位老师在评论区讨论,给我留言。