在 Matlab 中,異常值是指數(shù)據(jù)集中明顯偏離其他數(shù)據(jù)點的數(shù)據(jù)。常見的識別*有基于統(tǒng)計的*,如 3σ 原則(正態(tài)分布數(shù)據(jù))和箱線圖法。
3σ 原則:對于正態(tài)分布的數(shù)據(jù),數(shù)據(jù)點落在區(qū)間內(nèi)的概率約為 99.7%。其中是均值,是標(biāo)準(zhǔn)差。在 Matlab 中,可以通過以下步驟來識別異常值:
計算數(shù)據(jù)的均值和標(biāo)準(zhǔn)差。假設(shè)數(shù)據(jù)存儲在向量x
中,可以使用mean
和std
函數(shù),代碼如下:
x = [1,2,3,4,5,100]; % 示例數(shù)據(jù),其中100可能是異常值 mu = mean(x); sigma = std(x);