Veri Biliminde Eksik ve Aykırı Değerler (Missing Values & Outliers)

Serdar Tafralı
4 min readMay 1, 2023

Veri bilimi alanında çalışan kişiler zamanlarının büyük bir kısmını veriyi hazır hale getirme işlemleriyle geçirirler. Bu işlemler Veri Ön İşleme olarak isimlendirilir. Bu kapsamda en temel yaklaşımlar Aykırı ve Eksik gözlemlerin analiz edilmesidir.

Aykırı Değerler:

Verideki genel eğilimin oldukça dışına çıkan değerlere aykırı değer denir.

Örnek olarak yukarıdaki görselde soldaki ve sağdaki veri seti incelendiğinde, sağdaki grafiğin üst kısmına eklenen üç aykırı değer, grafiğin yönünü ve şiddetini ciddi şekilde değiştirmektedir. Özellikle doğrusal problemlerde aykırı değerlerin etkileri daha şiddetlidir. Ağaç yöntemlerinde bu etkiler daha düşüktür.

Aykırı değerler belirlenirken genellikle aşağıdaki kavramlar kullanılır:

1. Sektör bilgisi:
Bir veri seti üzerinde çalışırken sahip olunması gereken en önemli özelliklerden biri sektör bilgisidir. Sektör bilgisi üzerine aksiyon almaya örnek olarak, konutların özellikleri ve fiyatlarını içeren bir veri setiyle çalışıldığında, verilerin genelinin temsil edildiği konut fiyat aralığının çok üzerinde olduğu düşünülen birkaç konut veri setinden çıkarılabilir.

2. Standart sapma yaklaşımı:
Bu yaklaşım temel olarak, Veriler üzerinde standart sapmalar gözlemlenerek, bu standart sapma değerlerinin oluşturduğu aralıkların dışında kalan verileri çalışmanın dışında tutmak üzerine kurulur.

3. Z-skoru yaklaşımı:
Veri üzerinde gerçekleştirilen çeşitli istatistiki uygulamalarla belirlenen güven aralıkları kullanılarak aykırı değerlerin tespitinin yapılmasıdır.

4. Boxplot yöntemi (tek değişkenli olarak):
Gözlem birimlerinin oluşturduğu aralıklara göre çizilmiş bir kutu grafik yardımıyla aykırı değerlerin belirlenmesi tekniğidir.

5. LOF yöntemi (Çok değişkenli olarak):
LOF bir denetimsiz öğrenme aykırı gözlem tespit algoritmasıdır. Veri setinin tamamına bakıldığında aykırı gözlemler görülmese de lokal yoğunlukların gözlendiği bölgelere odaklanıldığında bu bölgede aykırı gözlemler olabilir. Bu kapsamda LOF yöntemiyle, her bir lokal örneklemin anomali değerini, o örneklemin Local Outlier faktörü olarak tanımlanır. Bu sayede örneklemin, komşulukları ile yerel yoğunluk dağılımını ölçerek, örneklemin kendisini çevreleyen komşularından ne kadar aykırı olduğu tespit edilir.

Eksik Değerler:

Veri seti üzerindeki gözlemlerde eksiklik olması durumudur. Bazı yerlerde NA olarak ifade edilir. Eksik değer problemleri, Silme Yaklaşımı, Değer Atama Yöntemleri, Tahmine Dayalı Yöntemler ile çözülebilir.

“The idea of imputation is both seductive and dangerous”
- R.J.A Little & D.B.Rubin

Eksik veri ile çalışırken göz önünde bulundurulması gereken en önemli konulardan birisi eksik verinin rassallığıdır.

“Eksik değere sahip gözlemlerin veri setinden direkt çıkarılması ve rassallığının incelenmemesi, yapılacak istatistiksel çıkarımların ve modelleme çalışmalarının güvenilirliğini düşürecektir.”
- Reha Alpar (2011)

Eksik verinin rastgele çıkıp çıkmaması bu kapsamda önemli ve detaylı incelenmesi gereken bir durumdur.

“Eksik gözlemlerin veri setinden direkt çıkarılabilmesi için veri setindeki eksikliğin bazı durumlarda kısmen bazı durumlarda tamamen rastlantısal olarak oluşmuş olması gerekmektedir.

Eğer eksiklikler değişkenler ile ilişkili olarak ortaya çıkan yapısal problemler ile meydana gelmiş ise bu durumda yapılacak silme işlemleri ciddi yanlılıklara sebep olabilecektir.”
- Tabachnick & Fidell (1996)

Örneğin harcamaların betimlendi bir veri setinde, kredi kartı harcama değişkenini düşünürsek. Kredi kartı harcama gözlemlerinin bir kısmının NA olduğunu düşünelim. Eğer bu NA değerleri rastgele ortaya çıktıysa bir sorun teşkil etmemektedir. Bu durumda eksik veri problemi çözme tekniklerinden uygun olan bir yöntem seçerek işlem gerçekleştirebiliriz.

Eksik değerlerin rastgele olmaması (Bağımlı olması) durumu ise ele aldığımız örnek üzerinde bir kullanıcının kredi kartı olmaması durumudur. Dolayısıyla kredi kartı harcaması 0 veya NA olacaktır. Şimdi buradaki NA durumu rastgele olarak betimlenememektedir. Çünkü kullanıcının kredi kartına sahip olma durumunu belirten başka bir değişkene (bağımlı) bağlıdır.

Bir değişkendeki eksiklik, başka bir değişkenin etkisinde ortaya çıktığı durumlarda, bu yapısallığın nereden kaynaklandığına bakılıp, bu durum çözmeye çalışılabilir aksi halde yapacağımız eksik değer problemini çözme teknikleri yanlılıklara sebep olacaktır.

--

--

Serdar Tafralı

Dedicated and eager lifelong learner with a very solid mathematical background. Deeply passionate about Data Science and Artificial Intelligence