Ana içeriğe geç
← Blog'a Dön
Veri Bilimi

Pandas ile Sağlam Veri Temizleme Pipeline'ı Kurmak

AL
ARI Lab Ekibi
Veri Bilimi Araştırma Grubu
·1 Mart 2026·10 dk okuma
PythonPandasVeri BilimiEDA

Kirli Veri Gerçeği

Veri bilimi projelerinin %80'i veri hazırlama aşamasında harcanır. Bu makale, Pandas kullanarak tekrarlanabilir, otomatize edilebilir temizleme pipeline'ları kurmanın pratik yollarını gösteriyor.

Eksik Veri Stratejileri

Eksik veri türüne göre strateji seçimi kritiktir:

  • MCAR (Tamamen Rastgele): Listwise deletion güvenli
  • MAR (Rastgele): Multiple imputation veya model-based
  • MNAR (Rastgele Değil): Domain knowledge zorunlu

Aykırı Değer Tespiti

IQR yöntemi ve Z-score'un yanı sıra, Isolation Forest gibi ML tabanlı yöntemler çok boyutlu aykırı değer tespitinde çok daha etkilidir.