PythonPandasVeri BilimiEDA
Kirli Veri Gerçeği
Veri bilimi projelerinin %80'i veri hazırlama aşamasında harcanır. Bu makale, Pandas kullanarak tekrarlanabilir, otomatize edilebilir temizleme pipeline'ları kurmanın pratik yollarını gösteriyor.
Eksik Veri Stratejileri
Eksik veri türüne göre strateji seçimi kritiktir:
- MCAR (Tamamen Rastgele): Listwise deletion güvenli
- MAR (Rastgele): Multiple imputation veya model-based
- MNAR (Rastgele Değil): Domain knowledge zorunlu
Aykırı Değer Tespiti
IQR yöntemi ve Z-score'un yanı sıra, Isolation Forest gibi ML tabanlı yöntemler çok boyutlu aykırı değer tespitinde çok daha etkilidir.