Veri Bilimi

Pandas ile Sağlam Veri Temizleme Pipeline'ı Kurmak

ARI Lab Ekibi

Veri Bilimi Araştırma Grubu

·1 Mart 2026·⏱ 10 dk okuma

PythonPandasVeri BilimiEDA

Kirli Veri Gerçeği

Veri bilimi projelerinin %80'i veri hazırlama aşamasında harcanır. Bu makale, Pandas kullanarak tekrarlanabilir, otomatize edilebilir temizleme pipeline'ları kurmanın pratik yollarını gösteriyor.

Eksik Veri Stratejileri

Eksik veri türüne göre strateji seçimi kritiktir:

MCAR (Tamamen Rastgele): Listwise deletion güvenli
MAR (Rastgele): Multiple imputation veya model-based
MNAR (Rastgele Değil): Domain knowledge zorunlu

Aykırı Değer Tespiti

IQR yöntemi ve Z-score'un yanı sıra, Isolation Forest gibi ML tabanlı yöntemler çok boyutlu aykırı değer tespitinde çok daha etkilidir.

← Tüm Yazılar

Paylaş