Ana içeriğe atla

Python - Temel Bileşen Analizi (PCA)

Temel bileşen analizi (PCA), yüz tanıma ve görüntü sıkıştırma gibi alanlarda uygulama alanı bulmuş, yüksek boyuttaki verilerde örüntü bulmak için yaygın olarak kullanılan bir istatistiksel tekniktir.

Temel Bileşenler Analizi;
-Boyut indirgeme
-Verileri korelasyondan arındırma
-Yüksek boyutlu verilerin görselleştirilmesi
-Gürültü filtreleme
gibi çalışmalar için oldukça yararlıdır.


Değişken seçiminde veri setindeki değişken korunur ya da tamamen kaldırılır. Boyut indirgemede ise mevcut değişkenlerin kombinasyonundan oluşan yeni değişkenler yaratılarak değişken sayısı azaltılır. Böylece veri setindeki tüm özellikler bir şekilde hala mevcut ancak değişken sayısı azaltılmış olur.

Temel Bileşenler Analizi uygulamadan önce mutlaka standardizasyon yapılmalıdır. Farklı ölçeklerdeki veriler yanıltıcı bileşenlere sebep olacaktır. Ayrıca analiz aykırı gözlemlerden(outlier) fazlaca etkilenir.

USArrest veri seti üzerinden devam ediyorum. Analize başlamadan önce değişkenler için standartlaştırma işlemi yapıyorum.


PCA modülünü indirdikten sonra 3 bileşen üzerinden bir gözlem yapıyorum ve çıktıyı bir data frame olarak kaydediyorum.


Bileşenler bazında açıklama oranını getiriyorum. Modeli bileşen sayısı belirtmeden fit ediyorum ve bileşen sayısı bazında varyans oranlarını getirip, sonucu görselleştiriyorum. Grafiğe göre bileşen sayım 2 olduğunda ver setinin değişkenliğinin %95’ini açıklayabiliyorum. Dolayısıyla, benim veri setim zaten 4 değişkene sahipti, ben bunun yerine değişken sayısını azaltıp iki yaptığımda %95 gibi yüksek bir oranla orijinal verimi temsil etmiş oluyorum.


Yorumlar