SPSS - Cluster Analizi, Crosstabs

Kümeleme analizi; birey veya nesneleri benzerliklerine göre kümelere veya gruplara ayırmak için kullanılan birçok değişkenli istatistik analiz tekniğidir. Kümeleme analizini gerçekleştirmek için daha önce regresyon için kullandığımız akıllı telefon şirketinin gerçekleştirmiş olduğu anket verisini kullanıyoruz. Öncelikle analize başlamak için SPSS’in “Analyze” kısmından “K-Means Cluster” seçiyoruz.

“Variables” kısmına kümelemeyi neye göre yapacağımı seçip, o değişkenleri giriyorum. “Number of Clusters” kısmında ise kaç adet küme olmasını belirtiyorum. Şimdilik veriyi 2 adet kümede incelemek için o kısma 2 giriyorum.

İterasyonu şimdilik 10 olarak belirliyorum.

Her bir bireyin (müşterinin) hangi kümeye ait olduğunu göstermesi için “Cluster Membership” işaretliyorum.

Sonrasında, analizin sonucunda görmek istediğim özet tabloları işaretliyorum.

Sonuç tabloları seçip Continue dedikten sonra analizin nihai haline ulaşıyorum.

Burada ilk bakacağımız özet tablo “Number of Cluster”. Bu tabloda kaç adet cluster (küme) olduğu, bunların içinde kaç adet birey (müşteri) olduğunu görüyorum. Burada önemli olan husus; her bir kümenin toplam müşteri sayısının en az %10’undan (Yani 300*0,10=30) fazla olması gerektiği. Kümeler 180 ve 120 olduğundan dolayı dağılımda bir sıkıntı görünmüyor.

İkinci olarak bakacağımız tablo ise ANOVA tablosu. Anova tablosunda kümeler arası farklılığı yaratan değişkenleri bulmak için sig değerine bakıyoruz. Kümeleme analizinde ne kadar çok değişken fark yaratırsa, analiz o kadar sağlıklı sonuç verir demektir. Burada, Sig<0,05 olan “price”, “image” ve “design” değişkenleri kümeleme işlemini yaparken öne çıkan özellikler. 5 adet değişkenden sadece üçünün fark yarattığını görüyoruz ki bu kümeleme analizi için iyi bir sonuç değil. Yani “quality” ve “innovative” müşterileri kümelemede bir işe yaramıyor. Bu sebeple; biz fark yaratan 3 değişkenin üzerinde duracağız. Burada en fazla fark yaratan değişkeni bulmak için ise F değerine bakıyoruz. Kümeleme analizinde en fazla fark yaratan değişkenin F değeri en yüksek olan (361,436) “image” olduğunu görüyoruz.

Üçüncü olarak bakacağımız tablo ise “Final Cluster Centers”. Burada analizi sadece sig<0,05 olan price, image ve design değişkenleri üzerinde duracağız. Kümeleme merkezleri tablosunu incelerken tabloyu öncelikle row-based, sonra ise column-based olarak inceliyoruz. İlk olarak price değişkenine bakıyoruz. Price değişkeni birinci grup için çok önemliyken (mean değeri 4,24) oldukça önemli iken 2. Grup price değişkenine pek önem vermemektedir. Image değişkeni 1. Grup için öenmli değilken 2. Grup için oldukça önemlidir. Design değişkeninde ise 2. Grup daha çok önemli olmakla birlikte mean değerleri çok yüksek değildir.

İkili kümeleme için gruplara net bir özellik (isim) atayamadım. Bu sebeple veriyi 3 adet kümeden oluşacak şekilde inceleyeceğim. Bunun için Number of Clusters’ı 3 deyip analizi çalıştırıyorum.

Bu defa iterasyonu 15 yapıyorum.

Analizimin nihai haline ulaşıyorum.

İlk bakacağımız tablo yine Number of Clusters. 3 adet kümelemede dağılımda bir sıkıntı görünmüyor. Bu yüzden Anova tabloma geçebilirim.

Anova tablosunda dikkatimi çeken ilk unsur 5 değişkenin 5’ininde anlamlı (sig<0,05) olması. Yani 5 değişken de kümeler arası fark yaratmada rol oynamış. Sadece bu açıdan bakarak 3 lü cluster analizimin daha sağlıklı sonuç vereceğini söyleyebilirim.

Nihai olarak Final Cluster Centers’ı inceliyorum. Öncelikle yine Row-Based olarak inceliyorum. Price değişkeni en fazla 3 ve 2. Gruplar için, image değişkeni; 1. ve 3., quality 2. ve 1., innovative 2. ve 1. ve son olarak design değişkeni 1. ve 2. Gruplar için önem teşkil etmektedir. Column-Based olarak baktığımda 1. Grubun en fazla image ve innovative, 2. Grubun quality ve innovative, 3. Grubun price ve innovative önem verdiğini görüyorum. Şimdi matris olarak karşılaştırdığım zaman; price değişkenine en fazla 3. Grubun önem verdiğini ve 3. Grubun kendi içinde de en fazla price’a önem verdiğini görüyorum. Yani price değişkeni gruplar arasında en fazla 3. Grupta yer alıyor ve 3. Grubun içindeki en yüksek mean değeri de price’a ait. Bu sebeple; 3. Gruba rahatlıkla “price-oriented” diyebiliriz. 2. Gruba baktığımızda en yüksek değer quality’e ait ve quality satırında da en yüksek değer 2. Grupta yer alıyor. Bu yüzden, 2. Gruba “quality-oriented” diyoruz. Son olarak 1. Grubu incelediğimizde en yüksek değerin image olduğunu ve image satırında da en yüksek değerin 1. Gruba ait olduğunu görüyoruz. Bu yüzden, 1. Grubu “image-oriented” olarak tanımlıyoruz. 3 adet cluster’a göre analiz ettiğimde gruplara anlamlı tanımlamalar yapabildiğimizi gördük. Şimdi analizin daha sağlıklı olması için küme adedini 4 ve 5 için de deneyeceğiz.

Number of cluster’ı 4 yapıp sonucunu inceliyorum. Bu sefer, number of cluster 4 adet geliyor ve dağılım da nispeten iyi. Anova tablosuna baktığımda ise yine tüm değişkenlerin anlamlı (sig<0,05) olduğunu görüyorum. Analizin en önemli tablosu olan Final Cluster Centers’ı incelediğim zaman kümeler arasında belirgin bir ayrıştırıcı özellik göremiyorum.

Bu defa number of cluster’ı 5 yapıyorum. 5 adet kümeyi de incelediğimde kümeler arası dağılım çok yakın ve belirgin bir ayrıştırıcı özellik yok. Bu sebeple analizimi 3 adet kümeyle bitirmeye karar veriyorum.

3 adet kümede karar verdiğime göre bu sınıflandırmayı “value” olarak tanımlayabilirim. Bunun için; “Variable View” kısmında kümeleri isimleriyle birlikte tanımlıyorum.

Sınıflandırmayı yaptıktan sonra bu üç kümeyi gender bazında incelemek istiyorum. Bunun için, SPSS’in Analyze kısmında “Descriptive Statistics” kısmına gelip “Crosstabs” diyorum.

Satır kısmına clusterları sütuna ise gender’ı ekliyorum.

Bu değerleri % olarak görmek istediğimi belirtiyorum.

Analizin sonucunu yorumlayabilirim artık: 1. Grup olan image-oriented’ın %79’u kadın, %21’i ise erkek çıkıyor. Buradan hareketle; kadınların image değişkenine daha hassas olduğunu görüyoruz. 2. Grup quality oriented’ın ise %80’i erkek, %20’si kadın: dolayısıyla erkekler quality’e kadınlara kıyasla çok daha fazla önem veriyor diyebiliriz. Son olarak 3. Grup olan price-oriented ise %55 erkek ve %45 kadın çıkıyor, yani quality açısından kadın erkek arasında bir fark bulunmuyor.

Sapere Aude

Bu Blogda Ara

SPSS - Cluster Analizi, Crosstabs

Etiketler

Yorumlar

Yorum Gönder