Ana içeriğe atla

Python - Random Forests (Sınıflandırma)

Rassal orman (Random Forest), hiper parametre kestirimi yapılmadan da iyi sonuçlar vermesi hem regresyon hem de sınıflandırma problemlerine uygulanabilir olmasından dolayı çokça tercih edilen denetimli bir öğrenme algoritmasıdır.

Rastgele orman, birden fazla karar ağacını oluşturur ve daha doğru ve istikrarlı bir tahmin elde etmek için onları birleştirir.


Karar ağacının her düğümünde en iyi dallara ayırıcı değişken, tüm değişkenler arasından seçilen daha az sayıdaki değişken arasından seçilir.

Ağaç oluşturmada veri setinin 2/3’ü kullanılır. Dışarıda kalan veri, ağaçların performansının değerlendirilmesi ve değişkenlerin öneminin belirlenmesi için kullanılır.

Nihai tahmin için ağaçlardan tahmin değerleri talep edilirken her bir ağacın daha önce hesaplanan hata oranları göz önüne alınarak ağaçlara ağırlık verilir.

Analizimde yine diabets verisini kullanacağım. Bunun için veri setimi çağırdıktan sonra modelimi kuruyorum ve model parametrelerimi inceliyorum.


Tahmin aşamasına geçince test setimi tahmin et dedikten sonra ilkel test doğruluk oranını hesaplıyorum.


Şimdi model tuning aşamasına geçebilirim. Model için önemli olan parametre değerlerini girdikten sonra 10 katlı cross validation yaptırıyorum.


En optimum değerleri bul dedikten sonra bu değerlere göre modeli tune ediyorum ve doğrulanmış accuracy oranını hesaplıyorum.


Son olarak değişkenlerin önem sıralamasına göre düzenledikten sonra verimi görselleştirip analizimi bitiriyorum.


Yorumlar