Slumpmässig skog


Random Forest är en statistisk algoritm som används för att gruppera datapunkter i funktionella grupper. När datamängden är stor och/eller det finns många variabler blir det svårt att klustra data eftersom alla variabler inte kan beaktas, därför kan algoritmen också ge en viss chans att en datapunkt tillhör en viss grupp.



 

Algoritmens steg


Det är på detta sätt som klusterbildningen sker.

  • Av hela datamängden tas en delmängd (träningsmängd).
  • Algoritmen grupperar data i grupper och undergrupper. Om man drar linjer mellan datapunkterna i en undergrupp och linjer som förbinder undergrupper med grupper etc. skulle strukturen se ut som ett träd. Detta kallas ett beslutsträd.
    • Vid varje delning eller nod i klustret/trädet/dendrogrammet väljs variabler slumpmässigt ut av programmet för att bedöma om datapunkterna har ett nära samband eller inte.
  • Programmet skapar flera träd, dvs. en skog. Varje träd är annorlunda eftersom variablerna för varje delning i ett träd väljs slumpmässigt.
  • Sedan används resten av datamängden (inte träningsmängden) för att förutsäga vilket träd i skogen som gör den bästa klassificeringen av datapunkterna (i datamängden är den rätta klassificeringen känd).
  • Trädet med störst prediktionsförmåga visas som resultat av algoritmen.



 

Användning av algoritmen


I en random forest-algoritm kan antalet träd som odlas (ntree) och antalet variabler som används vid varje delning (mtry) väljas för hand; exempelinställningar är 500 träd och 71 variabler.



 


AlegsaOnline.com - 2020 / 2023 - License CC3