Dr. Baranyai László, fénykép

Dr. Baranyai László

 

R: csoportok összehasonlítása

júl 26, 20:11, |

 

Az adatsoron belüli csoportok összehasonlításának legegyszerűbb módszere a grafikus ábrázolás boxplot vagy errorbar segítségével. Amikor lehet, az előbbit részesítem előnyben, mert a csoportokon belüli eloszlásról is ad információt. Az utóbbi (errorbar) a középértékek konfidencia intervallumát mutatja be. Mindkettőnek megvannak a maga előnyei.

Boxplot példa 3 csoportra

A fenti grafikon R-projectben készült a beépített iris adattábla felhasználásával:

boxplot(Sepal.Length ~ Species,data=iris)

Az ábráról ugyan leolvasható a medián és a negyedelők (kvartilisek) értéke, de ez csak szemléltetésként fogadható el, nem ad pontos számszerű eredményt. Az idevágó statisztikai próbák az átlag és szórás adatokból (LSD = least significant difference), esetleg a 95%-os konfidencia intervallum (MRT = multiple range test) alapján hoznak döntést. Ezeket az értékeket külön kiegészítő csomag telepítése nélkül is kiszámíthatjuk:

range.test <- function(myData,myLevels)
{
 ul <- sort(unique(myLevels))
 Name <- ul
 Mean <- rep(0,length(ul))
 SD <- Mean
 CI95.min <- Mean
 CI95.max <- Mean
 for (i in 1:length(ul)) {
 tmp <- myData[ myLevels == ul[i] ]
 Mean[i] <- mean(tmp)
 SD[i] <- sd(tmp)
 CI95.min[i] <- t.test(tmp)$conf.int[1]
 CI95.max[i] <- t.test(tmp)$conf.int[2]
 }
 return( data.frame(Name,Mean,SD,CI95.min,CI95.max) )
}

A fenti függvény kiszámítja a kiválasztott adatsor csoportjainak említett paramétereit. Az átlag és szórás egyértelmű, a középérték konfidencia intervallumát pedig az egymintás t-próba segítségével határozza meg. Használata a következő:

> range.test(iris$Sepal.Length,iris$Species)
    Name Mean    SD CI95.min CI95.max
1   setosa 5.006 0.3524897 4.905824 5.106176
2 versicolor 5.936 0.5161711 5.789306 6.082694
3 virginica 6.588 0.6358796 6.407285 6.768715

A szokásos páronkénti összehasonlítást nem végzi el, a konfidencia intervallumok átlapolódásából mi magunk állapíthatjuk meg a szignifikáns eltéréseket. A függvény kiegészíthető ellenőrző funkciókkal is, pl. a két paraméter vektor hosszának összehasonlítása.

Mindenkinek jó munkát!