R: csoportok összehasonlítása
júl 26, 20:11, Tippek és trükkök | Tudomány
Az adatsoron belüli csoportok összehasonlításának legegyszerűbb módszere a grafikus ábrázolás boxplot vagy errorbar segítségével. Amikor lehet, az előbbit részesítem előnyben, mert a csoportokon belüli eloszlásról is ad információt. Az utóbbi (errorbar) a középértékek konfidencia intervallumát mutatja be. Mindkettőnek megvannak a maga előnyei.

A fenti grafikon R-projectben készült a beépített iris adattábla felhasználásával:
boxplot(Sepal.Length ~ Species,data=iris)
Az ábráról ugyan leolvasható a medián és a negyedelők (kvartilisek) értéke, de ez csak szemléltetésként fogadható el, nem ad pontos számszerű eredményt. Az idevágó statisztikai próbák az átlag és szórás adatokból (LSD = least significant difference), esetleg a 95%-os konfidencia intervallum (MRT = multiple range test) alapján hoznak döntést. Ezeket az értékeket külön kiegészítő csomag telepítése nélkül is kiszámíthatjuk:
range.test <- function(myData,myLevels)
{
ul <- sort(unique(myLevels))
Name <- ul
Mean <- rep(0,length(ul))
SD <- Mean
CI95.min <- Mean
CI95.max <- Mean
for (i in 1:length(ul)) {
tmp <- myData[ myLevels == ul[i] ]
Mean[i] <- mean(tmp)
SD[i] <- sd(tmp)
CI95.min[i] <- t.test(tmp)$conf.int[1]
CI95.max[i] <- t.test(tmp)$conf.int[2]
}
return( data.frame(Name,Mean,SD,CI95.min,CI95.max) )
}
A fenti függvény kiszámítja a kiválasztott adatsor csoportjainak említett paramétereit. Az átlag és szórás egyértelmű, a középérték konfidencia intervallumát pedig az egymintás t-próba segítségével határozza meg. Használata a következő:
> range.test(iris$Sepal.Length,iris$Species)
Name Mean SD CI95.min CI95.max
1 setosa 5.006 0.3524897 4.905824 5.106176
2 versicolor 5.936 0.5161711 5.789306 6.082694
3 virginica 6.588 0.6358796 6.407285 6.768715
A szokásos páronkénti összehasonlítást nem végzi el, a konfidencia intervallumok átlapolódásából mi magunk állapíthatjuk meg a szignifikáns eltéréseket. A függvény kiegészíthető ellenőrző funkciókkal is, pl. a két paraméter vektor hosszának összehasonlítása.
Mindenkinek jó munkát!
Ehhez a cikkhez nem fűzhető megjegyzés!
« Hiányzó adatok SQL adatbázisban Akvárium kép feldolgozása »


