Ao prepararmos uma matriz de dados biológicos para análise multivariada temos que ter inicialmente dois cuidados: devemos fazer com que o identificador dos objetos (usualmente estações de coleta) sejam os nomes das linhas e devemos substituir NAs (células vazias) por zeros.
Normalmente os dados de abundância são submetidos a alguma transformação monotônica, como log(x+1), para tornar a distribuição normal, estabilizar a variância e fazer com que as medidas de distância trabalhem melhor.
Para a mudança dos nomes das linhas utilizamos a função rownames, para substituição dos NAs por zeros is.na e, finalmente, para logaritimização log1p.
Para a mudança dos nomes das linhas utilizamos a função rownames, para substituição dos NAs por zeros is.na e, finalmente, para logaritimização log1p.
A seguir veremos um exemplo destas etapas iniciais de uma análise multivariada.
#dados
ST | SP1 | SP2 | SP3 |
ST1 | 4 | 2 | |
ST2 | 8 | 4 | 1 |
ST3 | 1 | 3 | 5 |
ST4 | 3 | 7 |
# lê os dados
dat.bio <-read.delim("clipboard",row.names=1)
dat.bio <-read.delim("clipboard",row.names=1)
dat.bio
SP1 SP2 SP3
ST1 4 2 NA
ST2 8 4 1
ST3 1 3 5
ST4 NA 3 7
ST1 4 2 NA
ST2 8 4 1
ST3 1 3 5
ST4 NA 3 7
# substitui NAs por 0
dat.bio[is.na(dat.bio)]<-0
dat.bio
dat.bio[is.na(dat.bio)]<-0
dat.bio
SP1 SP2 SP3
ST1 4 2 0
ST2 8 4 1
ST3 1 3 5
ST4 0 3 7
ST1 4 2 0
ST2 8 4 1
ST3 1 3 5
ST4 0 3 7
# logaritimização ln(x+1)
dat.biolog <- log1p(dat.bio)
dat.biolog
SP1 SP2 SP3
ST1 1.6094379 1.098612 0.0000000
ST2 2.1972246 1.609438 0.6931472
ST3 0.6931472 1.386294 1.7917595
ST4 0.0000000 1.386294 2.0794415
dat.biolog <- log1p(dat.bio)
dat.biolog
SP1 SP2 SP3
ST1 1.6094379 1.098612 0.0000000
ST2 2.1972246 1.609438 0.6931472
ST3 0.6931472 1.386294 1.7917595
ST4 0.0000000 1.386294 2.0794415