Alternativas robustas a la I de Moran

19

I de Moran , una medida de la autocorrelación espacial, no es una estadística particularmente sólida (puede ser sensible a distribuciones sesgadas de los atributos de datos espaciales).

¿Cuáles son algunas de las técnicas robust más para medir la autocorrelación espacial? Estoy particularmente interesado en las soluciones que están fácilmente disponibles / implementables en un lenguaje de secuencias de comandos como R. Si las soluciones se aplican a circunstancias únicas / distribuciones de datos, especifique esas en su respuesta.

EDIT : estoy ampliando la pregunta con algunos ejemplos (en respuesta a los comentarios / respuestas a la pregunta original)

Se ha sugerido que las técnicas de permutación (donde se genera una distribución de muestreo I de Moran mediante un procedimiento de Monte Carlo) ofrecen una solución robusta. Entiendo que tal prueba elimina la necesidad de hacer suposiciones sobre la distribución I de Moran (dado que la estadística de prueba puede verse influenciada por la estructura espacial del conjunto de datos), pero no veo cómo la técnica de permutación corrige los datos de atributo distribuidos de forma no normal . Ofrezco dos ejemplos: uno que demuestra la influencia de los datos sesgados en la estadística I de Moran local, el otro en la I de Moran global, incluso bajo pruebas de permutación.

Usaré Zhang et al. 's (2008) analiza como primer ejemplo. En su artículo, muestran la influencia de la distribución de datos de atributos en el I de Moran local mediante el uso de pruebas de permutación (simulaciones de 9999). He reproducido los resultados del hotspot de los autores para las concentraciones de plomo (Pb) (a un nivel de confianza del 5%) utilizando los datos originales (panel izquierdo) y una transformación de registro de esos mismos datos (panel derecho) en GeoDa. También se presentan diagramas de caja de las concentraciones de Pb originales y transformadas logarítmicamente. Aquí, la cantidad de puntos calientes importantes casi se duplica cuando se transforman los datos; este ejemplo muestra que la estadística local es sensible a la distribución de datos de atributos, ¡incluso cuando se usan técnicas de Monte Carlo!

Elsegundoejemplo(datossimulados)demuestralainfluenciaquepuedentenerlosdatossesgadosenelIdeMoranglobal,inclusocuandoseusanpruebasdepermutación.Unejemplo,en R , a continuación:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Note la diferencia en los valores de p. Los datos sesgados indican que no hay agrupación en un nivel de significación del 5% (p = 0.167) mientras que los datos distribuidos normalmente indican que hay (p = 0.013).

Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Uso de I y GIS locales de Moran para identificar puntos de contaminación de Pb en suelos urbanos de Galway, Irlanda, Science of The Total Environment, Volumen 398, Problemas 1 –3, 15 de julio de 2008, páginas 212-221

    
pregunta MannyG 01.05.2012 - 16:01

1 respuesta

2

(Esto es demasiado difícil de manejar en este momento para convertirlo en un comentario)

Esto se refiere a las pruebas locales y globales (no es una medida independiente y específica de muestra de autocorrelación). Puedo apreciar que la I medida de Moran específica es una estimación sesgada de la correlación (interpretándola en los mismos términos que el coeficiente de correlación de Pearson), todavía no veo cómo la prueba de hipótesis de permutación es sensible a la distribución original de la variable (ya sea en términos de errores tipo 1 o tipo 2).

Adaptando ligeramente el código que proporcionó en el comentario (faltaba el peso espacial colqueen );

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Cuando uno realiza pruebas de permutación (en este caso, me gusta pensar que se trata de un espacio desordenado), la prueba de hipótesis de la autocorrelación espacial global no debería verse afectada por la distribución de la variable , ya que la distribución de prueba simulada cambiará en esencia con la distribución de las variables originales. Probablemente uno podría encontrar simulaciones más interesantes para demostrar esto, pero como puede ver en este ejemplo, las estadísticas de prueba observadas están bien fuera de la distribución generada tanto para el PLUMB original como para el registrado. PLUMB (que está mucho más cerca de una distribución normal). Aunque puede ver la distribución de la prueba PLUMB registrada bajo los cambios nulos más cercanos a la simetría alrededor de 0.

De todos modos, iba a sugerir esto como una alternativa, transformando la distribución en aproximadamente normal. También iba a sugerir buscar recursos para el filtrado espacial (y, de manera similar, las estadísticas locales y globales de Getis-Ord), aunque tampoco estoy seguro de que esto ayude con una medida de escala libre (pero tal vez sea fructífero para las pruebas de hipótesis) . Volveré a publicar más tarde con potencialmente más publicaciones de interés.

    
respondido por el Andy W 01.05.2012 - 22:30

Lea otras preguntas en las etiquetas