I de Moran , una medida de la autocorrelación espacial, no es una estadística particularmente sólida (puede ser sensible a distribuciones sesgadas de los atributos de datos espaciales).
¿Cuáles son algunas de las técnicas robust más para medir la autocorrelación espacial? Estoy particularmente interesado en las soluciones que están fácilmente disponibles / implementables en un lenguaje de secuencias de comandos como R. Si las soluciones se aplican a circunstancias únicas / distribuciones de datos, especifique esas en su respuesta.
EDIT : estoy ampliando la pregunta con algunos ejemplos (en respuesta a los comentarios / respuestas a la pregunta original)
Se ha sugerido que las técnicas de permutación (donde se genera una distribución de muestreo I de Moran mediante un procedimiento de Monte Carlo) ofrecen una solución robusta. Entiendo que tal prueba elimina la necesidad de hacer suposiciones sobre la distribución I de Moran (dado que la estadística de prueba puede verse influenciada por la estructura espacial del conjunto de datos), pero no veo cómo la técnica de permutación corrige los datos de atributo distribuidos de forma no normal . Ofrezco dos ejemplos: uno que demuestra la influencia de los datos sesgados en la estadística I de Moran local, el otro en la I de Moran global, incluso bajo pruebas de permutación.
Usaré Zhang et al. 's (2008) analiza como primer ejemplo. En su artículo, muestran la influencia de la distribución de datos de atributos en el I de Moran local mediante el uso de pruebas de permutación (simulaciones de 9999). He reproducido los resultados del hotspot de los autores para las concentraciones de plomo (Pb) (a un nivel de confianza del 5%) utilizando los datos originales (panel izquierdo) y una transformación de registro de esos mismos datos (panel derecho) en GeoDa. También se presentan diagramas de caja de las concentraciones de Pb originales y transformadas logarítmicamente. Aquí, la cantidad de puntos calientes importantes casi se duplica cuando se transforman los datos; este ejemplo muestra que la estadística local es sensible a la distribución de datos de atributos, ¡incluso cuando se usan técnicas de Monte Carlo!
Elsegundoejemplo(datossimulados)demuestralainfluenciaquepuedentenerlosdatossesgadosenelIdeMoranglobal,inclusocuandoseusanpruebasdepermutación.Unejemplo,en
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Note la diferencia en los valores de p. Los datos sesgados indican que no hay agrupación en un nivel de significación del 5% (p = 0.167) mientras que los datos distribuidos normalmente indican que hay (p = 0.013).
Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Uso de I y GIS locales de Moran para identificar puntos de contaminación de Pb en suelos urbanos de Galway, Irlanda, Science of The Total Environment, Volumen 398, Problemas 1 –3, 15 de julio de 2008, páginas 212-221