viernes, 26 de diciembre de 2008

CHAID (Chi-Squared Automatic Interaction Detection)

Es una técnica aparecida con el objetivo de mejorar los resultados de segmentación obtenidos mediante AID. CHAID requiere una variable dependiente categórica y varias variables independientes o predictoras que, combinadas, permiten identificar segmentos. Está limitado a variables nominales y ordinales y no hace suposición de normalidad. Respecto al AID presenta las siguientes mejoras:

 Une aquellas categorías de un predictor más homogéneas con respecto a la variable dependiente, pero mantiene todas las categorías que sean heterogéneas. En suma, combina categorías que no difieren mucho entre ellas.
 Como varias categorías pueden diferir estadísticamente, el resultado del proceso de CHAID no necesariamente será una división dicotómica.
 Para dividir un grupo solamente se elegirán variables que sean estadísticamente significativas.
 Utiliza el test de independencia de la ji cuadrado.

El proceso a seguir al desarrollar la técnica es:

 Determinación de la variable a explicar y de las variables predictoras
 Desarrollo de las tabulaciones cruzadas entre las variables predictoras y la dependiente
 Calculo de las chi cuadrado para cada tabla formada por cada par de categorías sisceptibles de unión y la variable dependiente
 Entre los pares que resultan más significativos estadísticamente se unen en una sola categoría. Cuando se unen más de tres categorías se asegura la pertinencia estadística de tal fusión mediante un proceso de redefinición. Entre los pares significativos, la unión se realiza para las categorías más parecidas y con pocas observaciones
 Obtención del valor p ajustado: la variable predictora que tenga menor este valor es la que se utiliza para dividir. Si el valor p no fuese significativo, no ser procede a la división
 El proceso se repite hasta analizar todos los subgrupos o hasta que se consiguen grupos demasiado reducidos

Toda la información obtenida de tal proceso nos permite disponer de:

 Los segmentos identificados y sus características
 La secuencia de partición con los predictores que intervienen en cada paso
 Agrupaciones entre categorías o entre variables. Sucede que cuando hay varios predictores que están correlacionados, al introducir uno de ellos es posible que no proceda considerar otro porque no añada información dado el grado de correlación existente. Esto no implica que este predictor carezca de valor predictivo, sino que tal valor predictivo ya ha sido considerado con la variable introducida.
 Indormación sobre las interacciones entre variables: si cada variable predictora interviene en un nivel de partición se tiene un modelo aditivo; en caso de que no ocurra así se produce interacción entre variables.

Puntos fuertes del análisis CHAID:

 Las variables utilizadas requieren solamente una escala nominal
 El resultado de la partición no tiene necesariamente que ser binario
 Corrige el sesgo consistente en que las variables con más categorías, por esta única razón, sean las seleccionadas para la partición
 Contempla la posibilidad de que sea el investigador quien vaya introduciendo las variables predictoras para realizar la partición aunque no sean las más significativas. En ocasiones el interés de la investigación puede justificar este proceder

Puntos débiles:

 La solución finalmente conseguida forzosamente no tiene que ser la óptima, debido a las restricciones del proceso de partición
 Al utilizar chi cuadrado está sometido a requerimientos de esta prueba, como por ejemplo la necesidad de que encada casilla no haya menos de cinco observaciones
 Requiere conjuntos de datos con un cierto volumen; como orientación se requieren al menos 1000 casos

No hay comentarios: