Es una técnica aparecida con el objetivo de mejorar los resultados de segmentación obtenidos mediante AID. CHAID requiere una variable dependiente categórica y varias variables independientes o predictoras que, combinadas, permiten identificar segmentos. Está limitado a variables nominales y ordinales y no hace suposición de normalidad. Respecto al AID presenta las siguientes mejoras:
Une aquellas categorías de un predictor más homogéneas con respecto a la variable dependiente, pero mantiene todas las categorías que sean heterogéneas. En suma, combina categorías que no difieren mucho entre ellas.
Como varias categorías pueden diferir estadísticamente, el resultado del proceso de CHAID no necesariamente será una división dicotómica.
Para dividir un grupo solamente se elegirán variables que sean estadísticamente significativas.
Utiliza el test de independencia de la ji cuadrado.
El proceso a seguir al desarrollar la técnica es:
Determinación de la variable a explicar y de las variables predictoras
Desarrollo de las tabulaciones cruzadas entre las variables predictoras y la dependiente
Calculo de las chi cuadrado para cada tabla formada por cada par de categorías sisceptibles de unión y la variable dependiente
Entre los pares que resultan más significativos estadísticamente se unen en una sola categoría. Cuando se unen más de tres categorías se asegura la pertinencia estadística de tal fusión mediante un proceso de redefinición. Entre los pares significativos, la unión se realiza para las categorías más parecidas y con pocas observaciones
Obtención del valor p ajustado: la variable predictora que tenga menor este valor es la que se utiliza para dividir. Si el valor p no fuese significativo, no ser procede a la división
El proceso se repite hasta analizar todos los subgrupos o hasta que se consiguen grupos demasiado reducidos
Toda la información obtenida de tal proceso nos permite disponer de:
Los segmentos identificados y sus características
La secuencia de partición con los predictores que intervienen en cada paso
Agrupaciones entre categorías o entre variables. Sucede que cuando hay varios predictores que están correlacionados, al introducir uno de ellos es posible que no proceda considerar otro porque no añada información dado el grado de correlación existente. Esto no implica que este predictor carezca de valor predictivo, sino que tal valor predictivo ya ha sido considerado con la variable introducida.
Indormación sobre las interacciones entre variables: si cada variable predictora interviene en un nivel de partición se tiene un modelo aditivo; en caso de que no ocurra así se produce interacción entre variables.
Puntos fuertes del análisis CHAID:
Las variables utilizadas requieren solamente una escala nominal
El resultado de la partición no tiene necesariamente que ser binario
Corrige el sesgo consistente en que las variables con más categorías, por esta única razón, sean las seleccionadas para la partición
Contempla la posibilidad de que sea el investigador quien vaya introduciendo las variables predictoras para realizar la partición aunque no sean las más significativas. En ocasiones el interés de la investigación puede justificar este proceder
Puntos débiles:
La solución finalmente conseguida forzosamente no tiene que ser la óptima, debido a las restricciones del proceso de partición
Al utilizar chi cuadrado está sometido a requerimientos de esta prueba, como por ejemplo la necesidad de que encada casilla no haya menos de cinco observaciones
Requiere conjuntos de datos con un cierto volumen; como orientación se requieren al menos 1000 casos
Suscribirse a:
Enviar comentarios (Atom)
No hay comentarios:
Publicar un comentario