Segmentación post hoc. Árboles de decisión - Segmentación de Mercados - Libros y Revistas - VLEX 862817513

Segmentación post hoc. Árboles de decisión

AutorPablo Valderrey Sanz
Páginas61-93
ĂƉşƚƵůŽϯ
SEGMENTACIÓN POST HOC. ÁRBOLES
DE DECISIÓN
3.1 LOS ÁRBOLES DE DECISIÓN COMO TÉCNICA
DE SEGMENTACIÓN POST HOC
Los árboles de decisión constituyen métodos predictivos de segmentación y son
la herramienta más utilizada hoy en día para segmentar. Los árboles de decisión, también
llamados árboles de clasificación, presentan de hecho un aspecto similar a los
dendrogramas del análisis de conglomerados jerárquico, aunque se construyen e
interpretan de forma completamente distinta. Se trata de una serie de métodos muy
flexibles, que pueden manejar un gran número de variables y complicadas interacciones
entre ellas, y cuyos resultados resultan fácilmente interpretables para cualquier persona.
Los árboles de clasificación son particiones secuenciales del conjunto de datos realizadas
para maximizar las diferencias de la variable dependiente o criterio base (Hair; Anderson;
Tatham, y Black, 1999, pag. 718; Román y Lévy, 2003); conllevan, por tanto, la división
de las observaciones en grupos que difieren respecto a una variable de interés. Estos
métodos, se caracterizan además por desarrollar un proceso de división de forma
arborescente. Mediante diferentes índices y procedimientos estadísticos se determina la
división más discriminante de entre los criterios seleccionados; es decir, aquélla que
permite diferenciar mejor a los distintos grupos del criterio base, obteniéndose de este
modo la primera segmentación.
A continuación se realizan nuevas segmentaciones de cada uno de los
segmentos resultantes, y así sucesivamente hasta que el proceso finaliza con alguna
norma estadística preestablecida o interrumpido voluntariamente en cualquier momento
por el investigador. Además, los criterios descriptores no tienen por qué aparecer en el
mismo orden para todos los segmentos, y un criterio puede aparecer más de una vez
para un mismo segmento. Al final, enumerando los criterios mediante los que se ha
llegado a un segmento determinado se obtiene el perfil del mismo.
ϲϮdE/^^'DEd/MEDZK^ Ξ^dZKK
Por ejemplo, supongamos que deseamos conocer qué pasajeros del Titanic
tuvieron más probabilidades de sobrevivir a su hundimiento, y qué características
estuvieron asociadas a la supervivencia al naufragio. En este caso, la variable de interés
(VD) es el grado de supervivencia. Podríamos entonces dividir a los pasajeros en grupos
de edad, sexo y clase en la que viajaban, y observar la proporción de supervivientes de
cada grupo. Un procedimiento arborescente selecciona automáticamente los grupos
homogéneos con la mayor diferencia en proporción de supervivientes entre ellos; en este
caso, el sexo (hombres y mujeres). El siguiente paso es subdividir cada uno de los
grupos en función de otra característica, resultando que los hombres son divididos en
adultos y niños, mientras que las mujeres se dividen en grupos basados en la clase en la
que viajan en el barco. Utilizar diferentes predictores en cada nivel del proceso de
división, supone una forma sencilla y elegante de manejar interacciones que a menudo
complican en exceso los modelos lineales tradicionales. Cuando se ha completado el
proceso de subdivisión, el resultado es un conjunto de reglas que pueden visualizarse
fácilmente mediante un árbol. Por ejemplo: si un pasajero del Titanic es hombre y es
adulto, entonces tiene una probabilidad de sobrevivir del 20%. Además, la proporción de
supervivencia en cada una de las subdivisiones puede utilizarse con fines predictivos,
para vaticinar el grado de supervivencia de los miembros de ese grupo. Un árbol de
clasificación del grado de supervivencia de los pasajeros del Titanic podría ser el que se
observa en la figura siguiente.
La primera tarea que se suele abordar es el análisis exploratorio y gráfico de los datos. La
mayoría del software estadístico dispone de herramientas que aportan técnicas gráficas
preparadas para el examen de los datos, que se ven mejoradas con medidas estadísticas más
detalladas para su descripción. Estas técnicas permiten el examen de las características de la
distribución de las variables implicadas en el análisis, las relaciones bivariantes (y multivariantes)
entre ellas y el análisis de las diferencias entre grupos. Hay que tener presente que las
representaciones gráficas nunca sustituyen a las medidas de diagnóstico formal estadístico
(contrastes de ajuste de los datos a una distribución, contrastes de asimetría, contrastes de
aletoriedad, etc.), pero proporcionan una forma alternativa de desarrollar una perspectiva del
carácter de los datos y de las interrelaciones que existen, incluso si son multivariantes.
En cuanto a los datos atípicos, se trata de detectar la existencia de observaciones que no
siguen el mismo comportamiento que el resto. Los casos atípicos suelen deberse a errores en el
procedimiento a la hora de introducir los datos o de codificarlos. También pueden ser consecuencia
de acontecimientos anormales que hacen destacar determinadas observaciones. Una vez
detectados los casos atípicos, el analista debe saber elegir con criterio entre eliminarlos del análisis
o evaluar toda la información, incluyéndolos. Los valores atípicos también se denominarse outliers.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϲϯ
3.1.1 Características de los árboles de decisión
Las características más importantes en el trabajo con árboles de decisión son la
especificación de los criterios para minimizar los costes, la selección del método de división y
la elección de tramos de árbol adecuado o problema del sobreajuste.
En cuanto a la especificación de los criterios para minimizar los costes, el objetivo
de cualquier análisis arborescente es clasificar o predecir con el coste mínimo. El origen de
los costes suele ser la proporción de casos mal clasificados, aunque también suelen influir
siempre en los costes finales de clasificación las probabilidades a priori y los costes de
clasificar inadecuadamente.
Las probabilid ades a priori o ponderaciones de clase, especifican la probabilidad
de que un caso caiga en cada una de las clases de la variable dependiente, sin tener
ningún conocimiento previo de los valores de los predictores. Las probabilidades a priori
son parte fundamental de cualquier árbol de decisión y la mayoría del software actual
permite utilizar ponderaciones estimadas según las proporciones de cada clase, aunque no
siempre sea el camino óptimo. Así mismo, el software actual ofrece adicionalmente la
posibilidad de tratar las clases como si fueran del mismo tamaño, especificando
probabilidades iguales para cada clase.
Otro factor que influye en el coste de una clasificación son los costes de una
clasificación errónea. El investigador puede especificar también costes variables de una
clasificación errónea. Estos cost es suele n computarse c uando el árbol ya ha sido
desarrollado completamente y no tienen impacto sobre su estructura básica. Sólo algunos
programas, como el CART de Salford Systems, permiten utilizar también matrices activas
de costes, que permiten que el árbol de decisión se vaya adaptando en cada uno de los
nodos para evitar los mayores costes.
En cuanto a la selección del método de división, se trata de escoger el método con
el que seleccionar, en cada uno de los niveles del proceso de división, la mejor división
posible del mejor predictor. En la actualidad predominan fundamentalmente los enfoques
mediante métodos exhaustivos y métodos de tipo discriminante. En cuanto a los Métodos
exhaustivos, el más conocido y simple consiste en examinar todas las posibles divisiones de
los datos según cada predictor y seleccionar la di visión que produce clasificaciones más puras
(observando la mejoría en la bondad de ajuste mediante una serie de medidas como Gini,
entropía, χ2, twoing, symgini, twoing ordenado, desviación de mínimos cuadrados y
combinaciones lineales). Este método lo utilizan CART y CHAID exhaustivo. En cuanto a los
Métodos de tipo discriminante, se sigue un proceso distinto y computacionalmente más
sencillo. En vez de buscar a la vez la mejor variable y su mejor punto de división, se abordan
estos dos problemas por separado. En cada nodo, calculan primero un test χ2 (para cada
predictor categórico) o un ANOVA (para cada predictor métrico), seleccionándose de entre
todas las variables significativas, la que proporciona probabilidades asociadas menores. En
una segunda fase, se aplica un análisis discriminante sobre el predictor con el fin de encontrar
la mejor división posible de la variable. Estos procedimientos son utilizados en los árboles
QUEST.
En cuanto a la elección del tamaño adecuado o problema del sobreajuste,
tenemos que una característica de los árboles de clasificación es que si no se establece
ningún límite en el número de divisiones a ejecutar, se consigue siempre una clasificación
pura, en la que cada nodo contiene únicamente una sola clase de objetos.
ϲϰdE/^^'DEd/MEDZK^ Ξ^dZKK
Las clasificaciones puras presentan varios inconvenientes porque suelen ser poco
realistas, se corre el riesgo de encontrarnos con muy pocos elementos en cada clase y,
además, llegan a extraer toda la información de los datos, incluido el ruido relativo a la
muestra particular que estamos usando. Esta falta de generalización, de replicación a otras
muestras, se conoce como sobreajuste (o sobreaprendizaje en el marco de las redes
neuronales), y para combatirla se han planteado estrategias como las reglas de parada y la
poda.
En cuanto a las Reglas de parada, se trata de una estrategia consistente en detener la
generación de nuevas divisiones cuando éstas supongan una mejora muy pequeña de la
predicción. Entre las reglas de parada directa para detener automáticamente el proceso de
construcción del árbol, tenemos la extensión máxima del árbol o número de niveles máximos
permitidos por debajo del nodo raíz, el mínimo número de casos en un nodo que acota el
número de nodos, impidiendo que no sobrepasen un número determinado de casos y la mínima
fracción de objetos, mediante la cual los nodos no contendrán más casos que una fracción
determinada del tamaño de una o más clases. La regla de parada la establece a priori el propio
investigador, en función de investigaciones pasadas, análisis previos, o incluso en función de su
propia experiencia e intuición.
Para determinar si el tamaño de un árbol es el adecuado, se evalúa su calidad predictiva
en muestras distintas a las utilizadas para su cálculo, una vez detenido el proceso de división.
Como formas opcionales de llevar a cabo una validación cruzada tenemos la validación cruzada en
dos mitades, consistente en dividir los datos disponibles en dos partes (la muestra de estimación y
la muestra de validación), y desarrollar un árbol a partir de la muestra de estimación y utilizarlo para
predecir la clasificación de la muestra de validación. También tenemos la validación cruzada en v
partes, consistente en extraer aleatoriamente la muestra y v submuestras, y calcular v árboles de
clasificación dejando cada vez fuera una de las v submuestras para validar el análisis, de tal
manera que cada submuestra se utiliza v-1 veces para obtener el árbol y una sola vez para
validarlo. Por último, tenemos la validación cruzada global. Aquí, se replica el análisis completo un
número determinado de veces, apartando una fracción de los casos (casos holdout) para validar el
árbol seleccionado. Resulta muy útil en combinación con las técnicas automáticas de selección de
árboles, lo que enlaza con la segunda de las estrategias para evitar el sobreajuste, que es la poda.
En cuanto a la Poda, existe siempre el riesgo de no descubrir estructuras relevantes en
los datos debido a una finalización prematura del análisis. Por ello, se sugiere un enfoque
alternativo en dos fases. En una primera fase se desarrolla un enorme árbol que contenga
cientos o incluso miles de nodos. En una segunda fase, el árbol es podado, eliminándose las
ramas innecesarias hasta dar con el tamaño adecuado del árbol. Este proceso automático y
retrospectivo, que compara simultáneamente todos los posibles subárboles resultado de podar
en diferente grado el árbol original, no debe confundirse con la opción que ofrecen algunos
programas (particularmente los de tipo CHAID) de podar manualmente el árbol una vez que se
ha llegado a la solución final, opción esta que no elimina los problemas de utilizar reglas de
parada.
El primer y principal algoritmo de poda se debe precisamente a Breiman y consta de
dos pasos. En primer lugar se construye una secuencia de subárboles cada vez más pequeños,
todos ellos como resultado de podar cada vez más el árbol original. En segundo lugar, cada
subárbol de la secuencia es validado en una nueva muestra (mediante una validación cruzada
en v-partes), escogiéndose el que menores costes de validación cruzada presenta. Para calcular
los costes de validación se utiliza una función que penaliza la progresiva complejidad del árbol a
medida que éste va teniendo más ramas.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϲϱ
Esta función entra en funcionamiento cuando se alcanza un valor crítico que sobrepasa
los costes del proceso de división (cada vez menores). En ese momento, los costes dejan de
descender y comienzan a ascender ligeramente, y es alrededor de ese punto de inflexión donde
se localiza el tamaño idóneo del árbol. Como suele ser común que existan varios árboles con
costes de validación cruzada cerca del mínimo, Breiman sugiere utilizar la regla de seleccionar el
árbol de menor complejidad de entre todos los árboles que no superen el mínimo coste de
validación cruzada, más una medida de su error típico. Existen otros métodos de poda como la
desvianza-complejidad, el error reducido y la poda pesimista.
3.1.2 Herramientas para el trabajo con árboles
de decisión
Diversas empresas han desarrollado software específico de árboles de clasificación.
Una clasificación de algunos de los principales programas podría ser la siguiente:
Familia CART: CART, Tree(S), etc. Su finalidad es la predicción. Ejecuta únicamente
divisiones binarias, y recurre a la validación cruzada y a la poda para determinar el tamaño
correcto del árbol. La variable dependiente puede ser cuantitativa o nominal y las variables
predictoras pueden ser nominales, ordinales e incluso continuas.
Familia CLS: CLS, ID3, C4.5, C5.0, etc. Su finalidad es detectar relaciones estadísticas
complejas. El número de ramas que puede originar varía entre dos y el número de
categorías del predictor. Para determinar el tamaño del árbol utiliza el test de significación
estadística (con ajustes de multiplicidad en las últimas versiones). AID, MAID y XAID
trabajan con variables dependientes cuantitativas. RHAID, CHAID y TREEDISC con
nominales, aunque la versión del CHAID que distribuye SPSS puede manejar variables
dependientes cuantitativas (categorizándolas). FIRM viene con dos variantes algorítmicas
para poder trabajar con VD categóricas o continuas. Los predictores pueden ser nominales
u ordinales y normalmente admiten una categoría de valores perdidos o missing. Las
últimas versiones permiten trabajar también con predictores continuos.
Métodos de tipo discriminante: FACT y QUEST. Su finalidad es solucionar problemas de
los métodos exhaustivos. Persiguen eliminar el sesgo de selección de la variable que
presentan métodos como CART y que consiste en la tendencia a seleccionar, en primer
lugar, las variables con más categorías. FACT elimina este sesgo sólo cuando utiliza
variables dependientes ordinales. QUEST logra eliminar este sesgo, sea la VD nominal u
ordinal. En primer caso, diseñados para trabajar con variables dependientes categóricas
como continuas. FACT divide a la población en tantos grupos como categorías tiene la
variable seleccionada, mientras que QUEST realiza divisiones binarias adecuadas.
Combinaciones lineales: OC1, Árboles SE, etc. Su finalidad es detectar relaciones
lineales combinadas con el aprendizaje de conceptos. El número de ramas varía entre dos
y el número de categorías del predictor habitualmente.
Modelos híbridos: IND, Knowledge Seeker, etc. Su finalidad es combinar otros métodos.
IND combina el CART y C4.5, así como métodos bayesianos y de codificación mínima.
Knowledge Seeker combina CHAID y el ID3 con un ajuste de multiplicidad muy mejorado.
ϲϲdE/^^'DEd/MEDZK^ Ξ^dZKK
Pero tres de los procedimientos arborescentes que actualmente gozan de una
mayor aceptación tanto en los ámbitos teórico como aplicado son: los árboles CHAID (Kass,
1980), CART (Breiman et al., 1984) y QUEST (Loh y Shih, 1997).
3.1.3 Árboles CHAID
El método CHAID (Chi-square Automatic Interaction Detector) es la conclusión de
una serie de métodos basados en el detector Automático de Interacciones (AID) de Morgan
y Sonquist. Se trata de un método exploratorio de análisis de datos, útil para identificar
variables importantes, y sus interacciones enfocadas a la segmentación y a los análisis
descriptivos, que suelen ser pasos previos a otros análisis posteriores. La medida
dependiente puede ser cualitativa (nominal u ordinal) o cuantitativa. Para variables
cualitativas, el análisis lleva a cabo una serie de análisis χ2 entre las variables dependiente
y predictora. En el caso de variables dependientes cuantitativas, se recurre a métodos de
análisis de varianza, en los que los intervalos (divisiones) se determinan óptimamente para
las variables independientes, de forma que maximicen la capacidad para explicar la
varianza de la medida dependiente. Se divide cada nodo localizando el par de categorías
permisible del predictor con el menor valor de χ2. Si el nivel de significación es menor que un
cierto nivel crítico, se unen ambas categorías y se repite el proceso. Si es mayor, se
convierten en dos candidatas a la división de la variable. Este proceso continúa con cada par
de categorías, hasta que dejan de producirse uniones y posibles divisiones. La última
candidata a la división (que generalmente no suele coincidir con la división más significativa)
es la que se elige para dividir al predictor. El proces o se repite de forma recursiva en cada uno
de los nodos, hasta que se activa cualquiera de las reglas de parada del proceso. Este
método ahorra bastante tiempo de computación, pero no garantiza que sea capaz de encontrar
realmente la mejor división posible en cada modo.
Para garantizar el hallazgo de la división más significativa se utiliza el método CHAID
exhaustivo, que trata a todas las variables por igual, independientemente del tipo de variable y del
número de categorías. Por otro lado, este método permite trabajar con variables dependientes
categóricas y métricas. Las variables categóricas utilizan el estadístico χ2 y dan lugar a un árbol
de clasificación. Las variables métricas utilizan el estadístico F y dan lugar a lo que se conoce
como árboles de regresión. También permite utilizar predictores de tipo métrico, mediante su
conversión previa en variables categóricas. Los métodos CHAID producen divisiones de la
validación cruzada en más de dos grupos, lo cual siempre es un valor añadido.
3.1.4 Árboles CART
El método CART (Classification And Regression Trees) o C&RT es una alternativa al
CHAID exhaustivo para árboles de clasificación (variables dependientes categóricas). Este
método nació para intentar superar algunas de las deficiencias y debilidades que por entonces
mostraba la formulación original del CHAID, que estaba limitado inicialmente a variables
dependientes nominales y variables independientes categóricas hasta la aparición de su versión
exhaustiva. Estaba claro que se necesitaba utilizar predictores de cualquier nivel de medida.
Además, CART tiene una estructura estadística más fuerte que CHAID, lo que le llevó a ser
utilizado en campos de la investigación como la medicina, además de en el márketing. CART
se utiliza para árboles de clasificación con variable dependiente cualitativa y para árboles
de regresión con variable dependiente cuantitativa, y genera árboles binarios.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϲϳ
El método comienza dividiendo la muestra en subconjuntos y evaluando cada
predictor cuantitativo, para encontrar el mejor punto de corte o cada predictor categórico,
para encontrar las mejores agrupaciones de categorías. A continuación se comparan
también los predictores, seleccionándose el predictor y la división que produce la mayor
bondad de ajuste. Para predictores cuantitativos suele utilizarse la minimización del error
cuadrático o de la desviación media absoluta respecto de la mediana. Para predictores
cualitativos suele utilizarse el coeficiente Gini para evaluar la probabilidad de una mala
clasificación (valor cero para clasificación perfecta y valor uno para una mala clasificación).
No debemos de olvidar que los métodos CH AID producen divisiones de la validación
cruzada en más de dos grupos, mientras que el método CART sólo produce divisiones binarias.
3.1.5 Árboles QUEST
Los árboles QUEST (Quick, Unbiased, Efficient, Statistical Tree) consisten en un
algoritmo de clasificación arborescente creado específicamente para solventar dos de los
principales problemas que presentan métodos como CART y CHAID exhaustivo, a la hora de
dividir un grupo de sujetos en función de una variable independiente. Este tipo de árboles
mitigan la complejidad computacional (enfoque de cálculo más sencillo) y los sesgos en la
selección de variables. Se trata de evitar que se seleccionen aquellas variables que cuentan
con un mayor número de categorías.
QUEST intenta seleccionar el mejor predictor y su mejor punto de corte como
tareas separadas, calculando en cada nodo la asociación entre cada predictor y la variable
dependiente mediante el estadístico F del ANOVA o la F de Levene para predictores
continuos y ordinales o mediante una χ2 de Pearson para predictores nominales. Se
consiguen divisiones binarias de la variable dependiente mediante la creación de dos
superclases en el predictor, aplicando un algoritmo conglomerativo. Por último, para
eliminar el sesgo en la selección de variables, se elige el predictor que tiene la mayor
asociación con la variable dependiente. Posteriormente, para hallar el mejor punto de corte
se recurre a un análisis discriminante cuadrático, repitiéndose el proceso recursivamente
hasta que lo permitan las reglas de parada establecidas en el algoritmo. De esta forma, se
eliminan sesgos de respuesta y se simplifica el cálculo.
En cuanto a la valoración de los métodos de construcción de árboles, podría
establecerse un orden de jerarquía (nunca absoluto) que sitúe el método QUEST como
superior a CART y este último método superior a CHAID. No olvidemos que QUEST admite
métodos de validación mediante poda y permite utilizar combinaciones lineales de
variables. Pero debe quedar claro que esta evaluación sólo es válida en líneas generales.
3.2 ÁRBOLES DE DECISIÓN CON SPSS
El procedimiento Árbol de clasificación crea un modelo de clasificación basado en
árboles, y clasifica casos en grupos o pronostica valores de una variable (criterio)
dependiente basada en valores de variables independientes (predictores). El procedimiento
proporciona herramientas de validación para análisis de clasificación exploratorios y
confirmatorios, y puede utilizarse en múltiples técnicas que se describen a continuación:
ϲϴdE/^^'DEd/MEDZK^ Ξ^dZKK
Segmentación. Identifica individuos que pueden ser miembros de un grupo específico.
Estratificación. Asigna los casos a una categoría de entre varias, por ejemplo, grupos de
alto riesgo, bajo riesgo y riesgo intermedio.
Predicción. Crea reglas y las utiliza para predecir eventos futuros, como la verosimilitud de
que una persona cause mora en un crédito o el valor de reventa potencial de un vehículo o
una casa.
Reducción de datos y clasificación de variables. Selecciona un subconjunto útil de
predictores a partir de un gran conjunto de variables para utilizarlo en la creación de un
modelo paramétrico formal.
Identificación de interacción. Identifica las relaciones que pertenecen sólo a subgrupos
específicos y las especifica en un modelo paramétrico formal.
Fusión de categorías y discretización de variables contínuas. Recodifica las categorías
de grupo de los predictores y las variables continuas, con una pérdida mínima de
información.
Como ejemplo podemos considerar un banco que desea categorizar a los
solicitantes de créditos, en función de si representan o no un riesgo crediticio razonable.
Basándose en varios factores, incluyendo las valoraciones del crédito conocidas de clientes
anteriores, se puede generar un modelo para pronosticar si es probable que los clientes
futuros causen mora en sus créditos.
Un análisis basado en árboles permite identificar grupos homogéneos con alto o
bajo riesgo y facilita la construcción de reglas para realizar pronósticos sobre casos
individuales. En cuanto a los datos, las variables dependientes e independientes pueden
ser nominales, ordinales y de escala. Una variable puede ser tratada como nominal cuando
sus valores representan categorías que no obedecen a una ordenación intrínseca. Por
ejemplo, el departamento de la compañía en el que trabaja un empleado.
Son ejemplos de variables nominales: la región, el código postal o la confesión
religiosa. Una variable puede ser tratada como ordinal cuando sus valores representan
categorías con alguna ordenación intrínseca. Por ejemplo, los niveles de satisfacción con
un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de
variables ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o
confianza y las puntuaciones de evaluación de la preferencia. Una variable puede ser
tratada como de escala cuando sus valores representan categorías ordenadas con una
métrica con significado, por lo que son adecuadas las comparaciones de distancia entre
valores. Son ejemplos de variables de escala: la edad en años y los ingresos en dólares.
Los datos también pueden llevar asociadas ponderaciones de frecuencia Si se
encuentra activada la ponderación, las ponderaciones fraccionarias se redondearán al
número entero más cercano; de esta manera, a los casos con un valor de ponderación
menor que 0,5 se les asignará una ponderación de 0 y, por consiguiente, se verán e xcluidos
del a náli sis. En cuanto a supuestos, este procedimiento supone que se ha asignado el nivel de
medida adecuado a todas las variables del análisis; además, algunas funciones suponen que todos
los valores de la variable dependiente, incluidos en el análisis, tienen etiquetas de valor definidas.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϲϵ
El nivel de medida afecta a los cálculos del árbol; por tanto, todas las variables
deben tener asignado el nivel de medida adecuado. Por defecto, SPSS supone que las
variables numéricas son de escala y que las variables de cadena son nominales, lo cual
podría no reflejar con exactitud el verdadero nivel de medida. Un icono situado junto a cada
variable de la lista de variables identifica el tipo de variable, según se indica en la Figura 3-1.
Puede cambiar de forma temporal el nivel de medida de una variable; para ello, pulse con el
botón derecho del ratón en la variable, en la lista de variables de origen y seleccione un nivel
de medida del menú contextual. La interfaz del cuadro de diálogo para este procedimiento
supone que o todos los valores no perdidos de una variable dependiente categórica (nominal,
ordinal) tienen etiquetas de valor definidas o ninguno de ellos las tiene. Algunas funciones no
estarán disponibles, a menos que haya como mínimo dos valores no perdidos de la variable
dependiente categórica que tengan etiquetas de valor. Si al menos dos valores no perdidos
tienen etiquetas de valor definidas, todos los demás casos con otros valores que no tengan
etiquetas de valor se excluirán del análisis.
Figura 3-1
3.2.1 Creación de un árbol de decisión: método CHAID
Para crear un árbol de decisión, después de cargar el conjunto de datos (tree_credit.sav)
elija en los menús Analizar
Clasificar
Árbol (Figura 3-2). En la pantalla de entrada
seleccionamos una variable dependiente y una o más variables independientes y como método de
crecimiento elegimos CHAID (define el método de construcción del árbol) tal y como se indica en la
Figura 3-3. Se puede hacer clic en el botón Categorías para seleccionar una o más categorías de
interés fundamental en el análisis. Por ejemplo, en nuestro análisis conocer los clientes que no
devuelven el crédito, por eso elegimos Malo como categoría objetivo (Figura 3-4) y hacemos clic en
Continuar.
Figura 3-2
ϳϬdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 3-3 Figura 3-4
También se puede seleccionar una Variable de influencia que defina cuánta influencia
tiene un caso en el proceso de crecimiento de un árbol. Los casos con valores de influencia
inferiores tendrán menos influencia, mientras que los casos con valores superiores tendrán más.
Los valores de la variable de influencia deben ser valores positivos. Si se marca la casilla
Primera variable forzosa, se fuerza a que la primera variable en la lista de variables
independientes en el modelo sea la primera variable de división.
En el botón Resultados de la figura 3-3 se selecciona la forma de representación
del árbol (Figura 3-5), los estadísticos a obtener (Figura 3-6), los gráficos (Figura 3-7) y las
reglas (Figura 3-8). Se pulsa Continuar.
Figura 3-5 Figura 3-6
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϭ
Figura 3-7 Figura 3-8
En el botón Validación de la Figura 3-3 se valida el árbol (Figura 3-9). La validación
permite evaluar la bondad de la estructura de árbol cuando se generaliza para una mayor
población. Hay dos métodos de validación disponibles: validación cruzada y validación por
división muestral. La validación cruzada divide la muestra en un número de submuestras. A
continuación, se generan los modelos de árbol, que no incluyen los datos de cada submuestra. El
primer árbol se basa en todos los casos, excepto los correspondientes al primer pliegue de la
muestra; el segundo árbol se basa en todos los casos, excepto los del segundo pliegue de la
muestra y así sucesivamente. Para cada árbol se calcula el riesgo de clasificación errónea,
aplicando el árbol a la submuestra que se excluyó al generarse éste. Se puede especificar un
máximo de 25 pliegues de la muestra. Cuanto mayor sea el valor, menor será el número de casos
excluidos de cada modelo de árbol. La validación cruzada genera un modelo de árbol único y
final. La estimación de riesgo mediante validación cruzada para el árbol final se calcula como
promedio de los riesgos de todos los árboles.
Con la validación por división muestral, el modelo se genera utilizando una muestra
de entrenamiento y después pone a prueba ese modelo con una muestra de reserva. Puede
especificar un tamaño de la muestra de entrenamiento, expresado como un porcentaje del
tamaño muestral total, o una variable que divida la muestra en muestras de entrenamiento y
de comprobación. Si utiliza una variable para definir las muestras de entrenamiento y de
comprobación, los casos con un valor igual a 1 para la variable se asignarán a la muestra de
entrenamiento y todos los demás casos se asignarán a la muestra de comprobación. Dicha
variable no puede ser ni la variable dependiente, ni la de ponderación, ni la de influencia ni
una variable independiente forzada. Los resultados se pueden mostrar tanto para la muestra
de entrenamiento como para la de comprobación, o sólo para esta última. La validación por
división muestral se debe utilizar con precaución en archivos de datos pequeños (archivos de
datos con un número pequeño de casos). Si se utilizan muestras de entrenamiento de
pequeño tamaño, pueden generarse modelos que no sean significativos, ya que es posible
que no haya suficientes casos en algunas categorías para lograr un adecuado crecimiento del
árbol.
ϳϮdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 3-9 Figura 3-10
En el botón Criterios de la Figura 3-3 se personalizan los criterios de crecimiento
del árbol. La pestaña Límites de crecimiento (Figura 3-11) permite limitar el número de
niveles del árbol y controlar el número de casos mínimo para nodos parentales y filiales. El
campo Máxima profundidad de árbol controla el número máximo de niveles de crecimiento
por debajo del nodo raíz. El ajuste Automática limita el árbol a tres niveles por debajo del
nodo raíz para los métodos CHAID y CHAID exhaustivo, y a cinco niveles para los métodos
CRT y QUEST. El campo Número de casos mínimo controla el número de casos mínimo
para los nodos. Los nodos que no cumplen estos criterios no se dividen. El aumento de los
valores mínimos tiende a generar árboles con menos nodos. La disminución de dichos
valores mínimos generará árboles con más nodos. Para archivos de datos con un número
pequeño de casos, es posible que, en ocasiones, los valores por defecto de 100 casos para
nodos parentales y de 50 casos para nodos filiales den como resultado árboles sin ningún
nodo por debajo del nodo raíz; en este caso, la disminución de los valores mínimos podría
generar resultados más útiles.
En la pestaña CHAID (Figura 3-12) se puede controlar para los métodos CHAID y
CHAID efectivo el Nivel de significación para la división de nodos y la fusión de categorías,
El Estadístico Chi-cuadrado a utilizar (Pearson para cálculos rápidos y muestras grandes o
Razón de verosimilitud si se quiere robustez o se trabaja con muestra pequeñas), en el
método de Estimación del modelo (para variables dependientes ordinales y nominales se
puede especificar el Número máximo de iteraciones, el Cambio mínimo en las frecuencias
esperadas de las casillas), Corregir los valores de significación mediante el método de
Bonferroni (para comparaciones múltiples, los valores de significación para los criterios de
división y fusión se corrigen utilizando el método de Bonferroni que es el método por
defecto), y Permitir nueva división de las categorías fusionadas dentro de un nodo para que
el procedimiento intente la fusión de las categorías de variables (predictoras)
independientes entre sí para generar el árbol más simple posible.
En la pestaña Intervalos (Figura 3-13) se fijan intervalos de escala para el análisis
CHAID. En el análisis CHAID, las variables (predictoras) independientes de escala siempre
se categorizan en grupos discretos (por ejemplo, 0–10, 11–20, 21–30, etc.) antes del
análisis.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϯ
Figura 3-11 Figura 3-12
Se puede controlar el número inicial/máximo de grupos (aunque el procedimiento
puede fundir grupos contiguos después de la división inicial) mediante Número fijo (todas
las variables independientes de escala se categorizan inicialmente en el mismo número de
grupos y el valor por defecto es 10) y Personalizado (todas las variables independientes de
escala se categorizan inicialmente en el número de grupos especificado para esta variable).
En el botón Guardar de la Figura 3-3 se definen las rúbricas a guardar en archivo
(Figura 3-13). El botón Opciones de la Figura 3-13 permite fijar opciones para tratamiento
de valores perdidos (Figura 3-14), definir costes de clasificación errónea (Figura 3-15) y
beneficios por cada categoría (Figura 3-16). Al hacer clic en Aceptar en la Figura 3-3, se
crea el árbol (Figura 3-17).
Figura 3-13 Figura 3-14
Figura 3-15 Figura 3-16
ϳϰdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 3-17
Lo primero que observamos en el árbol es que el 41,4% de los clientes presentará
crédito fallido y el 58,6% presentará devolución de crédito en tiempo y forma. A continuación
se observa que el nivel de ingresos es el mejor predictor de la tasa de riesgo crediticio, ya que
representa el primer nivel de ramificación en el árbol. Para e l nodo 1 (nivel de ingresos bajo) el
82,1% de los clientes presentan crédito fallido y el 17,9% devuelven el crédito en tiempo y
forma. Para el nodo 2 (nivel de ingresos medio) el 42% de los clientes presentan crédito fallido
y el 58% devuelven el crédito en tiempo y forma. Para el nodo 3 (nivel de ingresos alto) el
11,6% de los clientes presentan crédito fallido y el 88,4% devuelven el crédito en tiempo y
forma.
El siguiente predictor en calidad de la tasa de riesgo crediticio es el número de tarjetas
de crédito. Para clientes con nivel de ingresos bajo, los que tengan un número menor de tarjetas
de crédito (nodo 4) un 90,1% presentan crédito fallido y un 9,9% devuelven el crédito en tiempo
y forma, sin embargo entre los que poseen un número mayor de tarjetas (nodo 5), un 38,4%
presentan crédito fallido y un 61,6% devuelven el crédito en tiempo y forma. De igual manera se
analizan los restantes nodos.
3.2.2 Métodos CRT y QUEST. Poda de árboles
Entre los métodos de crecimiento para la creación de árboles de decisión tenemos
los métodos CRT y QUEST con las características siguientes:
CRT. Árboles de clasificación y regresión (Classification and Regression Trees). Se trata de
un método que divide los datos en segmentos para que sean lo más homogéneos que sea
posible respecto a la variable dependiente. Un nodo terminal en el que todos los casos
toman el mismo valor en la variable dependiente es un nodo homogéneo y "puro".
QUEST. Árbol estadístico rápido, insesgado y eficiente (Quick, Unbiased, Efficient
Statistical Tree). Se trata de un método que es rápido y que evita el sesgo que presentan
otros métodos al favorecer los predictores con muchas categorías. Sólo puede
especificarse QUEST si la variable dependiente es nominal.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϱ
En la tabla siguiente se comparan las características de estos dos métodos y del
método CHAID.
CHAID* CRT QUEST
Basado en Chi-cuadrado** X
Variables (predictoras) independientes sustitutas X X
Poda de árboles X X
División de nodos multinivel X
División de nodos binarios X X
Variables de influencia X X
Probabilidades previas X X
Costes de clasificación errónea X X X
Cálculo rápido X X
El método de crecimiento CRT (Figura 3-18) procura maximizar la homogeneidad
interna de los nodos. El grado en el que un nodo no representa un subconjunto homogéneo
de casos es una indicación de impureza. Por ejemplo, un nodo terminal en el que todos los
casos tienen el mismo valor para la variable dependiente es un nodo homogéneo que no
requiere ninguna división más, ya que es "puro". Puede seleccionar el método utilizado para
medir la impureza, así como la reducción mínima de la impureza necesaria para divid ir nodos.
En cuanto a Medida de la impureza, para variables dependientes de escala, se
utilizará la medida de impureza de desviación cuadrática mínima (LSD). Este valor se calcula
como la varianza dentro del nodo, corregida para todas las ponderaciones de frecuencia o
valores de influencia.
Para variables dependientes categóricas (nominales, ordinales), puede seleccionar
la medida de la impureza Gini (se obtienen divisiones que maximizan la homogeneidad de los
nodos filiales con respecto al valor de la variable dependiente y se basa en el cuadrado de las
probabilidades de pertenencia de cada categoría de la variable dependiente), Binaria (las
categorías de la variable dependiente se agrupan en dos subclases y se obtienen las
divisiones que mejor separan los dos grupos) y Binaria ordi nal (similar a la regla binaria, con la
única diferencia de que sólo se pueden agrupar las categorías adyacentes). Esta medida sólo
se encuentra disponible para variables dependientes ordinales. En cuanto a Cambio mínimo
en la mejora, se trata de situar la reducción mínima de la impureza necesaria para dividir un
nodo. El valor por defecto es 0,0001. Los valores superiores tienden a generar árboles con
menos nodos.
Puede evitarse el sobreajuste del modelo mediante la poda del árbol para los
métodos CRT y QUEST. El árbol crece hasta que se cumplen los criterios de parada y, a
continuación, se recorta de forma automática hasta obtener el subárbol más pequeño basado
en la máxima diferencia en el riesgo especificada (Figura 3-19). El valor del riesgo se expresa
en errores típicos. El valor por defecto es 1. El valor debe ser no negativo. Para obtener el
subárbol con el mínimo riesgo, especifique 0.
Para el método QUEST, puede especificar el nivel de significación para la división de
nodos (Figura 3-20). No se puede utilizar una variable independiente para dividir nodos a menos
que el nivel de significación sea menor o igual que el valor especificado. El valor debe ser mayor
que 0 y menor que 1. El valor por defecto es 0,05. Los valores más pequeños tenderán a excluir
más variables independientes del modelo final.
ϳϲdE/^^'DEd/MEDZK^ Ξ^dZKK
.
Figura 3-18 Figura 3-19
Figura 3-20
Partiendo del archivo Tree_car.sav que contiene datos sobre coches, vamos a
construir ahora un árbol de decisión en el que el precio del vehículo dependerá de la edad en
años, sexo, categoría de ingresos, nivel de estudios y estado civil del cliente. Para ello
rellenamos la pantalla de entrada del procedimiento Árbol como se indica en la Figura 3-21.
Se observa que se va a utilizar el método de crecimiento CRT. Al pulsar Aceptar con las
opciones por defecto, se obtiene un árbol muy complicado con demasiadas ramificaciones y
difícil de interpretar (Figura 3-23). Para solucionar este problema se hace clic en el botón
Criterios y se selecciona la pestaña Poda del árbol con las opciones por defecto (Figura
3-22). Se hace clic en Continuar y Aceptar y se obtiene el árbol ya podado que es más fácil de
interpretar (Figura 3-24).
Figura 3-21 Figura 3-22
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϳ
Figura 3-23
Figura 3-24
ϳϴdE/^^'DEd/MEDZK^ Ξ^dZKK
3.3 ÁRBOLES DE DECISIÓN CON ENTERPRISE
MINER. NODO TREE
El nodo Tree de Enterprise Miner permite implementar distintos algoritmos para la
generación de reglas lógicas de decisión, elaboradas a partir de la información contenida en
los datos. Su uso requiere una base de datos en la cual debemos especificar una única
respuesta, que puede ser nominal, binaria, ordinal o continua, y al menos un input o
variable s expl icativa. El nodo Tree se encuentra situado en SAS Enterprise Miner en la
categoría Model (Figura 3-25)
Figura 3-25
Como ejemplo, vamos a utilizar los datos del archivo CREDITOS para establecer
las reglas lógicas que van a permitir ayudar a tomar la decisión sobre cuándo decidir
asignar o no un crédito. Una vez importado el fichero, asignaremos a la variable Cliente el
papel ID en el modelo mientras que la variable CREDIT_V será la variable objetivo (Target)
y el resto de variables serán inputs.
Una vez que disponemos ya de nuestros datos de trabajo en formato SAS (archivo
creditos.sas7bdat) en una determinada librería (librer ía Trabajo que representa el subdirectorio
c:\libros\miningt), abrimos el proyecto P1 (File Open) y mediante File
New
Diagram
creamos el diagrama D13. A continuación, situamos en el diagrama el nodo Input Data Source
al que se le asigna el conjunto de datos creditos.sas7bdat de la librería TRABAJO. A
continuación uniremos el nodo de datos con el de partición (Data Partition) y asignaremos de
manera aleatoria un 80% de los datos a entrenamiento, un 10% a validación y un 10% a test.
Una vez realizada esta tarea, conectaremos el nodo de partición de datos con un nodo de
árboles de decisión (Tree) según se indica en la Figura 3-26. Para asignar a la variable
CLIENTE el tipo id, a la variable CREDIT_V el tipo Target y al resto de variables el tipo input,
hacemos doble clic sobre el nodo Input Data Source y elegimos la pestaña Variables. A
continuación se hace clic con el botón derecho del ratón sobre cada variable a situar de tipo
input, se elige Set Model Role y a continuación Input. Se repite el proceso con la variables de
tipo id y Tarjet (Figura 3-27).
Para asignar de manera aleatoria un 80% de los datos a entrenamiento, un 10% a
validación y un 10% a test hacemos doble clic sobre el nodo Data Partition y rellenamos la
pestaña Variables como se indica en la Figura 3-28.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϵ
Figura 3-26
Figura 3-27
Figura 3-28
Para fijar las especificaciones del árbol abrimos el nodo Tree haciendo doble clic
sobre él en el diagrama. Se obtiene la pantalla de entrada del nodo en cuya pestaña
Variables se presentan las variables que intervienen en el árbol y sus propiedades (véase
Figura 3-29).
ϴϬdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 3-29
En la pestaña Advanced especificaremos como medida para la valoración del
modelo, el porcentaje de casos correctamente clasificados. Además definiremos como
número de observaciones suficientes para buscar una variable de división 25 (Figura 3-30).
Figura 3-30
En la ventana de opciones avanzadas obtenida con la pestaña Advanced (Figura
3-30). En la ventana de opciones avanzadas se pueden especificar las siguientes variables:
Model Assessment Measure: selecciona el mejor árbol a partir de los resultados en la muestra
de validación. La lista de medidas de valoración depende de cómo el output esté medido y de si
existe o no una matriz de costes o beneficios para el objetivo.
Para variables continuas se puede elegir entre varias medidas, dependiendo de si
existe o no una matriz de beneficios. Si no existe matriz de beneficios tendremos:
Average Square Error: medida por defecto.
Average in the top 10, 25 or 50%.
Si existe matriz de beneficios o pérdidas tendremos:
Average Square Error.
Average profit/loss.
Average profit¨/loss in the top 10, 25 or 50%.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϭ
Para objetivos categóricos podemos elegir de entre las siguientes medidas:
Si no existe matriz de pérdidas o beneficios definida:
Proportion correctly classified: proporción de casos clasificados correctamente.
Ordinal proportion correctly classified.
Proportion of event in top 10, 25 or 50%
Total leaf Impurity (Fini index).
Si existe una matriz de pérdidas o beneficios entonces las medidas de valoración serán:
Proportion correctly classified.
Average profit/loss.
Average profit/loss in top 10, 25 or 50%.
Total leaf impurity (Gini index).
Specify the subtree method: esta opción especifica cómo seleccionar un subárbol dentro del
árbol principal. Si un árbol tiende a tener demasiadas ramas y demasiada profundidad, tenderá
también a ajustar el ruido y generará, de forma pobre, nuevos datos que le sean presentados.
Cada nodo puede ser evaluado de las siguientes formas:
Best assessment value: el subárbol más pequeño con la mejor valoración es
el elegido por defecto.
The most leaves: selecciona el árbol entero. Esta opción es apropiada
cuando el árbol se construye de forma interactiva o cuando se definen otras
opciones para parar las divisiones del árbol.
At most indicated number of leaves: selecciona el subárbol que tenga como
mucho n hojas. Este número debe ser definido en el cuadrado
correspondiente que se activará al elegir esta opción (Figura 3-31).
Figura 3-31
Split search criteria: esta opción establece un límite superior en el número de
observaciones de la muestra para realizar una partición. El algoritmo para la creación de un
árbol de decisión busca reglas de partición en ramas que maximicen el criterio asignado.
Encontrar la partición óptima supone a menudo evaluar cada posible división de cada
variable y a veces, el número de posibles divisiones puede llegar a ser excesivamente
grande.
Maximum tries in an exhaustive split search: si el número de posibles divisiones es
elevado, esta opción utiliza un algoritmo de búsqueda (stepwise, hill-climbing) con un
número de intentos predeterminado.
P-value adjustment: esta opción se activa cuando se eligen como criterio de valoración los
valores de los estadísticos Chi-cuadrado o F.
ϴϮdE/^^'DEd/MEDZK^ Ξ^dZKK
Kass: la búsqueda de la partición óptima requiere el cálculo de distintas tablas de
contingencia. Si usamos la tabla original sin cambios en las categorías, el test χ2 puede ser
usado. Este test asume que sólo existe una población de la que extraemos una única
muestra y calculamos un único test. Sin embargo, realizar el test de forma repetida viola
este supuesto. Ello aumenta la posibilidad de encontrar alguna relación simplemente por el
hecho de incrementar el número de veces en la búsqueda, lo que puede llevar a encontrar
relaciones espurias o a magnificar las relaciones encontradas. Es por ello que el p-valor es
corregido de la forma descrita en la descripción realizada de los árboles de decisión.
Para implementar el algoritmo, el primer paso es crear regresores ordinales en lugar de
continuos, dividiendo la función de distribución de las variables explicativas continuas en un
número de categorías que contenga aproximadamente el mismo número de observaciones.
Para las variables categóricas, las categorías permanecen ya definidas. Esta sería la opción
Apply Kass before choosing number of branches.
Sin embargo, esta opción puede rebajar más la significación de una partición que
un método alternativo denominado ajuste de Gabriel que se aplica si se selecciona Apply
Kass alter choosing number of branches.
Depth: esta opción realiza un ajuste de Bonferroni, teniendo en cuenta el número de hojas para
corregir el número de rechazos falsos que tenderá a crecer con el número de hojas.
Effective number of inputs: ajusta los p-valores a partir del número efectivo de inputs.
Cuantos más inputs, más probable será que un input espurio gane al input o inputs
verdaderamente predictivos. Cuantos más inputs incorrelacionados haya, más alto será el
riesgo. El ajuste por inputs multiplica el p-valor por el número declarado de inputs que son
aquéllos que tienen el estatus de use en la ventana de variables.
Si ahora en la pantalla Tree node de especificaciones del árbol elegimos la
pestaña Score, podemos indicar que se guarde la respuesta para los datos de
entrenamiento, validación y test (Figura 3-32).
Figura 3-32
Se observa que la pestaña Score dispone de dos subventanas:
Data: sirve para seleccionar los datos para valorar (Score) cuando el nodo de árboles de
decisión sea ejecutado (Figura 3-32). Por defecto ni los datos de entrenamiento, ni de validación
ni de test son usados para valorar. Para que sean usados con este fin es necesario activar el
cuadrado de Training, Validation and Test. En esta ventana también se pueden ver los detalles
acerca de los datos de entrenamiento, validación y test seleccionando la opción Properties.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϯ
Variables: en esta ventana (Figura 3-33) se seleccionan aquellas variables que deseamos
estén disponibles para futuros análisis en otros nodos.
Figura 3-33
Se pueden seleccionar las siguientes variables:
Input variable selection: preselecciona las variables predictoras importantes, reduciendo
de esta forma la dimensionalidad de los datos. Cuando se ejecuta el nodo de árboles de
decisión asignará el estatus de input a aquellas variables con un nivel de confianza mayor
del 95% asignando el estatus de rechazada al resto. Esto permitirá incluir estas variables en
un nodo posterior como por ejemplo de redes neuronales.
New variables related to score:
Dummy variables: crea una variable dummy para cada hoja del árbol. Si cada
observación está asignada a una hoja específica entonces tendrá asociado un
valor de 1 para esa hoja y de cero para el resto.
Leaf identification variable: esta variable contiene una identificación
numérica de la hoja en la cual la observación es asignada. Puede ser usada
para procesar grupos en un nodo de procesado de grupos o realizar
regresiones para cada uno de los grupos encontrados.
Prediction variables: variables de predicción que pueden ser usadas en
análisis sucesivos.
Una vez establecidas todas las opciones de entrenamiento el nodo puede ser
ejecutado de cuatro formas:
Si el nodo está cerrado:
Seleccionar el nodo con el botón derecho y seleccionar Run.
Seleccionar Actions Run.
Si el nodo está abierto:
Seleccionar Tools Train Model
ϴϰdE/^^'DEd/MEDZK^ Ξ^dZKK
Seleccionar el icono para ejecutar el árbol.
Como veremos posteriormente, el entrenamiento del árbol también puede ser
ejecutado de forma interactiva.
Una vez definidas estas opciones, y previa asignación de un nombre para el modelo
(Figura 3-34), ejecutaremos el nodo haciendo clic sobre él en el diagrama con el botón derecho
del ratón y eligiendo la opción Run del menú emergente resultante (Figura 3-35). Finalizada la
ejecución, el sistema pregunta si queremos ver lo resultados (Figura 3-36). Al aceptar se abre el
visor de resultados cuya pestaña All (Figura 3-37) muestra a la vez cuatro pestañas.
En la parte superior izquierda, la pestaña Summary muestra las estadísticas de ajuste
del modelo, tanto para los datos de entrenamiento como de validación. En la parte superior
derecha, la pestaña Ring muestra la proporción de casos que se encuentra en cada uno de los
nodos en cada uno de los niveles o anillos del árbol. Seleccionando en la barra de herramientas
el icono View Information About Point podemos ver la regla que define el nodo (Figura 3-38).
En la parte inferior izquierda, la pestaña Table muestra la proporción de casos correctamente
clasificados, tanto de entrenamiento como de validación, según el número de hojas de cada
árbol. En la parte inferior derecha, la pestaña Plot realiza una representación gráfica del
resultado anterior. En un árbol de decisión interesa elegir el punto que presenta un mayor
número de casos bien clasificados en la muestra de validación. En este caso, nos quedaríamos
con el árbol de 5 hojas porque la línea blanca vertical está en el 5. Puede cambiarse de punto
haciendo clic en el diamante de la figura.
Figura 3-34
Figura 3-35
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϱ
Figura 3-36
Figura 3-37
Figura 3-38 Figura 3-39
Dentro de la ventana del gráfico del anillo del árbol Tree Ring, si pulsamos con el
botón derecho del ratón sobre el gráfico (Figura 3-39) podemos seleccionar las siguientes
opciones:
Probe: muestra cierta información resumen en un cuadro de texto al
seleccionar un nodo o simplemente moviendo el cursor por encima del gráfico
(Figura 3-38).
ϴϲdE/^^'DEd/MEDZK^ Ξ^dZKK
Pick: selecciona y destaca un nodo sobre los demás (Figura 3-38). Una vez
seleccionado haremos clic en Node Definition para evaluar la regla lógica que
define sus propiedades.
Redraw tree: vuelve a dibujar el diagrama del árbol de decisión clásico a partir
del nodo seleccionado. Esta opción es especialmente útil para visualizar
detalles del árbol, ya que normalmente el número de ramas, nodos y la
profundidad del árbol harán que sea imposible su visualización completa en
una sola ventana. Para imprimir el árbol entero, en ocasiones, será necesario
guardar la imagen y posteriormente modificarla en otro programa que permita
su manipulación.
Define Colors: elige los colores deseados según preferencias para resaltar
determinados resultados (Figura 3-40).
Figura 3-40
Node definition: muestra la definición del nodo (regla lógica en lengua
inglesa) para el nodo seleccionado.
Para visualizar el árbol seleccionamos View Tree (Figura 3-41). La columna del medio
muestra los porcentajes y valores numéricos de los datos de entrenamiento, mientras que a la
derecha se muestran los datos de validación (Figura 3-42).
Figura 3-41
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϳ
Figura 3-42
Un diagrama de árbol de decisión contiene las siguientes características:
Nodo Raíz: es el nodo que contiene todas las observaciones justo antes de la
primera división. En este caso se muestra cómo de los 258 clientes, 121
devolvieron el crédito (46,9%) mientras que 137 resultaron impagados (53,1%).
Ramas: una vez seleccionada la variable que mejor discrimina, los datos son
partidos en dos o más ramas de acuerdo con los valores de la variable. En el
caso anterior, la variable que más discrimina es si el cliente percibe su
remuneración de forma mensual (2) o semanal (1).
Nodos: contienen los datos divididos procedentes de otras ramas y nodos.
Nodos hoja: son los nodos terminales y contienen la clasificación general del árbol
una vez cumplidas todas las reglas lógicas definidas por los nodos anteriores.
3.3.1 Entrenamiento interactivo (Interactive Training)
El nodo de árbol de decisión es capaz de ofrecer un resultado automático, como el
visto hasta ahora, pero también podemos llevar a cabo el análisis de forma interactiva. Si
elegimos esta opción, (seleccionar el nodo de árbol de decisión con el botón derecho del
ratón y seleccionar Interactive Training), el nodo automáticamente genera el mejor árbol a
partir de los criterios predefinidos.
Esta opción proporciona una serie de ventajas sobre la opción automática:
ϴϴdE/^^'DEd/MEDZK^ Ξ^dZKK
Permite forzar la entrada en el modelo de una determinada variable.
Permite forzar la partición de una variable de una forma determinada.
Permite podar un árbol previamente construido.
Esta elección puede estar justificada por un conocimiento previo del problema, que
nos asegure que ciertas variables son relevantes, porque determinados puntos de corte de
una variable tengan un sentido matemático o económico mayor que otros puntos, etc. La
ventana del entrenamiento interactivo se abre en la subventana All mostrando el esquema
de la Figura 3-43.
Figura 3-43
La ventana muestra un gráfico de anillo del árbol vacío, un diagrama de densidad de
la variable respuesta (o de porcentaje en el caso de variables categóricas o binarias). Este
último gráfico puede ser examinado en la ventana Plot 2.
El entrenamiento interactivo tiene su propia barra de herramientas que se pueden
usar para construir el árbol (Figura 3-44).
Figura 3-44
Creación de reglas
El botón Create rule de la barra de herramientas fuerza a una variable a entrar
en el árbol y permite modificar los puntos de corte. También se puede acceder a esta
opción pinchando con el botón derecho del ratón el gráfico de anillos del árbol y
seleccionando Create rule. Se obtiene la Figura 3-45. En primer lugar, seleccionaremos la
variable cuya entrada queremos forzar, teniendo en cuenta que las variables que mejor
discriminan son aquéllas con un Logworth más elevado. Una vez seleccionada la variable,
haremos clic en Modify Rule. En la nueva ventana podremos añadir rangos o modificar el
valor de los rangos ya existentes (Figura 3-46).
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϵ
Figura 3-45 Figura 3-46
Una vez ejecutada una división mediante una nueva variable podemos hacer
alguna de las siguientes opciones.
Probar el nuevo anillo del árbol
Para ello en el menú principal seleccionaremos View Probe Tree Ring Splits o
View Probe Tree Ring Statistics. También podemos hacer clic en la barra de
herramientas en el botón Show Info About Points y movernos a lo largo del anillo,
donde se irán mostrando las estadísticas de cada nodo.
Ver el árbol tras la división
Para ello seleccionaremos View Tree. Se obtiene el árbol (Figura 3-47).
Figura 3-47
De esta forma iremos construyendo el árbol.
Cambiar la división actual
Una vez efectuada la partición de los datos, podemos querer cambiar este criterio
o añadir nuevas ramas a la partición. Para ello acudiremos a la pestaña Main Plot y sobre el
gráfico usaremos el menú contextual que proporciona el botón derecho del ratón, que nos
permite elegir las opciones de la Figura 3-48.
ϵϬdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 3-48
Move reference line: permite mover la línea que define la partición a una
nueva posición. Para ello seleccionaremos la línea con el botón izquierdo del
ratón y la arrastraremos hasta la nueva posición.
Add reference line: añade una nueva rama o partición a los datos.
Delete reference line: borra la línea de referencia. Para ello, una vez elegida
la opción, pulsaremos en el punto donde la línea de referencia se cruza con la
línea del objetivo.
Show clic information: despliega un cuadro de texto que informa del valor de
la variable a partir, el valor de la densidad del objetivo y el valor objetivo para
cada punto de la línea de densidad.
Viewport: permite activar un zoom para ver con detalle determinadas zonas
del gráfico. Para ello, una vez seleccionada la opción, con el ratón
seleccionaremos el área que queremos ampliar para ver con detalle.
Reset viewport: permite regresar al gráfico original.
Assign missing value: permite asignar un valor perdido a una de las ramas a
nuestra elección.
Para elegir otra variable divisora seleccionaremos el nodo que queramos dividir y
seleccionaremos de nuevo crear regla, repitiendo el proceso.
Entrenar el resto del árbol una vez generadas o forzadas las reglas y
condiciones deseadas.
Para terminar de construir el árbol de forma autotica, haremos clic en el icono
de entrenamiento automático de la barra de herramientas .
Alternativamente seleccionaremos el árbol con el botón derecho del ratón,
eligiendo la opción Train. El nuevo árbol será generado manteniendo inalteradas las
opciones que fueron definidas por el analista.
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϵϭ
Podar el árbol
Una de las numerosas ventajas del entrenamiento interactivo es que permite la
poda del árbol, esto es, la eliminación de reglas irrelevantes para los objetivos del análisis.
Para ello, una vez seleccionado el nodo, por debajo del cual se desea podar,
seleccionamos la opción podar de la barra de herramientas .
Alternativamente seleccionaremos el árbol con el botón derecho del ratón eligiendo
la opción Prune.
Guardar el árbol creado
Después de completar el árbol, éste puede ser guardado como input para un
entrenamiento o construcción posterior o como modelo final. Para ello seleccionaremos File
Close y elegiremos una de las dos opciones (Figura 3-49).
Figura 3-49
3.4 ÁRBOLES DE DECISIÓN CON SPSS CLEMENTINE
Dentro de la paleta Modelado, Clementine dispone de los nodos Crear C5.0 y Árbol
C&R cuya finalidad es la realización de árboles de decisión y que se muestran en las
Figuras 3-50 y 3-51.
Figura 3-50 Figura 3-51
Crear C5.0: permite construir árboles de decisión y conjunto de reglas utilizando
el algoritmo C5.0.
Árboles de clasificación y regresión (Árbol C&R): permite construir árboles
de decisión para clasificación y regresión con la finalidad de predecir.
3.4.1 El nodo Crear C5.0
El nodo Crear C5.0 de la paleta Modelado (Figura 3-53) se utiliza para construir árboles
de decisión y conjunto de reglas utilizando el algoritmo C5.0.
ϵϮdE/^^'DEd/MEDZK^ Ξ^dZKK
Como ejemplo, vamos a utilizar los datos del archivo creditos1.txt para establecer las
reglas lógicas que van a permitir ayudar a tomar la decisión sobre cuándo decidir asignar o no
un crédito. Una vez situado el fichero ASCII, rellenando la pantalla de Archivo variable como se
indica en la Figura 3-52, asignaremos a la variable CREDIT_V el papel de variable objetivo
(SALIDA) y el resto de variables serán inputs (ENTRADA) excepto cliente que no se utilizará. Al
ejecutar el nodo Tabla añadido al origen de datos, se obtiene la información de la Figura 3-53.
La información del nodo Tipo al asignar las propiedades de las variables se observa en la Figura
3-54. Al añadir al diagrama el nodo Crear C5.0, asignarles las características de la Figura 3-55 y
ejecutarlo, tenemos el diagrama de la Figura 3-56. Al utilizar Examinar se obtiene el árbol de la
Figura 3-57 con sus reglas de decisión especificadas.
Figura 3-52
Figura 3-53 Figura 3-54
.
Figura 3-55 Figura 3-56
Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϵϯ
Figura 3-57 Figura 3-58
3.4.2 El nodo Árbol C&R
El nodo Árbol C&R de la paleta Modelado (Figura 3-61) se utiliza para construir
árboles de decisión para clasificación y regresión con la finalidad de predecir. Como ejemplo,
vamos a utilizar los datos del archivo creditos1.txt par a establecer las reglas lógicas que van a
permitir ayudar a tomar la decisión sobre cuándo decidir asignar o no un crédito. El camino a
seguir es el del ejemplo anterior. Ahora la pantalla para s ituar características del árbol es la de
la Figura 3-59. Una vez añadido el nodo Árbol C&R y ejecutado el aspecto del diagrama, se
muestra en la Figura 3-60. Al utilizar Examinar se obtiene el árbol de la Figura 3-58 con sus
reglas de decisión.
Figura 3-59 Figura 3-60

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR