Segmentación post hoc. Árboles de decisión

Document

Citado por

Autor	Pablo Valderrey Sanz
Páginas	61-93

ĂƉşƚƵůŽϯ

SEGMENTACIÓN POST HOC. ÁRBOLES

DE DECISIÓN

3.1 LOS ÁRBOLES DE DECISIÓN COMO TÉCNICA

DE SEGMENTACIÓN POST HOC

Los árboles de decisión constituyen métodos predictivos de segmentación y son

la herramienta más utilizada hoy en día para segmentar. Los árboles de decisión, también

llamados árboles de clasificación, presentan de hecho un aspecto similar a los

dendrogramas del análisis de conglomerados jerárquico, aunque se construyen e

interpretan de forma completamente distinta. Se trata de una serie de métodos muy

flexibles, que pueden manejar un gran número de variables y complicadas interacciones

entre ellas, y cuyos resultados resultan fácilmente interpretables para cualquier persona.

Los árboles de clasificación son particiones secuenciales del conjunto de datos realizadas

para maximizar las diferencias de la variable dependiente o criterio base (Hair; Anderson;

Tatham, y Black, 1999, pag. 718; Román y Lévy, 2003); conllevan, por tanto, la división

de las observaciones en grupos que difieren respecto a una variable de interés. Estos

métodos, se caracterizan además por desarrollar un proceso de división de forma

arborescente. Mediante diferentes índices y procedimientos estadísticos se determina la

división más discriminante de entre los criterios seleccionados; es decir, aquélla que

permite diferenciar mejor a los distintos grupos del criterio base, obteniéndose de este

modo la primera segmentación.

A continuación se realizan nuevas segmentaciones de cada uno de los

segmentos resultantes, y así sucesivamente hasta que el proceso finaliza con alguna

norma estadística preestablecida o interrumpido voluntariamente en cualquier momento

por el investigador. Además, los criterios descriptores no tienen por qué aparecer en el

mismo orden para todos los segmentos, y un criterio puede aparecer más de una vez

para un mismo segmento. Al final, enumerando los criterios mediante los que se ha

llegado a un segmento determinado se obtiene el perfil del mismo.

ϲϮdE/^^'DEd/MEDZK^ Ξ^dZKK

Por ejemplo, supongamos que deseamos conocer qué pasajeros del Titanic

tuvieron más probabilidades de sobrevivir a su hundimiento, y qué características

estuvieron asociadas a la supervivencia al naufragio. En este caso, la variable de interés

(VD) es el grado de supervivencia. Podríamos entonces dividir a los pasajeros en grupos

de edad, sexo y clase en la que viajaban, y observar la proporción de supervivientes de

cada grupo. Un procedimiento arborescente selecciona automáticamente los grupos

homogéneos con la mayor diferencia en proporción de supervivientes entre ellos; en este

caso, el sexo (hombres y mujeres). El siguiente paso es subdividir cada uno de los

grupos en función de otra característica, resultando que los hombres son divididos en

adultos y niños, mientras que las mujeres se dividen en grupos basados en la clase en la

que viajan en el barco. Utilizar diferentes predictores en cada nivel del proceso de

división, supone una forma sencilla y elegante de manejar interacciones que a menudo

complican en exceso los modelos lineales tradicionales. Cuando se ha completado el

proceso de subdivisión, el resultado es un conjunto de reglas que pueden visualizarse

fácilmente mediante un árbol. Por ejemplo: si un pasajero del Titanic es hombre y es

adulto, entonces tiene una probabilidad de sobrevivir del 20%. Además, la proporción de

supervivencia en cada una de las subdivisiones puede utilizarse con fines predictivos,

para vaticinar el grado de supervivencia de los miembros de ese grupo. Un árbol de

clasificación del grado de supervivencia de los pasajeros del Titanic podría ser el que se

observa en la figura siguiente.

La primera tarea que se suele abordar es el análisis exploratorio y gráfico de los datos. La

mayoría del software estadístico dispone de herramientas que aportan técnicas gráficas

preparadas para el examen de los datos, que se ven mejoradas con medidas estadísticas más

detalladas para su descripción. Estas técnicas permiten el examen de las características de la

distribución de las variables implicadas en el análisis, las relaciones bivariantes (y multivariantes)

entre ellas y el análisis de las diferencias entre grupos. Hay que tener presente que las

representaciones gráficas nunca sustituyen a las medidas de diagnóstico formal estadístico

(contrastes de ajuste de los datos a una distribución, contrastes de asimetría, contrastes de

aletoriedad, etc.), pero proporcionan una forma alternativa de desarrollar una perspectiva del

carácter de los datos y de las interrelaciones que existen, incluso si son multivariantes.

En cuanto a los datos atípicos, se trata de detectar la existencia de observaciones que no

siguen el mismo comportamiento que el resto. Los casos atípicos suelen deberse a errores en el

procedimiento a la hora de introducir los datos o de codificarlos. También pueden ser consecuencia

de acontecimientos anormales que hacen destacar determinadas observaciones. Una vez

detectados los casos atípicos, el analista debe saber elegir con criterio entre eliminarlos del análisis

o evaluar toda la información, incluyéndolos. Los valores atípicos también se denominarse outliers.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϲϯ

3.1.1 Características de los árboles de decisión

Las características más importantes en el trabajo con árboles de decisión son la

especificación de los criterios para minimizar los costes, la selección del método de división y

la elección de tramos de árbol adecuado o problema del sobreajuste.

En cuanto a la especificación de los criterios para minimizar los costes, el objetivo

de cualquier análisis arborescente es clasificar o predecir con el coste mínimo. El origen de

los costes suele ser la proporción de casos mal clasificados, aunque también suelen influir

siempre en los costes finales de clasificación las probabilidades a priori y los costes de

clasificar inadecuadamente.

Las probabilid ades a priori o ponderaciones de clase, especifican la probabilidad

de que un caso caiga en cada una de las clases de la variable dependiente, sin tener

ningún conocimiento previo de los valores de los predictores. Las probabilidades a priori

son parte fundamental de cualquier árbol de decisión y la mayoría del software actual

permite utilizar ponderaciones estimadas según las proporciones de cada clase, aunque no

siempre sea el camino óptimo. Así mismo, el software actual ofrece adicionalmente la

posibilidad de tratar las clases como si fueran del mismo tamaño, especificando

probabilidades iguales para cada clase.

Otro factor que influye en el coste de una clasificación son los costes de una

clasificación errónea. El investigador puede especificar también costes variables de una

clasificación errónea. Estos cost es suele n computarse c uando el árbol ya ha sido

desarrollado completamente y no tienen impacto sobre su estructura básica. Sólo algunos

programas, como el CART de Salford Systems, permiten utilizar también matrices activas

de costes, que permiten que el árbol de decisión se vaya adaptando en cada uno de los

nodos para evitar los mayores costes.

En cuanto a la selección del método de división, se trata de escoger el método con

el que seleccionar, en cada uno de los niveles del proceso de división, la mejor división

posible del mejor predictor. En la actualidad predominan fundamentalmente los enfoques

mediante métodos exhaustivos y métodos de tipo discriminante. En cuanto a los Métodos

exhaustivos, el más conocido y simple consiste en examinar todas las posibles divisiones de

los datos según cada predictor y seleccionar la di visión que produce clasificaciones más puras

(observando la mejoría en la bondad de ajuste mediante una serie de medidas como Gini,

entropía, χ2, twoing, symgini, twoing ordenado, desviación de mínimos cuadrados y

combinaciones lineales). Este método lo utilizan CART y CHAID exhaustivo. En cuanto a los

Métodos de tipo discriminante, se sigue un proceso distinto y computacionalmente más

sencillo. En vez de buscar a la vez la mejor variable y su mejor punto de división, se abordan

estos dos problemas por separado. En cada nodo, calculan primero un test χ2 (para cada

predictor categórico) o un ANOVA (para cada predictor métrico), seleccionándose de entre

todas las variables significativas, la que proporciona probabilidades asociadas menores. En

una segunda fase, se aplica un análisis discriminante sobre el predictor con el fin de encontrar

la mejor división posible de la variable. Estos procedimientos son utilizados en los árboles

QUEST.

En cuanto a la elección del tamaño adecuado o problema del sobreajuste,

tenemos que una característica de los árboles de clasificación es que si no se establece

ningún límite en el número de divisiones a ejecutar, se consigue siempre una clasificación

pura, en la que cada nodo contiene únicamente una sola clase de objetos.

ϲϰdE/^^'DEd/MEDZK^ Ξ^dZKK

Las clasificaciones puras presentan varios inconvenientes porque suelen ser poco

realistas, se corre el riesgo de encontrarnos con muy pocos elementos en cada clase y,

además, llegan a extraer toda la información de los datos, incluido el ruido relativo a la

muestra particular que estamos usando. Esta falta de generalización, de replicación a otras

muestras, se conoce como sobreajuste (o sobreaprendizaje en el marco de las redes

neuronales), y para combatirla se han planteado estrategias como las reglas de parada y la

poda.

En cuanto a las Reglas de parada, se trata de una estrategia consistente en detener la

generación de nuevas divisiones cuando éstas supongan una mejora muy pequeña de la

predicción. Entre las reglas de parada directa para detener automáticamente el proceso de

construcción del árbol, tenemos la extensión máxima del árbol o número de niveles máximos

permitidos por debajo del nodo raíz, el mínimo número de casos en un nodo que acota el

número de nodos, impidiendo que no sobrepasen un número determinado de casos y la mínima

fracción de objetos, mediante la cual los nodos no contendrán más casos que una fracción

determinada del tamaño de una o más clases. La regla de parada la establece a priori el propio

investigador, en función de investigaciones pasadas, análisis previos, o incluso en función de su

propia experiencia e intuición.

Para determinar si el tamaño de un árbol es el adecuado, se evalúa su calidad predictiva

en muestras distintas a las utilizadas para su cálculo, una vez detenido el proceso de división.

Como formas opcionales de llevar a cabo una validación cruzada tenemos la validación cruzada en

dos mitades, consistente en dividir los datos disponibles en dos partes (la muestra de estimación y

la muestra de validación), y desarrollar un árbol a partir de la muestra de estimación y utilizarlo para

predecir la clasificación de la muestra de validación. También tenemos la validación cruzada en v

partes, consistente en extraer aleatoriamente la muestra y v submuestras, y calcular v árboles de

clasificación dejando cada vez fuera una de las v submuestras para validar el análisis, de tal

manera que cada submuestra se utiliza v-1 veces para obtener el árbol y una sola vez para

validarlo. Por último, tenemos la validación cruzada global. Aquí, se replica el análisis completo un

número determinado de veces, apartando una fracción de los casos (casos holdout) para validar el

árbol seleccionado. Resulta muy útil en combinación con las técnicas automáticas de selección de

árboles, lo que enlaza con la segunda de las estrategias para evitar el sobreajuste, que es la poda.

En cuanto a la Poda, existe siempre el riesgo de no descubrir estructuras relevantes en

los datos debido a una finalización prematura del análisis. Por ello, se sugiere un enfoque

alternativo en dos fases. En una primera fase se desarrolla un enorme árbol que contenga

cientos o incluso miles de nodos. En una segunda fase, el árbol es podado, eliminándose las

ramas innecesarias hasta dar con el tamaño adecuado del árbol. Este proceso automático y

retrospectivo, que compara simultáneamente todos los posibles subárboles resultado de podar

en diferente grado el árbol original, no debe confundirse con la opción que ofrecen algunos

programas (particularmente los de tipo CHAID) de podar manualmente el árbol una vez que se

ha llegado a la solución final, opción esta que no elimina los problemas de utilizar reglas de

parada.

El primer y principal algoritmo de poda se debe precisamente a Breiman y consta de

dos pasos. En primer lugar se construye una secuencia de subárboles cada vez más pequeños,

todos ellos como resultado de podar cada vez más el árbol original. En segundo lugar, cada

subárbol de la secuencia es validado en una nueva muestra (mediante una validación cruzada

en v-partes), escogiéndose el que menores costes de validación cruzada presenta. Para calcular

los costes de validación se utiliza una función que penaliza la progresiva complejidad del árbol a

medida que éste va teniendo más ramas.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϲϱ

Esta función entra en funcionamiento cuando se alcanza un valor crítico que sobrepasa

los costes del proceso de división (cada vez menores). En ese momento, los costes dejan de

descender y comienzan a ascender ligeramente, y es alrededor de ese punto de inflexión donde

se localiza el tamaño idóneo del árbol. Como suele ser común que existan varios árboles con

costes de validación cruzada cerca del mínimo, Breiman sugiere utilizar la regla de seleccionar el

árbol de menor complejidad de entre todos los árboles que no superen el mínimo coste de

validación cruzada, más una medida de su error típico. Existen otros métodos de poda como la

desvianza-complejidad, el error reducido y la poda pesimista.

3.1.2 Herramientas para el trabajo con árboles

de decisión

Diversas empresas han desarrollado software específico de árboles de clasificación.

Una clasificación de algunos de los principales programas podría ser la siguiente:

Familia CART: CART, Tree(S), etc. Su finalidad es la predicción. Ejecuta únicamente

divisiones binarias, y recurre a la validación cruzada y a la poda para determinar el tamaño

correcto del árbol. La variable dependiente puede ser cuantitativa o nominal y las variables

predictoras pueden ser nominales, ordinales e incluso continuas.

Familia CLS: CLS, ID3, C4.5, C5.0, etc. Su finalidad es detectar relaciones estadísticas

complejas. El número de ramas que puede originar varía entre dos y el número de

categorías del predictor. Para determinar el tamaño del árbol utiliza el test de significación

estadística (con ajustes de multiplicidad en las últimas versiones). AID, MAID y XAID

trabajan con variables dependientes cuantitativas. RHAID, CHAID y TREEDISC con

nominales, aunque la versión del CHAID que distribuye SPSS puede manejar variables

dependientes cuantitativas (categorizándolas). FIRM viene con dos variantes algorítmicas

para poder trabajar con VD categóricas o continuas. Los predictores pueden ser nominales

u ordinales y normalmente admiten una categoría de valores perdidos o missing. Las

últimas versiones permiten trabajar también con predictores continuos.

Métodos de tipo discriminante: FACT y QUEST. Su finalidad es solucionar problemas de

los métodos exhaustivos. Persiguen eliminar el sesgo de selección de la variable que

presentan métodos como CART y que consiste en la tendencia a seleccionar, en primer

lugar, las variables con más categorías. FACT elimina este sesgo sólo cuando utiliza

variables dependientes ordinales. QUEST logra eliminar este sesgo, sea la VD nominal u

ordinal. En primer caso, diseñados para trabajar con variables dependientes categóricas

como continuas. FACT divide a la población en tantos grupos como categorías tiene la

variable seleccionada, mientras que QUEST realiza divisiones binarias adecuadas.

Combinaciones lineales: OC1, Árboles SE, etc. Su finalidad es detectar relaciones

lineales combinadas con el aprendizaje de conceptos. El número de ramas varía entre dos

y el número de categorías del predictor habitualmente.

Modelos híbridos: IND, Knowledge Seeker, etc. Su finalidad es combinar otros métodos.

IND combina el CART y C4.5, así como métodos bayesianos y de codificación mínima.

Knowledge Seeker combina CHAID y el ID3 con un ajuste de multiplicidad muy mejorado.

ϲϲdE/^^'DEd/MEDZK^ Ξ^dZKK

Pero tres de los procedimientos arborescentes que actualmente gozan de una

mayor aceptación tanto en los ámbitos teórico como aplicado son: los árboles CHAID (Kass,

1980), CART (Breiman et al., 1984) y QUEST (Loh y Shih, 1997).

3.1.3 Árboles CHAID

El método CHAID (Chi-square Automatic Interaction Detector) es la conclusión de

una serie de métodos basados en el detector Automático de Interacciones (AID) de Morgan

y Sonquist. Se trata de un método exploratorio de análisis de datos, útil para identificar

variables importantes, y sus interacciones enfocadas a la segmentación y a los análisis

descriptivos, que suelen ser pasos previos a otros análisis posteriores. La medida

dependiente puede ser cualitativa (nominal u ordinal) o cuantitativa. Para variables

cualitativas, el análisis lleva a cabo una serie de análisis χ2 entre las variables dependiente

y predictora. En el caso de variables dependientes cuantitativas, se recurre a métodos de

análisis de varianza, en los que los intervalos (divisiones) se determinan óptimamente para

las variables independientes, de forma que maximicen la capacidad para explicar la

varianza de la medida dependiente. Se divide cada nodo localizando el par de categorías

permisible del predictor con el menor valor de χ2. Si el nivel de significación es menor que un

cierto nivel crítico, se unen ambas categorías y se repite el proceso. Si es mayor, se

convierten en dos candidatas a la división de la variable. Este proceso continúa con cada par

de categorías, hasta que dejan de producirse uniones y posibles divisiones. La última

candidata a la división (que generalmente no suele coincidir con la división más significativa)

es la que se elige para dividir al predictor. El proces o se repite de forma recursiva en cada uno

de los nodos, hasta que se activa cualquiera de las reglas de parada del proceso. Este

método ahorra bastante tiempo de computación, pero no garantiza que sea capaz de encontrar

realmente la mejor división posible en cada modo.

Para garantizar el hallazgo de la división más significativa se utiliza el método CHAID

exhaustivo, que trata a todas las variables por igual, independientemente del tipo de variable y del

número de categorías. Por otro lado, este método permite trabajar con variables dependientes

categóricas y métricas. Las variables categóricas utilizan el estadístico χ2 y dan lugar a un árbol

de clasificación. Las variables métricas utilizan el estadístico F y dan lugar a lo que se conoce

como árboles de regresión. También permite utilizar predictores de tipo métrico, mediante su

conversión previa en variables categóricas. Los métodos CHAID producen divisiones de la

validación cruzada en más de dos grupos, lo cual siempre es un valor añadido.

3.1.4 Árboles CART

El método CART (Classification And Regression Trees) o C&RT es una alternativa al

CHAID exhaustivo para árboles de clasificación (variables dependientes categóricas). Este

método nació para intentar superar algunas de las deficiencias y debilidades que por entonces

mostraba la formulación original del CHAID, que estaba limitado inicialmente a variables

dependientes nominales y variables independientes categóricas hasta la aparición de su versión

exhaustiva. Estaba claro que se necesitaba utilizar predictores de cualquier nivel de medida.

Además, CART tiene una estructura estadística más fuerte que CHAID, lo que le llevó a ser

utilizado en campos de la investigación como la medicina, además de en el márketing. CART

se utiliza para árboles de clasificación con variable dependiente cualitativa y para árboles

de regresión con variable dependiente cuantitativa, y genera árboles binarios.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϲϳ

El método comienza dividiendo la muestra en subconjuntos y evaluando cada

predictor cuantitativo, para encontrar el mejor punto de corte o cada predictor categórico,

para encontrar las mejores agrupaciones de categorías. A continuación se comparan

también los predictores, seleccionándose el predictor y la división que produce la mayor

bondad de ajuste. Para predictores cuantitativos suele utilizarse la minimización del error

cuadrático o de la desviación media absoluta respecto de la mediana. Para predictores

cualitativos suele utilizarse el coeficiente Gini para evaluar la probabilidad de una mala

clasificación (valor cero para clasificación perfecta y valor uno para una mala clasificación).

No debemos de olvidar que los métodos CH AID producen divisiones de la validación

cruzada en más de dos grupos, mientras que el método CART sólo produce divisiones binarias.

3.1.5 Árboles QUEST

Los árboles QUEST (Quick, Unbiased, Efficient, Statistical Tree) consisten en un

algoritmo de clasificación arborescente creado específicamente para solventar dos de los

principales problemas que presentan métodos como CART y CHAID exhaustivo, a la hora de

dividir un grupo de sujetos en función de una variable independiente. Este tipo de árboles

mitigan la complejidad computacional (enfoque de cálculo más sencillo) y los sesgos en la

selección de variables. Se trata de evitar que se seleccionen aquellas variables que cuentan

con un mayor número de categorías.

QUEST intenta seleccionar el mejor predictor y su mejor punto de corte como

tareas separadas, calculando en cada nodo la asociación entre cada predictor y la variable

dependiente mediante el estadístico F del ANOVA o la F de Levene para predictores

continuos y ordinales o mediante una χ2 de Pearson para predictores nominales. Se

consiguen divisiones binarias de la variable dependiente mediante la creación de dos

superclases en el predictor, aplicando un algoritmo conglomerativo. Por último, para

eliminar el sesgo en la selección de variables, se elige el predictor que tiene la mayor

asociación con la variable dependiente. Posteriormente, para hallar el mejor punto de corte

se recurre a un análisis discriminante cuadrático, repitiéndose el proceso recursivamente

hasta que lo permitan las reglas de parada establecidas en el algoritmo. De esta forma, se

eliminan sesgos de respuesta y se simplifica el cálculo.

En cuanto a la valoración de los métodos de construcción de árboles, podría

establecerse un orden de jerarquía (nunca absoluto) que sitúe el método QUEST como

superior a CART y este último método superior a CHAID. No olvidemos que QUEST admite

métodos de validación mediante poda y permite utilizar combinaciones lineales de

variables. Pero debe quedar claro que esta evaluación sólo es válida en líneas generales.

3.2 ÁRBOLES DE DECISIÓN CON SPSS

El procedimiento Árbol de clasificación crea un modelo de clasificación basado en

árboles, y clasifica casos en grupos o pronostica valores de una variable (criterio)

dependiente basada en valores de variables independientes (predictores). El procedimiento

proporciona herramientas de validación para análisis de clasificación exploratorios y

confirmatorios, y puede utilizarse en múltiples técnicas que se describen a continuación:

ϲϴdE/^^'DEd/MEDZK^ Ξ^dZKK

Segmentación. Identifica individuos que pueden ser miembros de un grupo específico.

Estratificación. Asigna los casos a una categoría de entre varias, por ejemplo, grupos de

alto riesgo, bajo riesgo y riesgo intermedio.

Predicción. Crea reglas y las utiliza para predecir eventos futuros, como la verosimilitud de

que una persona cause mora en un crédito o el valor de reventa potencial de un vehículo o

una casa.

Reducción de datos y clasificación de variables. Selecciona un subconjunto útil de

predictores a partir de un gran conjunto de variables para utilizarlo en la creación de un

modelo paramétrico formal.

Identificación de interacción. Identifica las relaciones que pertenecen sólo a subgrupos

específicos y las especifica en un modelo paramétrico formal.

Fusión de categorías y discretización de variables contínuas. Recodifica las categorías

de grupo de los predictores y las variables continuas, con una pérdida mínima de

información.

Como ejemplo podemos considerar un banco que desea categorizar a los

solicitantes de créditos, en función de si representan o no un riesgo crediticio razonable.

Basándose en varios factores, incluyendo las valoraciones del crédito conocidas de clientes

anteriores, se puede generar un modelo para pronosticar si es probable que los clientes

futuros causen mora en sus créditos.

Un análisis basado en árboles permite identificar grupos homogéneos con alto o

bajo riesgo y facilita la construcción de reglas para realizar pronósticos sobre casos

individuales. En cuanto a los datos, las variables dependientes e independientes pueden

ser nominales, ordinales y de escala. Una variable puede ser tratada como nominal cuando

sus valores representan categorías que no obedecen a una ordenación intrínseca. Por

ejemplo, el departamento de la compañía en el que trabaja un empleado.

Son ejemplos de variables nominales: la región, el código postal o la confesión

religiosa. Una variable puede ser tratada como ordinal cuando sus valores representan

categorías con alguna ordenación intrínseca. Por ejemplo, los niveles de satisfacción con

un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de

variables ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o

confianza y las puntuaciones de evaluación de la preferencia. Una variable puede ser

tratada como de escala cuando sus valores representan categorías ordenadas con una

métrica con significado, por lo que son adecuadas las comparaciones de distancia entre

valores. Son ejemplos de variables de escala: la edad en años y los ingresos en dólares.

Los datos también pueden llevar asociadas ponderaciones de frecuencia Si se

encuentra activada la ponderación, las ponderaciones fraccionarias se redondearán al

número entero más cercano; de esta manera, a los casos con un valor de ponderación

menor que 0,5 se les asignará una ponderación de 0 y, por consiguiente, se verán e xcluidos

del a náli sis. En cuanto a supuestos, este procedimiento supone que se ha asignado el nivel de

medida adecuado a todas las variables del análisis; además, algunas funciones suponen que todos

los valores de la variable dependiente, incluidos en el análisis, tienen etiquetas de valor definidas.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϲϵ

El nivel de medida afecta a los cálculos del árbol; por tanto, todas las variables

deben tener asignado el nivel de medida adecuado. Por defecto, SPSS supone que las

variables numéricas son de escala y que las variables de cadena son nominales, lo cual

podría no reflejar con exactitud el verdadero nivel de medida. Un icono situado junto a cada

variable de la lista de variables identifica el tipo de variable, según se indica en la Figura 3-1.

Puede cambiar de forma temporal el nivel de medida de una variable; para ello, pulse con el

botón derecho del ratón en la variable, en la lista de variables de origen y seleccione un nivel

de medida del menú contextual. La interfaz del cuadro de diálogo para este procedimiento

supone que o todos los valores no perdidos de una variable dependiente categórica (nominal,

ordinal) tienen etiquetas de valor definidas o ninguno de ellos las tiene. Algunas funciones no

estarán disponibles, a menos que haya como mínimo dos valores no perdidos de la variable

dependiente categórica que tengan etiquetas de valor. Si al menos dos valores no perdidos

tienen etiquetas de valor definidas, todos los demás casos con otros valores que no tengan

etiquetas de valor se excluirán del análisis.

Figura 3-1

3.2.1 Creación de un árbol de decisión: método CHAID

Para crear un árbol de decisión, después de cargar el conjunto de datos (tree_credit.sav)

elija en los menús Analizar

→

Clasificar

→

Árbol (Figura 3-2). En la pantalla de entrada

seleccionamos una variable dependiente y una o más variables independientes y como método de

crecimiento elegimos CHAID (define el método de construcción del árbol) tal y como se indica en la

Figura 3-3. Se puede hacer clic en el botón Categorías para seleccionar una o más categorías de

interés fundamental en el análisis. Por ejemplo, en nuestro análisis conocer los clientes que no

devuelven el crédito, por eso elegimos Malo como categoría objetivo (Figura 3-4) y hacemos clic en

Continuar.

Figura 3-2

ϳϬdE/^^'DEd/MEDZK^ Ξ^dZKK

Figura 3-3 Figura 3-4

También se puede seleccionar una Variable de influencia que defina cuánta influencia

tiene un caso en el proceso de crecimiento de un árbol. Los casos con valores de influencia

inferiores tendrán menos influencia, mientras que los casos con valores superiores tendrán más.

Los valores de la variable de influencia deben ser valores positivos. Si se marca la casilla

Primera variable forzosa, se fuerza a que la primera variable en la lista de variables

independientes en el modelo sea la primera variable de división.

En el botón Resultados de la figura 3-3 se selecciona la forma de representación

del árbol (Figura 3-5), los estadísticos a obtener (Figura 3-6), los gráficos (Figura 3-7) y las

reglas (Figura 3-8). Se pulsa Continuar.

Figura 3-5 Figura 3-6

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϭ

Figura 3-7 Figura 3-8

En el botón Validación de la Figura 3-3 se valida el árbol (Figura 3-9). La validación

permite evaluar la bondad de la estructura de árbol cuando se generaliza para una mayor

población. Hay dos métodos de validación disponibles: validación cruzada y validación por

división muestral. La validación cruzada divide la muestra en un número de submuestras. A

continuación, se generan los modelos de árbol, que no incluyen los datos de cada submuestra. El

primer árbol se basa en todos los casos, excepto los correspondientes al primer pliegue de la

muestra; el segundo árbol se basa en todos los casos, excepto los del segundo pliegue de la

muestra y así sucesivamente. Para cada árbol se calcula el riesgo de clasificación errónea,

aplicando el árbol a la submuestra que se excluyó al generarse éste. Se puede especificar un

máximo de 25 pliegues de la muestra. Cuanto mayor sea el valor, menor será el número de casos

excluidos de cada modelo de árbol. La validación cruzada genera un modelo de árbol único y

final. La estimación de riesgo mediante validación cruzada para el árbol final se calcula como

promedio de los riesgos de todos los árboles.

Con la validación por división muestral, el modelo se genera utilizando una muestra

de entrenamiento y después pone a prueba ese modelo con una muestra de reserva. Puede

especificar un tamaño de la muestra de entrenamiento, expresado como un porcentaje del

tamaño muestral total, o una variable que divida la muestra en muestras de entrenamiento y

de comprobación. Si utiliza una variable para definir las muestras de entrenamiento y de

comprobación, los casos con un valor igual a 1 para la variable se asignarán a la muestra de

entrenamiento y todos los demás casos se asignarán a la muestra de comprobación. Dicha

variable no puede ser ni la variable dependiente, ni la de ponderación, ni la de influencia ni

una variable independiente forzada. Los resultados se pueden mostrar tanto para la muestra

de entrenamiento como para la de comprobación, o sólo para esta última. La validación por

división muestral se debe utilizar con precaución en archivos de datos pequeños (archivos de

datos con un número pequeño de casos). Si se utilizan muestras de entrenamiento de

pequeño tamaño, pueden generarse modelos que no sean significativos, ya que es posible

que no haya suficientes casos en algunas categorías para lograr un adecuado crecimiento del

árbol.

ϳϮdE/^^'DEd/MEDZK^ Ξ^dZKK

Figura 3-9 Figura 3-10

En el botón Criterios de la Figura 3-3 se personalizan los criterios de crecimiento

del árbol. La pestaña Límites de crecimiento (Figura 3-11) permite limitar el número de

niveles del árbol y controlar el número de casos mínimo para nodos parentales y filiales. El

campo Máxima profundidad de árbol controla el número máximo de niveles de crecimiento

por debajo del nodo raíz. El ajuste Automática limita el árbol a tres niveles por debajo del

nodo raíz para los métodos CHAID y CHAID exhaustivo, y a cinco niveles para los métodos

CRT y QUEST. El campo Número de casos mínimo controla el número de casos mínimo

para los nodos. Los nodos que no cumplen estos criterios no se dividen. El aumento de los

valores mínimos tiende a generar árboles con menos nodos. La disminución de dichos

valores mínimos generará árboles con más nodos. Para archivos de datos con un número

pequeño de casos, es posible que, en ocasiones, los valores por defecto de 100 casos para

nodos parentales y de 50 casos para nodos filiales den como resultado árboles sin ningún

nodo por debajo del nodo raíz; en este caso, la disminución de los valores mínimos podría

generar resultados más útiles.

En la pestaña CHAID (Figura 3-12) se puede controlar para los métodos CHAID y

CHAID efectivo el Nivel de significación para la división de nodos y la fusión de categorías,

El Estadístico Chi-cuadrado a utilizar (Pearson para cálculos rápidos y muestras grandes o

Razón de verosimilitud si se quiere robustez o se trabaja con muestra pequeñas), en el

método de Estimación del modelo (para variables dependientes ordinales y nominales se

puede especificar el Número máximo de iteraciones, el Cambio mínimo en las frecuencias

esperadas de las casillas), Corregir los valores de significación mediante el método de

Bonferroni (para comparaciones múltiples, los valores de significación para los criterios de

división y fusión se corrigen utilizando el método de Bonferroni que es el método por

defecto), y Permitir nueva división de las categorías fusionadas dentro de un nodo para que

el procedimiento intente la fusión de las categorías de variables (predictoras)

independientes entre sí para generar el árbol más simple posible.

En la pestaña Intervalos (Figura 3-13) se fijan intervalos de escala para el análisis

CHAID. En el análisis CHAID, las variables (predictoras) independientes de escala siempre

se categorizan en grupos discretos (por ejemplo, 0–10, 11–20, 21–30, etc.) antes del

análisis.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϯ

Figura 3-11 Figura 3-12

Se puede controlar el número inicial/máximo de grupos (aunque el procedimiento

puede fundir grupos contiguos después de la división inicial) mediante Número fijo (todas

las variables independientes de escala se categorizan inicialmente en el mismo número de

grupos y el valor por defecto es 10) y Personalizado (todas las variables independientes de

escala se categorizan inicialmente en el número de grupos especificado para esta variable).

En el botón Guardar de la Figura 3-3 se definen las rúbricas a guardar en archivo

(Figura 3-13). El botón Opciones de la Figura 3-13 permite fijar opciones para tratamiento

de valores perdidos (Figura 3-14), definir costes de clasificación errónea (Figura 3-15) y

beneficios por cada categoría (Figura 3-16). Al hacer clic en Aceptar en la Figura 3-3, se

crea el árbol (Figura 3-17).

Figura 3-13 Figura 3-14

Figura 3-15 Figura 3-16

ϳϰdE/^^'DEd/MEDZK^ Ξ^dZKK

Figura 3-17

Lo primero que observamos en el árbol es que el 41,4% de los clientes presentará

crédito fallido y el 58,6% presentará devolución de crédito en tiempo y forma. A continuación

se observa que el nivel de ingresos es el mejor predictor de la tasa de riesgo crediticio, ya que

representa el primer nivel de ramificación en el árbol. Para e l nodo 1 (nivel de ingresos bajo) el

82,1% de los clientes presentan crédito fallido y el 17,9% devuelven el crédito en tiempo y

forma. Para el nodo 2 (nivel de ingresos medio) el 42% de los clientes presentan crédito fallido

y el 58% devuelven el crédito en tiempo y forma. Para el nodo 3 (nivel de ingresos alto) el

11,6% de los clientes presentan crédito fallido y el 88,4% devuelven el crédito en tiempo y

forma.

El siguiente predictor en calidad de la tasa de riesgo crediticio es el número de tarjetas

de crédito. Para clientes con nivel de ingresos bajo, los que tengan un número menor de tarjetas

de crédito (nodo 4) un 90,1% presentan crédito fallido y un 9,9% devuelven el crédito en tiempo

y forma, sin embargo entre los que poseen un número mayor de tarjetas (nodo 5), un 38,4%

presentan crédito fallido y un 61,6% devuelven el crédito en tiempo y forma. De igual manera se

analizan los restantes nodos.

3.2.2 Métodos CRT y QUEST. Poda de árboles

Entre los métodos de crecimiento para la creación de árboles de decisión tenemos

los métodos CRT y QUEST con las características siguientes:

CRT. Árboles de clasificación y regresión (Classification and Regression Trees). Se trata de

un método que divide los datos en segmentos para que sean lo más homogéneos que sea

posible respecto a la variable dependiente. Un nodo terminal en el que todos los casos

toman el mismo valor en la variable dependiente es un nodo homogéneo y "puro".

QUEST. Árbol estadístico rápido, insesgado y eficiente (Quick, Unbiased, Efficient

Statistical Tree). Se trata de un método que es rápido y que evita el sesgo que presentan

otros métodos al favorecer los predictores con muchas categorías. Sólo puede

especificarse QUEST si la variable dependiente es nominal.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϱ

En la tabla siguiente se comparan las características de estos dos métodos y del

método CHAID.

CHAID* CRT QUEST

Basado en Chi-cuadrado** X

Variables (predictoras) independientes sustitutas X X

Poda de árboles X X

División de nodos multinivel X

División de nodos binarios X X

Variables de influencia X X

Probabilidades previas X X

Costes de clasificación errónea X X X

Cálculo rápido X X

El método de crecimiento CRT (Figura 3-18) procura maximizar la homogeneidad

interna de los nodos. El grado en el que un nodo no representa un subconjunto homogéneo

de casos es una indicación de impureza. Por ejemplo, un nodo terminal en el que todos los

casos tienen el mismo valor para la variable dependiente es un nodo homogéneo que no

requiere ninguna división más, ya que es "puro". Puede seleccionar el método utilizado para

medir la impureza, así como la reducción mínima de la impureza necesaria para divid ir nodos.

En cuanto a Medida de la impureza, para variables dependientes de escala, se

utilizará la medida de impureza de desviación cuadrática mínima (LSD). Este valor se calcula

como la varianza dentro del nodo, corregida para todas las ponderaciones de frecuencia o

valores de influencia.

Para variables dependientes categóricas (nominales, ordinales), puede seleccionar

la medida de la impureza Gini (se obtienen divisiones que maximizan la homogeneidad de los

nodos filiales con respecto al valor de la variable dependiente y se basa en el cuadrado de las

probabilidades de pertenencia de cada categoría de la variable dependiente), Binaria (las

categorías de la variable dependiente se agrupan en dos subclases y se obtienen las

divisiones que mejor separan los dos grupos) y Binaria ordi nal (similar a la regla binaria, con la

única diferencia de que sólo se pueden agrupar las categorías adyacentes). Esta medida sólo

se encuentra disponible para variables dependientes ordinales. En cuanto a Cambio mínimo

en la mejora, se trata de situar la reducción mínima de la impureza necesaria para dividir un

nodo. El valor por defecto es 0,0001. Los valores superiores tienden a generar árboles con

menos nodos.

Puede evitarse el sobreajuste del modelo mediante la poda del árbol para los

métodos CRT y QUEST. El árbol crece hasta que se cumplen los criterios de parada y, a

continuación, se recorta de forma automática hasta obtener el subárbol más pequeño basado

en la máxima diferencia en el riesgo especificada (Figura 3-19). El valor del riesgo se expresa

en errores típicos. El valor por defecto es 1. El valor debe ser no negativo. Para obtener el

subárbol con el mínimo riesgo, especifique 0.

Para el método QUEST, puede especificar el nivel de significación para la división de

nodos (Figura 3-20). No se puede utilizar una variable independiente para dividir nodos a menos

que el nivel de significación sea menor o igual que el valor especificado. El valor debe ser mayor

que 0 y menor que 1. El valor por defecto es 0,05. Los valores más pequeños tenderán a excluir

más variables independientes del modelo final.

ϳϲdE/^^'DEd/MEDZK^ Ξ^dZKK

Figura 3-18 Figura 3-19

Figura 3-20

Partiendo del archivo Tree_car.sav que contiene datos sobre coches, vamos a

construir ahora un árbol de decisión en el que el precio del vehículo dependerá de la edad en

años, sexo, categoría de ingresos, nivel de estudios y estado civil del cliente. Para ello

rellenamos la pantalla de entrada del procedimiento Árbol como se indica en la Figura 3-21.

Se observa que se va a utilizar el método de crecimiento CRT. Al pulsar Aceptar con las

opciones por defecto, se obtiene un árbol muy complicado con demasiadas ramificaciones y

difícil de interpretar (Figura 3-23). Para solucionar este problema se hace clic en el botón

Criterios y se selecciona la pestaña Poda del árbol con las opciones por defecto (Figura

3-22). Se hace clic en Continuar y Aceptar y se obtiene el árbol ya podado que es más fácil de

interpretar (Figura 3-24).

Figura 3-21 Figura 3-22

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϳ

Figura 3-23

Figura 3-24

ϳϴdE/^^'DEd/MEDZK^ Ξ^dZKK

3.3 ÁRBOLES DE DECISIÓN CON ENTERPRISE

MINER. NODO TREE

El nodo Tree de Enterprise Miner permite implementar distintos algoritmos para la

generación de reglas lógicas de decisión, elaboradas a partir de la información contenida en

los datos. Su uso requiere una base de datos en la cual debemos especificar una única

respuesta, que puede ser nominal, binaria, ordinal o continua, y al menos un input o

variable s expl icativa. El nodo Tree se encuentra situado en SAS Enterprise Miner en la

categoría Model (Figura 3-25)

Figura 3-25

Como ejemplo, vamos a utilizar los datos del archivo CREDITOS para establecer

las reglas lógicas que van a permitir ayudar a tomar la decisión sobre cuándo decidir

asignar o no un crédito. Una vez importado el fichero, asignaremos a la variable Cliente el

papel ID en el modelo mientras que la variable CREDIT_V será la variable objetivo (Target)

y el resto de variables serán inputs.

Una vez que disponemos ya de nuestros datos de trabajo en formato SAS (archivo

creditos.sas7bdat) en una determinada librería (librer ía Trabajo que representa el subdirectorio

c:\libros\miningt), abrimos el proyecto P1 (File → Open) y mediante File

→

New

→

Diagram

creamos el diagrama D13. A continuación, situamos en el diagrama el nodo Input Data Source

al que se le asigna el conjunto de datos creditos.sas7bdat de la librería TRABAJO. A

continuación uniremos el nodo de datos con el de partición (Data Partition) y asignaremos de

manera aleatoria un 80% de los datos a entrenamiento, un 10% a validación y un 10% a test.

Una vez realizada esta tarea, conectaremos el nodo de partición de datos con un nodo de

árboles de decisión (Tree) según se indica en la Figura 3-26. Para asignar a la variable

CLIENTE el tipo id, a la variable CREDIT_V el tipo Target y al resto de variables el tipo input,

hacemos doble clic sobre el nodo Input Data Source y elegimos la pestaña Variables. A

continuación se hace clic con el botón derecho del ratón sobre cada variable a situar de tipo

input, se elige Set Model Role y a continuación Input. Se repite el proceso con la variables de

tipo id y Tarjet (Figura 3-27).

Para asignar de manera aleatoria un 80% de los datos a entrenamiento, un 10% a

validación y un 10% a test hacemos doble clic sobre el nodo Data Partition y rellenamos la

pestaña Variables como se indica en la Figura 3-28.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϳϵ

Figura 3-26

Figura 3-27

Figura 3-28

Para fijar las especificaciones del árbol abrimos el nodo Tree haciendo doble clic

sobre él en el diagrama. Se obtiene la pantalla de entrada del nodo en cuya pestaña

Variables se presentan las variables que intervienen en el árbol y sus propiedades (véase

Figura 3-29).

ϴϬdE/^^'DEd/MEDZK^ Ξ^dZKK

Figura 3-29

En la pestaña Advanced especificaremos como medida para la valoración del

modelo, el porcentaje de casos correctamente clasificados. Además definiremos como

número de observaciones suficientes para buscar una variable de división 25 (Figura 3-30).

Figura 3-30

En la ventana de opciones avanzadas obtenida con la pestaña Advanced (Figura

3-30). En la ventana de opciones avanzadas se pueden especificar las siguientes variables:

Model Assessment Measure: selecciona el mejor árbol a partir de los resultados en la muestra

de validación. La lista de medidas de valoración depende de cómo el output esté medido y de si

existe o no una matriz de costes o beneficios para el objetivo.

Para variables continuas se puede elegir entre varias medidas, dependiendo de si

existe o no una matriz de beneficios. Si no existe matriz de beneficios tendremos:

• Average Square Error: medida por defecto.

• Average in the top 10, 25 or 50%.

Si existe matriz de beneficios o pérdidas tendremos:

• Average Square Error.

• Average profit/loss.

• Average profit¨/loss in the top 10, 25 or 50%.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϭ

Para objetivos categóricos podemos elegir de entre las siguientes medidas:

Si no existe matriz de pérdidas o beneficios definida:

• Proportion correctly classified: proporción de casos clasificados correctamente.

• Ordinal proportion correctly classified.

• Proportion of event in top 10, 25 or 50%

• Total leaf Impurity (Fini index).

Si existe una matriz de pérdidas o beneficios entonces las medidas de valoración serán:

• Proportion correctly classified.

• Average profit/loss.

• Average profit/loss in top 10, 25 or 50%.

• Total leaf impurity (Gini index).

Specify the subtree method: esta opción especifica cómo seleccionar un subárbol dentro del

árbol principal. Si un árbol tiende a tener demasiadas ramas y demasiada profundidad, tenderá

también a ajustar el ruido y generará, de forma pobre, nuevos datos que le sean presentados.

Cada nodo puede ser evaluado de las siguientes formas:

• Best assessment value: el subárbol más pequeño con la mejor valoración es

el elegido por defecto.

• The most leaves: selecciona el árbol entero. Esta opción es apropiada

cuando el árbol se construye de forma interactiva o cuando se definen otras

opciones para parar las divisiones del árbol.

• At most indicated number of leaves: selecciona el subárbol que tenga como

mucho n hojas. Este número debe ser definido en el cuadrado

correspondiente que se activará al elegir esta opción (Figura 3-31).

Figura 3-31

Split search criteria: esta opción establece un límite superior en el número de

observaciones de la muestra para realizar una partición. El algoritmo para la creación de un

árbol de decisión busca reglas de partición en ramas que maximicen el criterio asignado.

Encontrar la partición óptima supone a menudo evaluar cada posible división de cada

variable y a veces, el número de posibles divisiones puede llegar a ser excesivamente

grande.

Maximum tries in an exhaustive split search: si el número de posibles divisiones es

elevado, esta opción utiliza un algoritmo de búsqueda (stepwise, hill-climbing) con un

número de intentos predeterminado.

P-value adjustment: esta opción se activa cuando se eligen como criterio de valoración los

valores de los estadísticos Chi-cuadrado o F.

ϴϮdE/^^'DEd/MEDZK^ Ξ^dZKK

Kass: la búsqueda de la partición óptima requiere el cálculo de distintas tablas de

contingencia. Si usamos la tabla original sin cambios en las categorías, el test χ2 puede ser

usado. Este test asume que sólo existe una población de la que extraemos una única

muestra y calculamos un único test. Sin embargo, realizar el test de forma repetida viola

este supuesto. Ello aumenta la posibilidad de encontrar alguna relación simplemente por el

hecho de incrementar el número de veces en la búsqueda, lo que puede llevar a encontrar

relaciones espurias o a magnificar las relaciones encontradas. Es por ello que el p-valor es

corregido de la forma descrita en la descripción realizada de los árboles de decisión.

Para implementar el algoritmo, el primer paso es crear regresores ordinales en lugar de

continuos, dividiendo la función de distribución de las variables explicativas continuas en un

número de categorías que contenga aproximadamente el mismo número de observaciones.

Para las variables categóricas, las categorías permanecen ya definidas. Esta sería la opción

Apply Kass before choosing number of branches.

Sin embargo, esta opción puede rebajar más la significación de una partición que

un método alternativo denominado ajuste de Gabriel que se aplica si se selecciona Apply

Kass alter choosing number of branches.

Depth: esta opción realiza un ajuste de Bonferroni, teniendo en cuenta el número de hojas para

corregir el número de rechazos falsos que tenderá a crecer con el número de hojas.

Effective number of inputs: ajusta los p-valores a partir del número efectivo de inputs.

Cuantos más inputs, más probable será que un input espurio gane al input o inputs

verdaderamente predictivos. Cuantos más inputs incorrelacionados haya, más alto será el

riesgo. El ajuste por inputs multiplica el p-valor por el número declarado de inputs que son

aquéllos que tienen el estatus de use en la ventana de variables.

Si ahora en la pantalla Tree node de especificaciones del árbol elegimos la

pestaña Score, podemos indicar que se guarde la respuesta para los datos de

entrenamiento, validación y test (Figura 3-32).

Figura 3-32

Se observa que la pestaña Score dispone de dos subventanas:

Data: sirve para seleccionar los datos para valorar (Score) cuando el nodo de árboles de

decisión sea ejecutado (Figura 3-32). Por defecto ni los datos de entrenamiento, ni de validación

ni de test son usados para valorar. Para que sean usados con este fin es necesario activar el

cuadrado de Training, Validation and Test. En esta ventana también se pueden ver los detalles

acerca de los datos de entrenamiento, validación y test seleccionando la opción Properties.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϯ

Variables: en esta ventana (Figura 3-33) se seleccionan aquellas variables que deseamos

estén disponibles para futuros análisis en otros nodos.

Figura 3-33

Se pueden seleccionar las siguientes variables:

Input variable selection: preselecciona las variables predictoras importantes, reduciendo

de esta forma la dimensionalidad de los datos. Cuando se ejecuta el nodo de árboles de

decisión asignará el estatus de input a aquellas variables con un nivel de confianza mayor

del 95% asignando el estatus de rechazada al resto. Esto permitirá incluir estas variables en

un nodo posterior como por ejemplo de redes neuronales.

New variables related to score:

• Dummy variables: crea una variable dummy para cada hoja del árbol. Si cada

observación está asignada a una hoja específica entonces tendrá asociado un

valor de 1 para esa hoja y de cero para el resto.

• Leaf identification variable: esta variable contiene una identificación

numérica de la hoja en la cual la observación es asignada. Puede ser usada

para procesar grupos en un nodo de procesado de grupos o realizar

regresiones para cada uno de los grupos encontrados.

• Prediction variables: variables de predicción que pueden ser usadas en

análisis sucesivos.

Una vez establecidas todas las opciones de entrenamiento el nodo puede ser

ejecutado de cuatro formas:

Si el nodo está cerrado:

• Seleccionar el nodo con el botón derecho y seleccionar Run.

• Seleccionar Actions → Run.

Si el nodo está abierto:

• Seleccionar Tools → Train Model

ϴϰdE/^^'DEd/MEDZK^ Ξ^dZKK

• Seleccionar el icono para ejecutar el árbol.

Como veremos posteriormente, el entrenamiento del árbol también puede ser

ejecutado de forma interactiva.

Una vez definidas estas opciones, y previa asignación de un nombre para el modelo

(Figura 3-34), ejecutaremos el nodo haciendo clic sobre él en el diagrama con el botón derecho

del ratón y eligiendo la opción Run del menú emergente resultante (Figura 3-35). Finalizada la

ejecución, el sistema pregunta si queremos ver lo resultados (Figura 3-36). Al aceptar se abre el

visor de resultados cuya pestaña All (Figura 3-37) muestra a la vez cuatro pestañas.

En la parte superior izquierda, la pestaña Summary muestra las estadísticas de ajuste

del modelo, tanto para los datos de entrenamiento como de validación. En la parte superior

derecha, la pestaña Ring muestra la proporción de casos que se encuentra en cada uno de los

nodos en cada uno de los niveles o anillos del árbol. Seleccionando en la barra de herramientas

el icono View Information About Point podemos ver la regla que define el nodo (Figura 3-38).

En la parte inferior izquierda, la pestaña Table muestra la proporción de casos correctamente

clasificados, tanto de entrenamiento como de validación, según el número de hojas de cada

árbol. En la parte inferior derecha, la pestaña Plot realiza una representación gráfica del

resultado anterior. En un árbol de decisión interesa elegir el punto que presenta un mayor

número de casos bien clasificados en la muestra de validación. En este caso, nos quedaríamos

con el árbol de 5 hojas porque la línea blanca vertical está en el 5. Puede cambiarse de punto

haciendo clic en el diamante de la figura.

Figura 3-34

Figura 3-35

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϱ

Figura 3-36

Figura 3-37

Figura 3-38 Figura 3-39

Dentro de la ventana del gráfico del anillo del árbol Tree Ring, si pulsamos con el

botón derecho del ratón sobre el gráfico (Figura 3-39) podemos seleccionar las siguientes

opciones:

• Probe: muestra cierta información resumen en un cuadro de texto al

seleccionar un nodo o simplemente moviendo el cursor por encima del gráfico

(Figura 3-38).

ϴϲdE/^^'DEd/MEDZK^ Ξ^dZKK

• Pick: selecciona y destaca un nodo sobre los demás (Figura 3-38). Una vez

seleccionado haremos clic en Node Definition para evaluar la regla lógica que

define sus propiedades.

• Redraw tree: vuelve a dibujar el diagrama del árbol de decisión clásico a partir

del nodo seleccionado. Esta opción es especialmente útil para visualizar

detalles del árbol, ya que normalmente el número de ramas, nodos y la

profundidad del árbol harán que sea imposible su visualización completa en

una sola ventana. Para imprimir el árbol entero, en ocasiones, será necesario

guardar la imagen y posteriormente modificarla en otro programa que permita

su manipulación.

• Define Colors: elige los colores deseados según preferencias para resaltar

determinados resultados (Figura 3-40).

Figura 3-40

• Node definition: muestra la definición del nodo (regla lógica en lengua

inglesa) para el nodo seleccionado.

Para visualizar el árbol seleccionamos View → Tree (Figura 3-41). La columna del medio

muestra los porcentajes y valores numéricos de los datos de entrenamiento, mientras que a la

derecha se muestran los datos de validación (Figura 3-42).

Figura 3-41

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϳ

Figura 3-42

Un diagrama de árbol de decisión contiene las siguientes características:

• Nodo Raíz: es el nodo que contiene todas las observaciones justo antes de la

primera división. En este caso se muestra cómo de los 258 clientes, 121

devolvieron el crédito (46,9%) mientras que 137 resultaron impagados (53,1%).

• Ramas: una vez seleccionada la variable que mejor discrimina, los datos son

partidos en dos o más ramas de acuerdo con los valores de la variable. En el

caso anterior, la variable que más discrimina es si el cliente percibe su

remuneración de forma mensual (2) o semanal (1).

• Nodos: contienen los datos divididos procedentes de otras ramas y nodos.

• Nodos hoja: son los nodos terminales y contienen la clasificación general del árbol

una vez cumplidas todas las reglas lógicas definidas por los nodos anteriores.

3.3.1 Entrenamiento interactivo (Interactive Training)

El nodo de árbol de decisión es capaz de ofrecer un resultado automático, como el

visto hasta ahora, pero también podemos llevar a cabo el análisis de forma interactiva. Si

elegimos esta opción, (seleccionar el nodo de árbol de decisión con el botón derecho del

ratón y seleccionar Interactive Training), el nodo automáticamente genera el mejor árbol a

partir de los criterios predefinidos.

Esta opción proporciona una serie de ventajas sobre la opción automática:

ϴϴdE/^^'DEd/MEDZK^ Ξ^dZKK

• Permite forzar la entrada en el modelo de una determinada variable.

• Permite forzar la partición de una variable de una forma determinada.

• Permite podar un árbol previamente construido.

Esta elección puede estar justificada por un conocimiento previo del problema, que

nos asegure que ciertas variables son relevantes, porque determinados puntos de corte de

una variable tengan un sentido matemático o económico mayor que otros puntos, etc. La

ventana del entrenamiento interactivo se abre en la subventana All mostrando el esquema

de la Figura 3-43.

Figura 3-43

La ventana muestra un gráfico de anillo del árbol vacío, un diagrama de densidad de

la variable respuesta (o de porcentaje en el caso de variables categóricas o binarias). Este

último gráfico puede ser examinado en la ventana Plot 2.

El entrenamiento interactivo tiene su propia barra de herramientas que se pueden

usar para construir el árbol (Figura 3-44).

Figura 3-44

Creación de reglas

El botón Create rule de la barra de herramientas fuerza a una variable a entrar

en el árbol y permite modificar los puntos de corte. También se puede acceder a esta

opción pinchando con el botón derecho del ratón el gráfico de anillos del árbol y

seleccionando Create rule. Se obtiene la Figura 3-45. En primer lugar, seleccionaremos la

variable cuya entrada queremos forzar, teniendo en cuenta que las variables que mejor

discriminan son aquéllas con un Logworth más elevado. Una vez seleccionada la variable,

haremos clic en Modify Rule. En la nueva ventana podremos añadir rangos o modificar el

valor de los rangos ya existentes (Figura 3-46).

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϴϵ

Figura 3-45 Figura 3-46

Una vez ejecutada una división mediante una nueva variable podemos hacer

alguna de las siguientes opciones.

Probar el nuevo anillo del árbol

Para ello en el menú principal seleccionaremos View → Probe Tree Ring Splits o

View → Probe Tree Ring Statistics. También podemos hacer clic en la barra de

herramientas en el botón Show Info About Points y movernos a lo largo del anillo,

donde se irán mostrando las estadísticas de cada nodo.

Ver el árbol tras la división

Para ello seleccionaremos View → Tree. Se obtiene el árbol (Figura 3-47).

Figura 3-47

De esta forma iremos construyendo el árbol.

Cambiar la división actual

Una vez efectuada la partición de los datos, podemos querer cambiar este criterio

o añadir nuevas ramas a la partición. Para ello acudiremos a la pestaña Main Plot y sobre el

gráfico usaremos el menú contextual que proporciona el botón derecho del ratón, que nos

permite elegir las opciones de la Figura 3-48.

ϵϬdE/^^'DEd/MEDZK^ Ξ^dZKK

Figura 3-48

• Move reference line: permite mover la línea que define la partición a una

nueva posición. Para ello seleccionaremos la línea con el botón izquierdo del

ratón y la arrastraremos hasta la nueva posición.

• Add reference line: añade una nueva rama o partición a los datos.

• Delete reference line: borra la línea de referencia. Para ello, una vez elegida

la opción, pulsaremos en el punto donde la línea de referencia se cruza con la

línea del objetivo.

• Show clic information: despliega un cuadro de texto que informa del valor de

la variable a partir, el valor de la densidad del objetivo y el valor objetivo para

cada punto de la línea de densidad.

• Viewport: permite activar un zoom para ver con detalle determinadas zonas

del gráfico. Para ello, una vez seleccionada la opción, con el ratón

seleccionaremos el área que queremos ampliar para ver con detalle.

• Reset viewport: permite regresar al gráfico original.

• Assign missing value: permite asignar un valor perdido a una de las ramas a

nuestra elección.

Para elegir otra variable divisora seleccionaremos el nodo que queramos dividir y

seleccionaremos de nuevo crear regla, repitiendo el proceso.

Entrenar el resto del árbol una vez generadas o forzadas las reglas y

condiciones deseadas.

Para terminar de construir el árbol de forma automática, haremos clic en el icono

de entrenamiento automático de la barra de herramientas .

Alternativamente seleccionaremos el árbol con el botón derecho del ratón,

eligiendo la opción Train. El nuevo árbol será generado manteniendo inalteradas las

opciones que fueron definidas por el analista.

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϵϭ

Podar el árbol

Una de las numerosas ventajas del entrenamiento interactivo es que permite la

poda del árbol, esto es, la eliminación de reglas irrelevantes para los objetivos del análisis.

Para ello, una vez seleccionado el nodo, por debajo del cual se desea podar,

seleccionamos la opción podar de la barra de herramientas .

Alternativamente seleccionaremos el árbol con el botón derecho del ratón eligiendo

la opción Prune.

Guardar el árbol creado

Después de completar el árbol, éste puede ser guardado como input para un

entrenamiento o construcción posterior o como modelo final. Para ello seleccionaremos File

→ Close y elegiremos una de las dos opciones (Figura 3-49).

Figura 3-49

3.4 ÁRBOLES DE DECISIÓN CON SPSS CLEMENTINE

Dentro de la paleta Modelado, Clementine dispone de los nodos Crear C5.0 y Árbol

C&R cuya finalidad es la realización de árboles de decisión y que se muestran en las

Figuras 3-50 y 3-51.

Figura 3-50 Figura 3-51

• Crear C5.0: permite construir árboles de decisión y conjunto de reglas utilizando

el algoritmo C5.0.

• Árboles de clasificación y regresión (Árbol C&R): permite construir árboles

de decisión para clasificación y regresión con la finalidad de predecir.

3.4.1 El nodo Crear C5.0

El nodo Crear C5.0 de la paleta Modelado (Figura 3-53) se utiliza para construir árboles

de decisión y conjunto de reglas utilizando el algoritmo C5.0.

ϵϮdE/^^'DEd/MEDZK^ Ξ^dZKK

Como ejemplo, vamos a utilizar los datos del archivo creditos1.txt para establecer las

reglas lógicas que van a permitir ayudar a tomar la decisión sobre cuándo decidir asignar o no

un crédito. Una vez situado el fichero ASCII, rellenando la pantalla de Archivo variable como se

indica en la Figura 3-52, asignaremos a la variable CREDIT_V el papel de variable objetivo

(SALIDA) y el resto de variables serán inputs (ENTRADA) excepto cliente que no se utilizará. Al

ejecutar el nodo Tabla añadido al origen de datos, se obtiene la información de la Figura 3-53.

La información del nodo Tipo al asignar las propiedades de las variables se observa en la Figura

3-54. Al añadir al diagrama el nodo Crear C5.0, asignarles las características de la Figura 3-55 y

ejecutarlo, tenemos el diagrama de la Figura 3-56. Al utilizar Examinar se obtiene el árbol de la

Figura 3-57 con sus reglas de decisión especificadas.

Figura 3-52

Figura 3-53 Figura 3-54

Figura 3-55 Figura 3-56

Ξ^dZKKKϯ͘^'DEd/MEWK^d,K͘ZK>^/^/ME ϵϯ

Figura 3-57 Figura 3-58

3.4.2 El nodo Árbol C&R

El nodo Árbol C&R de la paleta Modelado (Figura 3-61) se utiliza para construir

árboles de decisión para clasificación y regresión con la finalidad de predecir. Como ejemplo,

vamos a utilizar los datos del archivo creditos1.txt par a establecer las reglas lógicas que van a

permitir ayudar a tomar la decisión sobre cuándo decidir asignar o no un crédito. El camino a

seguir es el del ejemplo anterior. Ahora la pantalla para s ituar características del árbol es la de

la Figura 3-59. Una vez añadido el nodo Árbol C&R y ejecutado el aspecto del diagrama, se

muestra en la Figura 3-60. Al utilizar Examinar se obtiene el árbol de la Figura 3-58 con sus

reglas de decisión.

Figura 3-59 Figura 3-60

Para continuar leyendo

Solicita tu prueba

Los suscriptores pueden acceder a la versión informada de este caso.

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Accede a más de 120 millones de documentos de más de 100 países, incluida la mayor colección de legislación, jurisprudencia, formularios y libros y revistas legales.
Miles de fuentes de datos

Actualizado cada día, vLex reúne contenido de más de 750 proveedores dando acceso a más de 2500 fuentes legales y de noticias de los proveedores líderes del sector.
Encuentra rápidamente lo que necesitas

Gracias a una avanzada Inteligencia Artificial desarrollada por vLex, enriquecemos editorialmente la información legal para hacerla accesible, incluyendo traducción instantánea a 14 idiomas para garantizar el acceso a la información y la capacidad de efectuar búsquedas comparativas.
Más de 2 millones de usuarios registrados

Fundado hace más de 20 años, vLex proporciona contenido de alta calidad y un servicio muy intuitivo para abogados, despachos, instituciones gubernamentales y universidades de derecho alrededor del mundo

Los suscriptores pueden ver una lista de toda la legislación y jurisprudencia citada de un documento.

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Accede a más de 120 millones de documentos de más de 100 países, incluida la mayor colección de legislación, jurisprudencia, formularios y libros y revistas legales.
Miles de fuentes de datos

Actualizado cada día, vLex reúne contenido de más de 750 proveedores dando acceso a más de 2500 fuentes legales y de noticias de los proveedores líderes del sector.
Encuentra rápidamente lo que necesitas

Gracias a una avanzada Inteligencia Artificial desarrollada por vLex, enriquecemos editorialmente la información legal para hacerla accesible, incluyendo traducción instantánea a 14 idiomas para garantizar el acceso a la información y la capacidad de efectuar búsquedas comparativas.
Más de 2 millones de usuarios registrados

Fundado hace más de 20 años, vLex proporciona contenido de alta calidad y un servicio muy intuitivo para abogados, despachos, instituciones gubernamentales y universidades de derecho alrededor del mundo

Los suscriptores pueden ver una lista de todos los documentos que citan el caso

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Accede a más de 120 millones de documentos de más de 100 países, incluida la mayor colección de legislación, jurisprudencia, formularios y libros y revistas legales.
Miles de fuentes de datos

Actualizado cada día, vLex reúne contenido de más de 750 proveedores dando acceso a más de 2500 fuentes legales y de noticias de los proveedores líderes del sector.
Encuentra rápidamente lo que necesitas

Gracias a una avanzada Inteligencia Artificial desarrollada por vLex, enriquecemos editorialmente la información legal para hacerla accesible, incluyendo traducción instantánea a 14 idiomas para garantizar el acceso a la información y la capacidad de efectuar búsquedas comparativas.
Más de 2 millones de usuarios registrados

Fundado hace más de 20 años, vLex proporciona contenido de alta calidad y un servicio muy intuitivo para abogados, despachos, instituciones gubernamentales y universidades de derecho alrededor del mundo

Los suscriptores pueden ver una lista de todas los versiones de la ley con las distintas afectaciones

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Accede a más de 120 millones de documentos de más de 100 países, incluida la mayor colección de legislación, jurisprudencia, formularios y libros y revistas legales.
Miles de fuentes de datos

Actualizado cada día, vLex reúne contenido de más de 750 proveedores dando acceso a más de 2500 fuentes legales y de noticias de los proveedores líderes del sector.
Encuentra rápidamente lo que necesitas

Gracias a una avanzada Inteligencia Artificial desarrollada por vLex, enriquecemos editorialmente la información legal para hacerla accesible, incluyendo traducción instantánea a 14 idiomas para garantizar el acceso a la información y la capacidad de efectuar búsquedas comparativas.
Más de 2 millones de usuarios registrados

Fundado hace más de 20 años, vLex proporciona contenido de alta calidad y un servicio muy intuitivo para abogados, despachos, instituciones gubernamentales y universidades de derecho alrededor del mundo

Los suscriptores pueden ver todas las afectaciones de un caso

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Accede a más de 120 millones de documentos de más de 100 países, incluida la mayor colección de legislación, jurisprudencia, formularios y libros y revistas legales.
Miles de fuentes de datos

Actualizado cada día, vLex reúne contenido de más de 750 proveedores dando acceso a más de 2500 fuentes legales y de noticias de los proveedores líderes del sector.
Encuentra rápidamente lo que necesitas

Gracias a una avanzada Inteligencia Artificial desarrollada por vLex, enriquecemos editorialmente la información legal para hacerla accesible, incluyendo traducción instantánea a 14 idiomas para garantizar el acceso a la información y la capacidad de efectuar búsquedas comparativas.
Más de 2 millones de usuarios registrados

Fundado hace más de 20 años, vLex proporciona contenido de alta calidad y un servicio muy intuitivo para abogados, despachos, instituciones gubernamentales y universidades de derecho alrededor del mundo

Los suscriptores pueden acceder a una representación visual de un caso y sus relaciones con otros casos. Como alternativa a las listas de casos, el Mapa de Precedentes facilita la tarea de encontrar que caso tienes más relevancia en tu búsqueda. Al mismo tiempo también tendrás una referéncia del grado de aceptación del caso.

Request your trial

¿Por qué debería darme de alta en vLex?

Más de 100 países

Accede a más de 120 millones de documentos de más de 100 países, incluida la mayor colección de legislación, jurisprudencia, formularios y libros y revistas legales.
Miles de fuentes de datos

Actualizado cada día, vLex reúne contenido de más de 750 proveedores dando acceso a más de 2500 fuentes legales y de noticias de los proveedores líderes del sector.
Encuentra rápidamente lo que necesitas

Gracias a una avanzada Inteligencia Artificial desarrollada por vLex, enriquecemos editorialmente la información legal para hacerla accesible, incluyendo traducción instantánea a 14 idiomas para garantizar el acceso a la información y la capacidad de efectuar búsquedas comparativas.
Más de 2 millones de usuarios registrados

Fundado hace más de 20 años, vLex proporciona contenido de alta calidad y un servicio muy intuitivo para abogados, despachos, instituciones gubernamentales y universidades de derecho alrededor del mundo

Los suscriptores pueden ver una lista de resultados conectados a su documentos vía tópicos y citas encontradas por Vincent.

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Accede a más de 120 millones de documentos de más de 100 países, incluida la mayor colección de legislación, jurisprudencia, formularios y libros y revistas legales.
Miles de fuentes de datos

Actualizado cada día, vLex reúne contenido de más de 750 proveedores dando acceso a más de 2500 fuentes legales y de noticias de los proveedores líderes del sector.
Encuentra rápidamente lo que necesitas

Gracias a una avanzada Inteligencia Artificial desarrollada por vLex, enriquecemos editorialmente la información legal para hacerla accesible, incluyendo traducción instantánea a 14 idiomas para garantizar el acceso a la información y la capacidad de efectuar búsquedas comparativas.
Más de 2 millones de usuarios registrados

Fundado hace más de 20 años, vLex proporciona contenido de alta calidad y un servicio muy intuitivo para abogados, despachos, instituciones gubernamentales y universidades de derecho alrededor del mundo

Segmentación post hoc. Árboles de decisión

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Miles de fuentes de datos

Encuentra rápidamente lo que necesitas

Más de 2 millones de usuarios registrados

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Miles de fuentes de datos

Encuentra rápidamente lo que necesitas

Más de 2 millones de usuarios registrados

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Miles de fuentes de datos

Encuentra rápidamente lo que necesitas

Más de 2 millones de usuarios registrados

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Miles de fuentes de datos

Encuentra rápidamente lo que necesitas

Más de 2 millones de usuarios registrados

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Miles de fuentes de datos

Encuentra rápidamente lo que necesitas

Más de 2 millones de usuarios registrados

¿Por qué debería darme de alta en vLex?

Más de 100 países

Miles de fuentes de datos

Encuentra rápidamente lo que necesitas

Más de 2 millones de usuarios registrados

Regístrate para una prueba y aprovechar al máximo nuestro servicio, incluidos estos beneficios.

¿Por qué debería darme de alta en vLex?

Más de 100 países

Miles de fuentes de datos

Encuentra rápidamente lo que necesitas

Más de 2 millones de usuarios registrados