Segmentación post hoc. Análisis cluster - Segmentación de Mercados - Libros y Revistas - VLEX 862817512

Segmentación post hoc. Análisis cluster

AutorPablo Valderrey Sanz
Páginas17-60
ĂƉşƚƵůŽϮ
SEGMENTACIÓN POST HOC. ANÁLISIS CLUSTER
2.1 EL ANÁLISIS CLUSTER COMO TÉCNICA
DE SEGMENTACIÓN POST HOC
El análisis clúster, también llamado análisis de conglomerados, constituye uno de los
procedimientos estadísticos más utilizados hoy en día para la segmentación. La definición de
la propia técnica se asemeja, de hecho, a los fines genéricos que persigue la segmentación:
identificar grupos de sujetos lo más heterogéneos posible entre sí y lo más homogéneos
posible dentro de cada grupo. El análisis establece dichos grupos, basándose en la similitud
que presentan un conjunto de entidades (por ejemplo, turistas) respecto a una serie de
características que el investigador ha de especificar previamente (motivaciones, necesidades,
beneficios buscados, etc). No obstante, es el análisis, y n o el analista, el que finalmente extrae
los grupos de sujetos y sus características definitorias: número de segmentos, número de
integrantes de cada segmento, etc. El análisis de conglomerados constituye, por tanto, el
ejemplo paradigmático del enfoque de segmentación pos t hoc. Así mismo se trata de un
método descriptivo de segmentación.
El análisis cluster es una técnica de Data Mining, de clasificación automática de
datos. Su finalidad esencial es revelar concentraciones en los datos (casos o variables)
para su agrupamiento eficiente en clusters (o conglomerados) según su homogeneidad.
El agrupamiento puede realizarse tanto para casos como para variables, pudiendo
utilizarse variables cualitativas o cuantitativas. Los grupos de casos o variables se realizan
basándose en la proximidad o lejanía de unos con otras, por tanto es esencial el uso
adecuado del concepto de distancia. Es fundamental que los elementos dentro de un
cluster sean homogéneos y lo más diferentes posibles de los contenidos en otros clusters.
El análisis cluster es por tanto una técnica de clasificación, conociéndose también
con el nombre de taxonomía numérica. Otros nombres asignados al mismo concepto son
análisis de conglomerados, análisis tipológico, clasificación automática y otros.
ϭϴdE/^^'DEd/MEDZK^ Ξ^dZKK
El número de clusters no es conocido de antemano y los grupos se crean en
función de la naturaleza de los datos. Se trata por tanto de una técnica de clasificación post
hoc. Podíamos definir el análisis cluster como un método estadístico multivariante de
clasificación automática que, a partir de una tabla de datos (casos-variables), trata de
situarlos en grupos homogéneos, conglomerados o clusters, no conocidos de antemano
pero sugeridos por la propia esencia de los datos, de manera que los individuos que
puedan ser considerados similares sean asignados a un mismo cluster, mientras que
individuos diferentes (disimilares) se localicen en clusters distintos. La diferencia esencial
con el análisis discriminante estriba en que en este último es necesario especificar
previamente los grupos por un camino objetivo (técnica de clasificación ad hoc), ajeno a la
medida de las variables en los casos de la muestra.
El análisis cluster define grupos tan distintos como sea posible, en función de los
propios datos sin especificación previa de los citados grupos (técnica de clasificación post hoc).
Si las variables de aglomeración están en escalas muy diferentes será necesario estandarizar
previamente las variables, o por lo menos, trabajar con desviaciones respecto de la media. Es
necesario observar también los valores atípicos y desaparecidos, porque los métodos
jerárquicos no tienen solución con valores perdidos, y los valores atípicos deforman las
distancias y producen clusters unitarios. También es nocivo para el análisis cluster la presencia
de variables correlacionadas, de ahí la importancia del análisis previo de multicolinealidad. Si es
necesario se realiza un análisis factorial previo y posteriormente se aglomeran las puntuaciones
factoriales. La solución del análisis cluster no tiene por qué ser única, pero no deben encontrase
soluciones contradictorias por distintos métodos. El número de observaciones en cada cluster
debe ser relevante, ya que en caso contrario puede haber valores atípicos que difuminen la
construcción de los clusters. Los conglomerados deben tener sentido conceptual y no variar
mucho al variar la muestra o el método de aglomeración. Los grupos finales serán tan distintos
como permitan los datos. Con estos grupos se podrán realizar otros análisis: descriptivos,
discriminante, regresión logística, diferencia.
2.1.1 Medidas de similitud
Según la clasificación de Sneath y Sokal existen cuatro grandes tipos de medidas
de similitud.
Distancias: se trata de las distintas medidas entre los puntos del espacio definido
por los individuos. Se trata de las medidas inversas de las similitudes, es decir,
disimilitudes. El ejemplo más clásico es la distancia euclídea.
Coeficientes de asociación: se utilizan cuando trabajamos con datos
cualitativos, aunque también se pueden aplicar a datos cuantitativos, si se
está dispuesto a sacrificar alguna información proporcionada por los individuos
o las variables. Estas medidas son, básicamente, una forma de medir la
concordancia o conformidad entre los estados de dos columnas de datos.
Coeficientes angulares: se utilizan para medir la proporcionalidad e
independencia entre los vectores que definen los individuos. El más común es
el coeficiente de correlación aplicado a variables continuas.
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϭϵ
Coeficientes de similitud probabilística: miden la homogeneidad del sistema por
particiones o subparticiones del conjunto de los individuos e incluyen información
estadística. La idea de utilizar estos coeficientes se basa en relacionarlos con
diferentes clasificaciones, utilizando para ellas criterios de bondad o buenos ajustes
estadísticos. Las principales propiedades de estos coeficientes es que son aditivos,
se distribuyen como la Chi cuadrado y son probabilísticas. Esta última propiedad
permite, en aquellos casos en los que es posible, establecer una hipótesis nula y
contrastarla por los métodos estadísticos tradicionales.
A continuación se presentan los ejemplos más característicos de cada uno de
estos tipos de medidas de similitud.
()
()
()
()
()
()
()
()
()
()
+
=
=
=
=
=
=
xx
xx
i,jra d de CamberDistancia
xxMaxi,jchev d de TchebiDistancia
xxi,j djak o de Man City-BlocDistancia
xxi,jwki d de MinkosDistancia
xxi,j deuclidea Distancia
xxi,j dcuadrado al euclídea Distancia
Distancias tan
Se observa que la distancia euclídea al cuadrado entre dos individuos se define
como la suma de los cuadrados de las diferencias de todas las coordenadas de los dos
puntos. La distancia euclídea se define como la raíz cuadrada positiva de la distancia
anterior. La distancia de Minkowski es una distancia genérica que da lugar a otras
distancias en casos particulares y se define como la raíz q-ésima de la suma de las
potencias q-ésimas de las diferencias, en valor absoluto, de las coordenadas de los dos
puntos considerados. La distancia City-Block o distancia de Manhatan, es un caso particular
de la distancia o medida de Minkowski cuando q = 1 y resulta ser la suma de las
diferencias, en valor absoluto, de todas las coordenadas de los dos individuos cuya
distancia se calcula. El valor de esta medida es cero para la similitud perfecta y aumenta a
medida que los objetos son más disimilares. La distancia de Chebychev se define como el
caso límite de la medida de Minkowski para q tendiendo a infinito, es decir, es el máximo de
las diferencias absolutas de los valores de todas las coordenadas. La distancia Canberra es
una modificación de la distancia Manhattan que es sensible a proporciones y no sólo a
valores absolutos.
Los coeficientes de asociación suelen utilizarse para el caso de variables cualitativas, y
en general para el caso de datos binarios (o dicotómicos), que son aquéllos que sólo pueden
presentar dos opciones (blanco – negro, sí – no, hombre – mujer, verdadero – falso, etc.). En
este caso existen diferentes medidas de proximidad o similitud, que se verán a continuación,
partiendo de una tabla de frecuencias 2 x 2 en la que se representa el número de elementos de
la población en los que se constata la presencia o ausencia del carácter (variable cualitativa) en
estudio.
ϮϬdE/^^'DEd/MEDZK^ Ξ^dZKK
dcAusencia
baPresencia
AusenciaPresenciaVariable
Variable
2
1
()()
() ()
()
()
()
+
=
+++
+
==
+
=
++
=
+
=
bcad
bcad
SYule de eCoeficient
dcba
da
n
m
um
m
S
simpleentoemparejami de eCoeficient
cba
a
ua
a
SSneath-Jaccard
asociación de esCoeficient
El coeficiente de Jaccard - Sneath es uno de los coeficientes más sencillos, que no
tiene en cuenta los emparejamientos negativos, y se define como el número de
emparejamientos positivos entre la suma de los emparejamientos positivos y los desacuerdos.
A partir de su expresión se deduce que SJ tiende a cero cuando a/u tiende a cero,
esto es, SJ es cero cuando el número de emparejamientos positivos coincide con el de
desacuerdos, también SJ tiende a uno cuando u tiende a cero, es decir, SJ vale uno cuando
no hay desacuerdos. El coeficiente de Yule varía entre +1 y -1. El coeficiente de
emparejamiento simple se define como el cociente entre el número de emparejamientos y el
número total de casos considerados. De su expresión se deduce:
00 u
m
siSSM y 11 m
u
siSJ
En el caso de los coeficientes angulares su campo de variación está entre -1 y +1.
Los valores cercanos a 0 indican disimilitud entre los individuos y los valores que se
acercan a +1 o a -1 indican similitud positiva o negativa respectivamente. El cálculo de este
coeficiente entre los individuos i y j se realiza en función de Xi y Xj que son las medias
correspondientes a los individuos i y j.
()( )
()
()
()
()
()
()
()
=
=
∑∑
∑∑
cos
xx
xx
coseno del Distancia
XxXx
XxXx
rncorrelaci ó de eCoeficient
angulares esCoeficient
α
Los coeficientes de similitud probabilística calculan la probabilidad acumulada de
que un par de individuos i y j, sean tan similares, o más, que lo que empíricamente se
puede afirmar sobre la base de la distribución observada.
Para el caso de variables cualitativas y, en general, para el caso de datos binarios
o dicotómicos existen varias medidas de similaridad adicionales que se muestran en la tabla
siguiente:
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ Ϯϭ
cb
a
KKulczynski
cba
a
DSorensenyDice
cba
a
SSSneathySokal
cba
a
JJaccard
cbda
da
RTTanimotoyRogers
dcba
da
PSsimplesParejas
cbda
da
SSSneathySokal
cba
a
RRRaoyRussel
+
=
++
=
++
=
++
=
+++
+
=
+++
+
=
+++
+
=
++
=
2
2
)(2
2)2(
)(2
)(2
)(2
Hay otro grupo de medidas denominadas medidas de similaridad para probabilidades
condicionales, entre las que destacan las siguientes:
dcba
cbda
HHamann
dcddbdcaabaa
SSmedidaSneathySokal
caabaa
KmedidaKulczynski
+++
++
=
+++++++
=
+++
=
)()(
4
)/()/()/()/(
4)4(
2
)/()/(
2)2(
También suele considerarse un subgrupo de medidas denominadas de predicción
entre las que se encuentran la Dxy de Anderberg, la Yxy de Yule y la Qxy de Yule, que se
definen como sigue:
bcad
bcad
Q
bcad
bcad
Y
dcba
D
+
=
+
=
+++
+++++++
=)(2
)dcb,amax(d)bc,amax(d)b,max(c)a,max(d)c,max(b)a,max(
Por último, se usan otras medidas binarias, entre las que destacan las siguientes:
)(
2
)(
)(
)(
)(4
)(
)())((
))()()((
3)3(
))()()((
)5(
dcba
bc
PpatróndeDiferencia
cba
cb
LWWiliamsyLance
dcba
cb
TtamañodeDiferencia
dcba
bcad
DDispersión
dcba
cb
VdisimilarVarianzacbEBbinariaEuclídea
dcba
cbcbdcba
DFformadeDiferenciacbEBbinariaEuclídea
dccbcaba
bcad
phinCorrelació
cb
da
SSSneathySokal
dcdbcaba
ad
SSSSneathySokal
ca
a
ba
a
OOchiai
+++
=
++
+
=
+++
=
+++
=
+++
+
=+=
+++
++++
=+=
++++
=
+
+
=
++++
=
+
+
=
φ
2.1.2 Técnicas en el análisis cluster
Ya sabemos que el análisis de conglomerados o análisis cluster es un conjunto de
métodos y técnicas estadísticas que permiten describir y reconocer diferentes agrupaciones que
subyacen en un conjunto de datos, es decir, permiten clasificar, o dividir en grupos más o menos
homogéneos, un conjunto de individuos que están definidos por diferentes variables.
ϮϮdE/^^'DEd/MEDZK^ Ξ^dZKK
El objetivo principal del análisis de conglomerados consiste, por tanto, en
conseguir una o más particiones de un conjunto de individuos, en base a determinadas
características de los mismos. Estas características estarán definidas por las puntuaciones
que cada uno de ellos tiene con relación a diferentes variables.
Así, se podrá decir que dos individuos son similares si pertenecen a la misma
clase, grupo, conglomerado o cluster. Si se consigue este objetivo, se tendrá que todos los
individuos que están contenidos en el mismo conglomerado se parecerán entre sí, y serán
diferentes de los individuos que pertenecen a otro conglomerado. Por tanto, los miembros
de un conglomerado gozarán de unas características comunes que los diferencian de los
miembros de otros conglomerados. Estas características deberán, por la definición del
objetivo a conseguir, ser genéricas, y es claro que difícilmente una única característica
podrá definir un conglomerado.
El método para ejecutar un análisis de conglomerados comienza con la selección
de los individuos objeto del estudio, incluyendo en algunos casos su codificación a partir de
las variables o caracteres que los definen y su transformación adecuada para someterlos al
análisis si es necesario (tipificación de variables, desviaciones respecto de la media, etc.). A
continuación se determina la matriz de disimilitudes definiendo las distancias, similitudes o
disimilitudes de los individuos. Una vez determinadas las disimilitudes de los individuos, s e
procede a ejecutar el algoritmo que formará las diferentes agrupaciones o conglomerados
de individuos. Determinada ya la clasificación, el paso siguiente consiste en obtener una
representación gráfica de los conglomerados obtenidos, de modo que se puedan visualizar
los resultados alcanzados. Este proceso se lleva a cabo mediante un dendrograma.
Conseguido el propósito de la clasificación, la última fase a llevar a cabo es la interpretación
de los resultados obtenidos.
Los diferentes métodos de análisis de conglomerados surgen de las distintas
formas de llevar a cabo la agrupación de los individuos, es decir, dependiendo del algoritmo
que se utilice para llevar a cabo la agrupación de individuos o grupos de individuos, se
obtienen diferentes métodos de análisis de conglomerados. Una clasificación de los
métodos de análisis de conglomerados basada en los algoritmos de agrupación de
individuos podría ser la siguiente:
Métodos Aglomerativos-Divisivos: un método es aglomerativo si considera
tantos grupos como individuos y sucesivamente va fusionando los dos grupos
más similares, hasta llegar a una clasificación determinada; mientras que un
método es divisivo si parte de un solo grupo formado por todos los individuos,
de modo que en cada etapa va separando individuos de los grupos
establecidos anteriormente, formándose así nuevos grupos.
Métodos Jerárquicos-No jerárquicos: un método es jerárquico si consiste
en una secuencia de g+1 clusters: G0,….,Gg en la que G0 es la partición disjunta
de todos los individuos y Gg es el conjunto partición. El número de partes de
cada una de las particiones disminuye progresivamente, lo que hace que
éstas sean cada vez más amplias y menos homogéneas. Por el contrario, un
método se dice no jerárquico cuando se forman grupos homogéneos sin
establecer relaciones de orden o jerárquicas entre dichos grupos.
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ Ϯϯ
Métodos Solapados-Exclusivos: un método es solapado si admite que un
individuo pueda pertenecer a dos grupos simultáneamente en alguna de las
etapas de clasificación, mientras que se dice exclusivo si ningún individuo
puede pertenecer simultáneamente a dos grupos en la misma etapa.
Métodos Secuenciales-Simultáneos: un método es secuencial si a cada
grupo se le aplica el mismo algoritmo en forma recursiva, mientras que los
métodos simultáneos son aquéllos en los que la clasificación se logra por una
simple y no reiterada operación sobre los individuos.
Métodos Monotéticos-Politéticos: un método se dice monotético si está
basado en una característica única de los objetos a clasificar; mientras que es
politético si se basa en varias características de los mismos, sin exigir que
todos los objetos las posean, aunque sí las suficientes como para poder
justificar la analogía entre los miembros de una misma clase.
Métodos Directos-Iterativos: un método es directo si utiliza algoritmos en los
que una vez asignado un individuo a un grupo, ya no se saca del mismo;
mientras que los métodos iterativos corrigen las asignaciones previas,
volviendo a comprobar en posteriores iteraciones si la asignación de un
individuo a un conglomerado es óptima, llevando a cabo un nuevo
reagrupamiento de los individuos si es necesario.
Métodos Ponderados-No ponderados: los métodos no ponderados son
aquéllos que establecen el mismo peso a todas las características de los
individuos a clasificar; mientras que los ponderados hacen recaer mayor peso
en determinadas características.
Métodos Adaptativos-No adaptativos: los métodos no adaptativos son
aquélos para los que el algoritmo utilizado se dirige hacia una solución en la que
el método de formación de conglomerados es fijo y está predeterminado,
mientras que los adaptativos (menos utilizados) son aquéllos que, de alguna
manera, aprenden durante el proceso de formación de los grupos y modifican el
criterio de optimización o la medida de similitud a utilizar.
2.1.3 Clusters jerárquicos, secuenciales,
aglomerativos y exclusivos (S.A.H.N)
Los métodos de análisis de conglomerados que más se usan son los que son a la
vez secuenciales, aglomerativos, jerárquicos y exclusivos, y que reciben el acrónimo, en
lengua inglesa, de S.A.H.N. (Sequential, Agglomerative, Hierarchic y Nonoverlaping). En
todos los métodos de tipo S.A.H.N. se siguen dos pasos fundamentales en el proceso de
elaboración de los conglomerados. El primero de ellos es que los coeficientes de similitud o
disimilitud entre los nuevos conglomerados establecidos y los candidatos potenciales a ser
admitidos se recalcula en cada etapa, y el otro es el criterio de admisión de nuevos
miembros a un conglomerado ya establecido. Entre los diferentes métodos de análisis de
conglomerados de tipo S.A.H.N. tenemos los siguientes:
ϮϰdE/^^'DEd/MEDZK^ Ξ^dZKK
Método de unión simple (Single Linkage Clustering), entorno o vecino más
cercano (Nearest Neighbour) o método del mínimo (Minimum Method).
Método de la distancia máxima o método del máximo (Complete Linkage
Clustering, Furthest Neighbour o Maximum Method).
Método de la media o de la distancia promedio no ponderado (Weighted Pair
Groups Method Using Arithmetic Averages WPGMW).
Método de la media ponderada o de la distancia Promedio Ponderado (Group Average
o Unweighted Pair Groups Method Using Arithmetic Averages UPGMA).
Método de la mediana o de la distancia mediana (Weighted Pair Group
Centroid Method WPGMC).
Método del Centroide o de la Distancia Prototipo (Unweighted Pair Group
Centroid Method UPGMC).
Método de Ward o de mínima varianza.
2.1.4 El dendograma en el análisis cluster jerárquico
Es habitual en la investigación la necesidad de clasificar los datos en grupos con
estructura arborescente de dependencia, de acuerdo con diferentes niveles de jerarquía.
Partiendo de tantos grupos iniciales como individuos se estudian, se trata de conseguir
agrupaciones sucesivas entre ellos, de forma que progresivamente se vayan integrando en
clusters los cuales, a su vez, se unirán entre sí en un nivel superior, formando grupos mayores
que más tarde se juntarán hasta llegar al cluster final que contiene todos los casos analizados.
La representación gráfica de estas etap as de formación de grupos, a modo de árbol invertido, se
denomina dendograma y se representa a continuación:
Nivel de jerarquía H
G
F
E
D
C
B
A
1 2 3 4 5 6 7 8 9
Individuos
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ Ϯϱ
La figura, que corresponde a un estudio de los individuos, muestra cómo el 7 y el 8 se
agrupan en un primer cluster (A). En un nivel inmediatamente superior, se unen los individuos 1 y 2
(cluster B); y enseguida los 5 y 6 (cluster C). Un paso siguiente engloba el cluster B con el individuo
3 (cluster D); y así sucesivamente hasta que todos ellos quedan estructurados al conseguir, en el
nivel más alto, el cluster total (H) que reúne los 9 casos.
2.1.5 Análisis cluster no jerárquico
La clasificación de todos los casos de una tabla de datos en grupos separados que
configura el propio análisis, proporciona clusters no jerárquicos. Esta denominación alude a
la no existencia de una estructura vertical de dependencia entre los grupos formados y, por
consiguiente, éstos no se presentan en distintos niveles de jerarquía. El análisis precisa que
el investigador fije de antemano el número de clusters en los que quiere agrupar sus datos.
Como puede no existir un número definido de grupos o, si existe, generalmente no se
conoce, la prueba debe ser repetida con diferente número, a fin de tantear la clasificación que
mejor se ajuste al objetivo del problema, o la de más clara interpretación.
Los métodos no jerárquicos, también se conocen como métodos partitivos o de
optimización, dado que, como hemos visto, tienen por objetivo realizar una sola partición de
los individuos en K grupos. Esto implica que el investigador debe especificar a priori los
grupos que deben ser formados. Esta es, posiblemente, la principal diferencia respecto de
los métodos jerárquicos. La asignación de individuos a los grupos se hace mediante algún
proceso que optimice el criterio de selección. Otra diferencia está en que estos métodos
trabajan con la matriz de datos original y no requieren su conversión en una matriz de
proximidades. Pedret agrupa los métodos no jerárquicos en las cuatro familias siguientes:
reasignación, búsqueda de la densidad, directos y reducción de dimensiones.
Los métodos de reasignación permiten que un individuo asignado a un grupo en un
determinado paso del proceso sea reasignado a otro grupo en un paso posterior, si esto
optimiza el criterio de selección. El proceso termina cuando no quedan individuos cuya
reasignación permita optimizar el resultado que se ha conseguido. Algunos de los
algoritmos más conocidos dentro de estos métodos son el método K-means (o K-medias)
de McQueen (1967), el Quick Cluster Analysis y el método de Forgy, los cuales se suelen
agrupar bajo el nombre de métodos centroides o centros de gravedad. Por otra parte, está
el método de las nubes dinámicas, debido a Diday.
Los métodos de búsqueda de la densidad presentan una aproximación tipológica y
una aproximación probabilística. En la primera aproximación, los grupos se forman
buscando las zonas en las cuales se da una mayor concentración de individuos. Entre los
algoritmos más conocidos dentro de estos métodos están el análisis modal de Wishart, el
método de Taxmap de Carmichael y Sneath, y el método de Fortin. En la segunda
aproximación, se parte del postulado de que las variables siguen una ley de probabilidad
según la cual los parámetros varían de un grupo a otro. Se trata de encontrar los individuos
que pertenecen a la misma distribución. Destaca en esta aproximación el método de las
combinaciones de Wolf.
ϮϲdE/^^'DEd/MEDZK^ Ξ^dZKK
Los métodos directos permiten clasificar simultáneamente a los individuos y a las
variables. Las entidades agrupadas, ya no son los individuos o las variables, sino que son
las observaciones, es decir, los cruces que configuran la matriz de datos.
Los métodos de reducción de dimensiones, como el análisis factorial de tipo Q,
guardan relación con el análisis cluster. Este método consiste en buscar factores en el
espacio de los individuos, correspondiendo cada factor a un grupo. La interpretación de los
grupos puede ser compleja dado que cada individuo puede corresponder a varios factores
diferentes.
Resulta muy intuitivo suponer que una clasificación correcta debe ser aquélla en la que la
dispersión dentro de cada grupo formado sea la menor posible. Esta condición se denomina criterio
de varianza, y lleva a seleccionar una configuración cuando la suma de las varianzas dentro de
cada grupo (varianza residual) sea mínima.
Se han propuesto diversos algoritmos de clasificación no jerárquica, basados en minimizar
progresivamente esta varianza, que difieren en la elección de los clusters provisionales que
necesita el arranque del proceso y en el método de asignación de individuos a los grupos. Aquí se
describen los dos más utilizados.
El algoritmo de las H-medias parte de una primera configuración arbitraria de grupos
con su correspondiente media, eligiendo un primer individuo de arranque de cada grupo y
asignando posteriormente cada caso al grupo cuya media es más cercana. Una vez que
todos los casos han sido ubicados, calcula de nuevo las medias o centroides y las toma en
lugar de los primeros individuos como una mejor aproximación de los mismos, repitiendo el
proceso mientras la varianza residual vaya disminuyendo. La partición de arranque define el
número de clusters que, lógicamente, puede disminuir si ningún caso es asignado a alguno
de ellos.
El algoritmo de las K-medias, el más importante desde los puntos de vista conceptual y
práctico, parte también de unas medias arbitrarias y, mediante pruebas sucesivas, contrasta el
efecto que sobre la varianza residual tiene la asignación de cada uno de los casos a cada uno
de los grupos. El valor mínimo de varianza determina una configur ación de nuevos grupos con
sus respectivas medias. Se asignan otra vez todos los casos a estos nuevos centroides en un
proceso que se repite hasta que ninguna transferencia puede ya disminuir la varianza
residual; o se alcance otro criterio de parada: un número limitado de pasos de iteración o,
simplemente, que la diferencia obtenida entre los centroides de dos pasos consecutivos sea
menor que un valor prefijado. El procedimiento c onfigura los grupos maximizando, a su vez, la
distancia entre sus centros de gravedad. Como la varianza total es fija, minimizar la residual
hace máxima la factorial o intergrupos. Y puesto que minimizar la varianza residual es
equivalente a conseguir que sea mínima la suma de distancias al cuadrado desde los casos a
la media del cluster al que van a ser asignados, es esta distancia euclídea al cuadrado la
utilizada por el método.
Como se comprueban los casos secuencialmente para ver su influencia individual, el
cálculo puede verse afectado por el orden de los mismos en la tabla; pese a lo cual es el
algoritmo que mejores resultados produce. Otras variantes propuestas a este método llevan
a clasificaciones muy similares.
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ Ϯϳ
Como cualquier otro método de clasificación no jerárquica, proporciona una solución
final única para el número de clusters elegido, a la que se llegará con menor número de
iteraciones cuanto más cerca estén las “medias” de arranque de las que van a ser
finalmente obtenidas.
Los programas automáticos seleccionan generalmente estos primeros valores,
tantos como grupos se pretenda formar, entre los puntos más separados de la nube. Los
clusters no jerárquicos están indicados para grandes tablas de datos, y son también útiles
para la detección de casos atípicos: si se elige previamente un número elevado de grupos,
superior al deseado, aquéllos que contengan muy escaso número de individuos servirían
para detectar casos extremos que podrían distorsionar la configuración.
Es aconsejable realizar el análisis definitivo sin ellos, ya con el número deseado de
grupos para después, opcionalmente, asignar los atípicos al cluster adecuado que habrá sido
formado sin su influencia distorsionante. Un problema importante que tiene el investigador
para clasificar sus datos en grupos es, como se ha dicho, la elección de un número adecuado
de clusters. Puesto que siempre será conveniente efectuar varios tanteos, la selección del
más apropiado al fenómeno que se estudia ha de basarse en criterios tanto matemáticos
como de interpretabilidad. Entre los primeros, se han definido numerosos indicadores de
adecuación como el Criterio cúbico de clusters y la Pseudo F que se describen en el ejemplo
de aplicación práctica. El uso inteligente de estos criterios, combinado con la interpretabilidad
práctica de los grupos, constituye el arte de la decisión en la clasificación multivariante de
datos.
Matemáticamente, un método de clasificación no jerarquizado consiste en formar un
número prefijado K de clases homogéneas excluyentes, pero con máxima divergencia entre
las clases. Las K clases o clusters forman una única partición (clustering) y no están
organizadas jerárquicamente ni relacionadas entre sí. La clasificación no jerárquica o de
reagrupamiento tiene una estructura matemática menos precisa que la clasificación
jerárquica. El número de métodos existentes ha crecido excesivamente en los últimos años
y algunos problemas derivados de su utilización todavía no han sido resueltos.
Supongamos que N es el número de sujetos a clasificar formando K grupos,
respecto a n variables X1,...,Xn. Sean W, B y T las matrices de dispersión dentro de grupos,
entre grupos y total respectivamente. Como T = B + W y T no depende de la forma en que
han sido agrupados los sujetos, un criterio razonable de clasificación consiste en construir K
grupos de forma que B sea máxima o W sea mínima, siguiendo algún criterio apropiado.
Algunos de estos criterios son:
a) Minimizar Traza(W).
b) Minimizar Determinate(W).
c) Minimizar Det(W)/Det(T).
d) Maximizar Traza(W-1B).
e) Minimizar
∑∑
==
K
i
N
h
iihiiih XXSXX
11
1)()'(.
ϮϴdE/^^'DEd/MEDZK^ Ξ^dZKK
Los criterios a) y b) se justifican porque tratan de minimizar la magnitud de la matriz
W. El criterio e) es llamado criterio de Wilks y es equivalente a b) porque det(T) es
constante. El caso d) es el llamado criterio de Hottelling y el criterio e) representa la suma
de las distancias de Mahalanobis de cada sujeto al centroide del grupo al que es asignado.
Como el número de formas de agrupar N sujetos en K grupos es del orden de kN*k!, una
vez elegido el criterio de optimización, es necesario seguir algún algoritmo adecuado de
clasificación para evitar un número tan elevado de agrupamientos.
El método ISODATA es uno de los más conocidos. Esencialmente consiste en partir
de K clases (construidas por ejemplo aleatoriamente) y reasignar un sujeto de una clase i a
una clase j, si se mejora el criterio elegido de optimización.
2.2 SPSS Y EL ANÁLISIS CLUSTER JERÁRQUICO
Partimos del archivo aficiones.sav que contiene variables relativas a las aficiones de
los jóvenes, como el número de veces que van anualmente al fútbol, la paga semanal que
reciben y el número de horas semanales que ven la televisión. Se trata de agrupar a los
jóvenes con aficiones similares en segmentos mediante conglomerados jerárquicos.
Comenzamos cargando en memoria el fichero mediante Archivo
Abrir
Datos.
Dado que las tres variables están en escalas muy diferentes, es necesario tipificar las variables,
ya que, al trabajar con distancias, todas las variables han de venir medidas en las mismas
unidades. Comenzamos entonces tipificando las variables afectadas (fútbol, paga2 y tv),
rellenando la pantalla de entrada del procedimiento Descriptivos como se indica en la Figura 2-1
y su botón Opciones como se indica en la Figura 2-2. En la s alida (Figura 2-3) se observa que la
variación y el rango (según máximo y mínimo) de las tres variables es completamente distinto,
por lo que no hay comparabilidad posible de desviaciones típicas. Como en la Figura 2-1 se ha
marcado la casilla Guardar valores tipificados como variables, al ejecutar el procedimiento se
han obtenido tres nuevas variables tipificadas (zfútbol, zpaga2 y ztv).
Figura 2-1 Figura 2-2
Figura 2-3
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ Ϯϵ
Si ahora volvemos a ejecutar el procedimiento Descriptivos con las variables
tipificadas (Figura 2-4) se obtiene la salida de la Figura 2-5, que ya presenta rangos
comparables para las tres variables.
Figura 2-4 Figura 2-5
Otro paso interesante, antes de realizar un análisis cluster, es realizar un gráfico
de dispersión en tres dimensiones para las tres variables tipificadas, con el objeto de atisbar
los grupos que podrían formarse. Para ello elegimos Gráficos
Dispersión, seleccionamos
3-D (Figura 2-6) y rellenamos la pantalla de entrada del procedimiento Diagramas de
dispersión como se indica en la Figura 2-7. Al pulsar Aceptar se obtiene el gráfico de
dispersión para las variables tipificadas de la Figura 2-8, en el cual se intuye que podríamos
agrupar a los individuos en tres conglomerados, ya que se observa una separación clara en
tres grupos de puntos.
Figura 2-6
Figura 2-7 Figura 2-8
Para realizar un análisis cluster jerárquico, elija en los menús Analizar
Clasificar
Conglomerados jerárquicos (Figura 2-9), y seleccione las variables y las especi ficaci ones para el
análisis (Figura 2-10).
El botón Gráficos nos lleva a la pantalla de la Figura 2-11 cuya opción Dendrograma
realiza el dendrograma correspondiente. Los dendrogramas pueden emplearse para
evaluar la cohesión de los conglomerados que se han formado y proporcionar información
sobre el número adecuado de conglomerados que deben conservarse.
ϯϬdE/^^'DEd/MEDZK^ Ξ^dZKK
El dendrograma constituye la representación visual de los pasos de una solución de
conglomeración jerárquica que muestra, para cada paso, los conglomerados que se combinan y
los valores de los coeficientes de distancia. Las líneas verticales conectadas designan casos
combinados. El dendrograma vuelve a escalar las distancias reales a valores entre 0 y 25,
preservando la razón de las distancias entre los pasos. El cuadro Témpanos de la Figura 2-57
muestra un diagrama de témpanos, que incluye todos los conglomerados o un rango
especificado de conglomerados. Los diagramas de témpanos muestran información sobre cómo
se combinan los casos en los conglomerados, en cada iteración del análisis. La orientación
permite seleccionar un diagrama vertical u horizontal: diagrama de témpanos (Conglomerados).
En la base de este diagrama (la derecha en los gráficos horizontales) no hay casos unidos
todavía y a medida que se recorre hacia arriba el diagrama (o de derecha a izquierda en los
horizontales), los casos que se unen se marcan con una X o una barra en la columna situada
entre ellos, mientras que los conglomerados separados se indican con un espacio en blanco
entre ellos.
El botón Método de la Figura 2-10 nos lleva a la Figura 2-12, cuya opción Método de
conglomeración permite elegir dicho método. Las opciones disponibles son: Vinculación
intergrupos, Vinculación intragrupos, Vecino más próximo, Vecino más lejano, Agrupación de
centroides, Agrupación de medianas y Método de Ward. El cuadro Medida de la Figura 2-13
permite especificar la medida de distancia o similaridad que será empleada en la aglomeración.
Seleccione el tipo de datos y la medida de distancia o similaridad adecuada. En la opción Intervalo
(Figura 2-14), las opciones disponibles son: Distancia euclídea, Distancia euclídea al cuadrado,
Coseno, Correlación de Pearson, Chebychev, Bloque, Minkowski y Personalizada. En la opción
Datos de frecuencias (Figura 2-15), las opciones disponibles son: Medida de Chi-cuadrado y
Medida de Phi-cuadrado. En la opción Datos binarios (Figura 2-16), las opciones disponibles son:
Distancia euclídea, Distancia euclídea al cuadrado, Diferencia de tamaño, Diferencia de
configuración, Varianza, Dispersión, Forma, Concordancia simple, Correlación Phi de 4 puntos,
Lambda, D de Anderberg, Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2, Lance y Williams,
Ochiai, Rogers y Tanimoto, Russel y Rao, Sokal y Sneath 1, Sokal y Sneath 2, Sokal y Sneath 3,
Sokal y Sneath 4, Sokal y Sneath 5, Y de Yule y Q de Yule. El cuadro Transformar valores permite
estandarizar los valores de los datos, para los casos o las variables, antes de calcular las
proximidades (no está disponible para datos binarios). Los métodos disponibles de
estandarización (Figura 2-16) son: Puntuaciones Z, Rango
1 a 1, Rango 0 a 1, Magnitud máxima
de 1, Media de 1 y Desviación típica 1.
El cuadro Transformar medidas permite transformar los valores generados por la
medida de distancia. Las opciones disponibles son: Valores absolutos, Cambiar el signo y
Cambiar la escala al rango 0-1.
Figura 2-9 Figura 2-10
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϯϭ
Figura 2-11 Figura 2-12
Figura 2-13 Figura 2-14
Figura 2-15 Figura 2-16
El botón Estadísticos de la Figura 2-10 nos lleva a la pantalla de la Figura 2-17, cuya
opción Historial de conglomeración muestra los casos o conglomerados combinados en cada
etapa, las distancias entre los casos o los conglomerados que se combinan, así como el último
nivel del proceso de aglomeración en el que cada caso (o variable) se unió a su conglomerado
correspondiente. La opción Matriz de distancias proporciona las distancias o similaridades entre
los elementos. El campo Conglomerado de pertenencia muestra el conglomerado al cual se
asigna cada caso en una o varias etapas de la combinación de los conglomerados. Las
opciones disponibles son: Solución única y Rango de soluciones.
ϯϮdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 2-17 Figura 2-18
El botón Guardar de la Figura 2-10 permite guardar información sobre la solución
como nuevas variables para que puedan ser utilizadas en análisis subsiguientes (Figura
2-18). Estas variables se refieren al Conglomerado de pertenencia, que permite guardar los
conglomerados de pertenencia para una solución única o un rango de soluciones. Las
variables guardadas pueden emplearse en análisis posteriores para explorar otras
diferencias entre los grupos.
En todas las figuras, el botón Restablecer permite restablecer todas las opciones por
defecto del sistema y elimina del cuadro de diálogo todas las asignaciones hechas con las
variables. Una vez elegidas las especificaciones, se pulsa el botón Aceptar en la Figura 2-10
para obtener los resultados del análisis clust er jerárquico según se muestra en la Figura 2-19. En
la parte izquierda de la figura podemos ir seleccionando los distintos tipos de resultados
haciendo clic sobre ellos. También se ven los resultados desplazándose a lo largo de la pantalla.
A continuación se presentan el historial de conglomeración (Figura 2-20), el diagrama de
témpanos (Figura 2-21) y el dendograma (Figura 2-22).
Figura 2-19 Figura 2-20
Figura 2-21
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϯϯ
Figura 2-22
El dendograma sugiere los conglomerados {3, 9, 4}, {7, 10, 14}, {2, 8, 5, 11, 13} y {1,
6, 12}.
2.3 SPSS Y EL ANÁLISIS CLUSTER NO JERÁRQUICO
SPSS trata el análisis cluster no jerárquico mediante el método k-medias. Para ello
incorpora un procedimiento que intenta identificar gru pos de casos relativamente homogéneos
(segmentos), basándose en las características seleccionadas y utilizando un algoritmo que
puede gestionar un gran número de casos. Sin embargo, el algoritmo requiere que el usuario
especifique el número de conglomerados. Es posible especificar los centros iniciales de los
conglomerados si se conoce de antemano dicha información. Es posible elegir uno de los dos
métodos disponibles para clasificar los casos: la actualización de los centros de los
conglomerados de forma iterativa o sólo la clasificación. Así mismo, se puede guardar la
pertenencia a los conglomerados, información de la distancia y los centros de los
conglomerados finales. También es posible especificar una var iable cuyos valores sean
utilizados para etiquetar los resultados por casos . También se pueden solicitar los estadísticos
F de los análisis de varianza. Aunque estos estadísticos son oportunistas (ya que el
procedimiento trata de formar grupos que de hecho difieran), el tamaño relativo de los
estadísticos proporciona información acerca de la contribución de cada variable a la
separación de los grupos. Para la solución completa se obtendrán los centros iniciales de los
conglomerados y la tabla de ANOVA. Para cada caso se obtendrá información del
conglomerado y la distancia desde el centro del conglomerado.
Para realizar un análisis cluster no jerárquico de k-medias, elija en los menús Analizar
Clasificar
Conglomerado de k medias (Figura 2-23) y seleccione las variables y las
especificaciones para el análisis (Figura 2-24). Elegimos tres conglomerados porque la
representación gráfica del gráfico de dispersión tridimensional detectó tres grupos posibles.
ϯϰdE/^^'DEd/MEDZK^ Ξ^dZKK
Previamente es necesario cargar en memoria el fichero de nombre aficiones.sav mediante
Archivo
Abrir
Datos, con la finalidad de realizar el análisis cluster no jerárquico para el mismo
ejemplo utilizado previamente en el análisis jerárquico. De esta forma, podremos comparar
resultados. En cuanto a los datos, las variables deben ser cuantitativas en el nivel de intervalo o de
razón. Si las variables son binarias o recuentos, utilice el procedimiento Análisis de conglomerados
jerárquicos.
Figura 2-23 Figura 2-24
Las distancias se calculan utilizando la distancia euclídea simple. Si desea utilizar otra
medida de distancia o de similaridad, utilice el procedimiento Análisis de conglomerados
jerárquicos. El escalamiento de las variables es una consideración importante. Si las variables
utilizan diferentes escalas (por ejemplo, una variable se expresa en dólares y otra en años), los
resultados podrían ser equívocos. En estos casos, debería considerar la estandarización de las
variables antes de realizar el análisis de conglomerados de k-medias (esto se puede hacer en el
procedimiento Descriptivos). Este procedimiento supone que ha seleccionado el número apropiado
de conglomerados y que ha incluido todas las variables relevantes. Si ha seleccionado un número
inapropiado de conglomerados o ha omitido variables relevantes, los resultados podrían ser
equívocos.
El botón Opciones de la Figura 2-25 nos lleva a la pantalla de la Figura 2-26, en cuyo
cuadro Estadísticos se establecen los estadísticos más relevantes relativos a las variables que
ofrecerá el análisis, que son: centros de conglomerados iniciales, tabla ANOVA e información del
conglomerado para cada caso. En el cuadro Valores perdidos se elige la forma de su exclusión.
Las opciones disponibles son: excluir casos según lista o excluir casos según pareja.
El botón Iterar (sólo disponible si se ha seleccionado el método Iterar y clasificar en
el cuadro de diálogo principal de la Figura 2-24) nos lleva a la pantalla de la Figura 2-26
cuya opción N.° máximo de iteraciones limita el número de iteraciones en el algoritmo
k-medias, de modo que el proceso iterativo se detiene después de este número de
iteraciones, incluso si no se ha satisfecho el criterio de convergencia. Este número debe
estar entre el 1 y el 999. Para reproducir el algoritmo utilizado por el comando Quick Cluster
en las versiones previas a la 5.0, establezca a 1 el número máximo de iteraciones. La
opción Criterio de convergencia determina cuándo cesa la iteración y representa una
proporción de la distancia mínima entre los centros iniciales de los conglomerados, por lo
que debe ser mayor que 0, pero no mayor que 1. Por ejemplo, si el criterio es igual a 0,02,
la iteración cesará si una iteración completa no mueve ninguno de los centros de los
conglomerados en una distancia superior al 2% de la distancia menor entre cualquiera de
los centros iniciales. La opción Usar medias actualizadas permite solicitar la actualización
de los centros de los conglomerados tras la asignación de cada caso.
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϯϱ
Si no selecciona esta opción, los nuevos centros de los conglomerados se calcularán
después de la asignación de todos los casos. El botón Guardar permite guardar información
sobre la solución como nuevas variables para que puedan ser utilizadas en análisis subsiguientes.
Estas variables son: Conglomerado de pertenencia, que crea una nueva variable que indica el
conglomerado final al que pertenece cada caso (los valores de la nueva variable van desde el 1
hasta el número de conglomerados) y Distancia desde centro del conglomerado, que indica la
distancia euclídea entre cada caso y su centro de clasificación.
El botón Centros permite al usuario especificar sus propios centros iniciales para los
conglomerados (Leer iniciales de) o guardar los centros finales para análisis subsiguientes
(Guardar finales en). El botón Pegar genera la sintaxis del comando a partir de las seleccion es
del cuadro de diálogo y pega dicha sintaxis en la ventana de sintaxis designada. Para poder
pulsar en Pegar, debe seleccionar al menos una variable.
Figura 2-25 Figura 2-26
En todas las figuras, el botón Restablecer permite restablecer todas las opciones por
defecto del sistema y elimina del cuadro de diálogo todas las asignaciones hechas con las
variables. Una vez elegidas las especificaciones, se pulsa el botón Aceptar en la Figura 2-26 para
obtener los resultados del análisis cluster de k-medias según se muestra en la Figura 2-27. En la
parte izquierda de la figura podemos ir seleccionando los distintos tipos de resultados haciendo
clic sobre ellos. También se ven los resultados desplazándose a lo largo de la pantalla. La primera
parte de la salida que se observa en la Figura 2-27 son los centros iniciales de los conglomerados
y el historial de iteraciones. En la Figura 2-28 se presentan los centros de los conglomerados
finales y el número de casos en cada conglomerado.
Figura 2-27
ϯϲdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 2-28
Figura 2-29
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϯϳ
En la Figura 2-26 se presentan los centros iniciales de los conglomerados. Para el
comienzo del método iterativo, en un principio se seleccionan tantos individuos como
conglomerados hayamos solicitado, de modo que estos individuos iniciales tengan distancia
máxima entre ellos y que al estar separados lo suficiente produzcan los centros iniciales. Una vez
estimados los centroides iniciales, se calcula la distancia de cada punto a cada uno de ellos y, en
función de la mínima distancia obtenida, se irán clasificando los individuos en los tres grupos de
conglomerados. Realizados los tres grupos, se calculan los tres centros y se repite el mismo
proceso para hacer otra agrupación, y así sucesivamente hasta agotar las iteraciones o hasta que
se cumpla el criterio de parada. En el historial de iteraciones de la Figura 2-26 aparece el número
de iteraciones realizadas y los cambios producidos en los centroides. En la Figura 2-28 se
presentan los centros de los conglomerados obtenidos al final del proceso iterativo y la lista de
pertenencia de cada individuo a su conglomerado con la distancia de cada uno al centro de su
grupo.
En la Figura 2-29 se presenta una tabla ANOVA para los conglomerados cuyas
pruebas F sólo se deben utilizar con una finalidad descriptiva, puesto que los conglomerados
han sido elegidos para maximizar las diferencias entre los casos en diferentes
conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse
como pruebas de la hipótesis de que los centros de los conglomerados son iguales. Lo
relevante son los valores F, que no deben ser muy pequeños (lo más alejados posible del
valor 1) para que las variables sean realmente efectiv as en la identificación de clusters.
La tabla de pertenencia a los conglomerados de la Figura 2-74 permite realizar los
siguientes clusters, conglomerados o segementos {1, 6}, {2, 5, 8, 11, 12, 13} y {3, 4, 7, 9,
10, 14}, que no están muy lejos de los conglomerados obtenidos por el método jerárquico
(si unimos los dos primeros).
2.4 SAS Y EL ANÁLISIS CLUSTER JERÁRQUICO
SAS realiza el análisis cluster jerárquico utilizando tres procedimientos. En primer
lugar el procedimiento ACECLUS prepara los datos adecuadamente, en segundo lugar el
procedimiento CLUSTER realiza los cálculos del análisis de conglomerados y en tercer
lugar el procedimiento TREE representa gráficamente el dendograma.
2.4.1 Procedimiento ACECLUS
El procedimiento ACECLUS transforma los datos cuando las variables iniciales no
tienen igual varianza, de modo que la matriz de varianzas covarianzas dentro de clusters
sea esférica. También calcula variables canónicas para utilizar en posteriores análisis, por
ejemplo con PROC CLUSTER.
La sintaxis de PROC ACECLUS es la siguiente:
PROC ACECLUS PROPORTION=p THRESHOLD=t opciones;
BY variables;
FREQ variable;
WHEIGT variable;
VAR variables;
ϯϴdE/^^'DEd/MEDZK^ Ξ^dZKK
PROPORTION=p THRESHOLD=t son los parámetros para la transformac ión de
estandarización de las variables. Las opciones de PROC ACECLUS, cuya función ya
conocemos de otros procedimientos son: ABSOLUTE, CONVERGE=c, DATA=conjunto de
datos, INITIAL=nombre, MAXITER=n, METHOD= COUNT | C, METRIC=nombre, MPAIRS=m,
N=n, NOPRINT, OUT=conjunto de datos, OUTSTAT=conjunto de datos, PROPORTION=p, PP,
PREFIX=nombre, QQ, SHORT, SINGULAR=g, THRESHOLD=t. El procedimiento TREE realiza
dendogramas relativos a los conglomerados producidos por PROC CLUSTER (o PROC
VARCLUS).
La sintaxis de PROC TREE es la siguiente:
PROC TREE opciones;
NAME variables;
HEIGHT variable;
COPY variable;
BY variables;
FREQ variable;
ID variable;
VAR variables;
Las opciones de PROC TREE, la mayoría ya conocemos de otros procedimientos, y
que pueden consultarse en el manual del programa son: CFRAME=color, DATA=SAS-data-set,
DESCENDING, DESCRIPTION= entry-description, DISSIMILAR, DO CK=n, FILLCHAR='c',
GOUT=member-name, HAXIS=AXISn, HEIGHT=name, HORDISPLAY= RIGHT,
HORIZONTAL, HPAGES=n1, INC=n, JOINCHAR='c',LEAFCHAR='c',LEVEL=n, LINEPRINTER,
LINES=(), LIST, MAXHEIGHT=n, NAME= name,
MINHEIGHT=n, NCLUSTERS=n, NTICK=n, NOPRINT,OUT= SAS-data-set, PAGES=n,
POS=n, ROOT='name', SIMILAR, SORT, SPACES=s, TICKPOS=n, TREECHAR='c ' ,
VAXIS=AXISn y VPAGES=n2.
La opción NAME declara la variable numérica que identifica los nodos del
dendograma. La opción HEIGHT identifica la variable numérica que representa las alturas
del dendograma. La opción PARENT identifica el nodo padre. La opción COPY identifica
variables a copiar en la salida a fichero.
2.4.2 Procedimiento CLUSTER
El procedimiento CLUSTER realiza análisis cluster jerárquico utilizando varios
métodos. Su sintaxis es la siguiente:
PROC CLUSTER METHOD=nombre opciones;
BY variables;
COPY variables;
FREQ variable;
ID variable;
RMSSTD variables;
VAR variables;
Los métodos a utilizar en PROC CLUSTER son: AVERAGE | AVE, CENTROID | CEN,
COMPLETE | COM, DENSITY | DEN, EML, FLEXIBLE | FLE, MCQUITTY | MCQ, MEDIAN |
MED, SINGLE | SIN, TWOSTAGE | TWO y WARD | WAR .
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϯϵ
Las opciones de PROC CLUSTER son: DATA= conjunto de datos de entrada,
OUTTREE= conjunto de datos de salida que contienen los datos para que el PROC TREE
dibuje el diagrama de árbol, BETA= valor para β en el método flexible, MODE= n.º mínimo
de miembros para el cluster modal, PENALTY = coeficiente para máxima verosimilitud,
HYBRID para usar el método híbrido de Wong, NOEIGEN suprime autovalores, NONORM
suprime normalización de distancias, NOSQUARE suprime cuadrados de distancias,
STANDARD estandariza variables, TRIM=p omite puntos con densidad de probabilidad
baja, DIM=dimensionalidad para estimaciones, K=n.º de vecinos más cercanos, R= radio de
la esfera del núcleo uniforme, CCC muestra el criterio cúbico de cluster, NOID suprime la
salida relativa a los valores ID, PRINT = n.º de generaciones a mostrar, PSEUDO muestra
pseudo estadísticos F y t2 , RMSSTD muestra la desviación típica del cuadrado medio de la
raíz, RSQUARE muestra R2 y semiparcial R2, NOPRINT suprime el output y SIMPLE
muestra resúmenes estadísticos.
La sentencia COPY copia las variables especificadas en el conjunto de datos
definido en OUTTREE = conjunto de datos, la sentencia VAR lista las variables numéricas a
utilizar en el análisis cluster, la sentencia BY permite obtener análisis separados para
grupos definidos en las variables de BY, la sentencia FREQ permite introducir una variable
con las frecuencias absolutas de las observaciones, la sentencia RMSSTD identifica las
variables para las que se muestra la desviación típica del cuadrado medio de la raíz y la
sentencia ID identifica observaciones en OUTTREE = conjunto de datos o en el historial del
análisis.
Las opciones de PROC CLUSTER y sus funcionalidades se presentan en la tabla
siguiente:
Funcionalidades Opciones
Conjuntos de datos de entrada y salida
Conjunto de datos de entrada DATA=
Conjunto de datos de salida OUTTREE=
Métodos cluster
Especificar método METHOD=
Parámetro β del método flexible BETA=
Mínimo número de miembros en cluster modal MODE=
Coeficiente de máxima verosimilitud PENALTY=
Método híbrido de Wong HYBRID
Control del procesamiento de los datos
Suprimir autovalores NOEIGEN
Suprimir normalización de distancias NONORM
Suprimir cuadrados de distancias NOSQUARE
Estandarizar variables STANDARD
Omitir puntos con baja densidad de probabilidad TRIM=
Control de la estimación de la densidad
Dimensionalidad para estimaciones DIM=
Número de vecinos para el método del vecino más cercano K=
Radio de la esfera de soporte para el kernel uniforme R=
Suprimir controles NOTIE
Control de historial de cluster
Mostrar criterio cúbico de clustering CCC
Suprimir valores ID NOID
Especificar número de generaciones a mostrar PRINT=
Mostrar los estadísticos pseudo F y t2 PSEUDO
Mostrar desviaciones estándar RMSSTD
Mostrar R2 yR2 semiparcial RSQUARE
ϰϬdE/^^'DEd/MEDZK^ Ξ^dZKK
Control de aspecto de la salida
Suprimir toda la salida NOPRINT
Mostrar estadísticos resumen simples SIMPLE
2.4.3 Procedimiento TREE
El procedimiento TREE realiza dendogramas relativos a los conglomerados
producidos por PROC CLUSTER (o PROC VARCLUS). Su sintaxis es la siguiente:
PROC TREE opciones;
NAME variables;
HEIGHT variable;
COPY variable;
BY variables;
FREQ variable;
ID variable;
VAR variables;
Las opciones de PROC TREE (la mayoría ya conocemos de otros procedimientos) y que
pueden consultarse en el manual del programa son: CFRAME=color, DATA=SAS-data-set,
DESCENDING, DESCRIPTION= entry-description, DISSIMILAR, DOCK=n, FILLCHAR='c',
GOUT=member-name, HAXIS=AXISn, HEIGHT=name, HORDISPLAY= RIGHT,
HORIZONTAL, HPAGES=n1, INC=n, JOINCHAR='c',LEAFCHAR='c',LEVEL=n, LINEPRINTER,
LINES=(), LIST, MAXHEIGHT=n, NAME= name,
MINHEIGHT=n, NCLUSTERS=n, NTICK=n, NOPRINT,OUT= SAS-data-set, PAGES=n, POS=n,
ROOT='name', SIMILAR, SORT, SPACES=s, TICKPOS=n, TREECHAR='c' , VAXIS=AXISn y
VPAGES=n2.
La opción NAME declara la variable numérica que identifica los nodos del
dendograma. La opción HEIGHT identifica la variable numérica que representa las alturas
del dendograma. La opción PARENT identifica el nodo padre. La opción COPY identifica
variables a copiar en la salida a fichero.
Como ejemplo completo que engloba los tres procedimientos, realizaremos un
análisis cluster que agrupe adecuadamente 30 estados según índice de pobreza,
conociendo tasas de natalidad, mortalidad, mortalidad infantil, esperanza de vida al nacer,
densidad de población y población urbana. Los datos se encuentran en el archivo
clustern.sas7bdat. La sintaxis SAS es la siguiente:
data pobreza;
set ejemplos.clustern;
proc aceclus data=pobreza out=salida p=.03 noprint;
var NAT MORT MORTINF ESPVID DENSPOB POBURB;
run;
proc cluster data=salida outtree=arbol method=ward ccc pseudo
print=15;
var can1 can2 can3;
id PAIS;
run;
La salida con los clusters es la siguiente:
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϰϭ
Procedimiento CLUSTER
Análisis del conglomerado de la varianza mínima de Ward
Autovalores de la matriz de covarianza
Autovalor Diferencia Proporción Acumulada
1 20.5697596 1.4321888 0.4522 0.4522
2 19.1375708 13.3531664 0.4207 0.8728
3 5.7844044 0.1272 1.0000
Desviación estándar de la muestra total cuadrática media = 3.894087
Distancia cuadrática media entre observaciones = 9.538526
Historia de conglomerado
i
NCL ----Conglomerados unidos---- Frecuencia SPRSQ RSQ ERSQ CCC PSF PST2 e
15 CL18 COSTA RICA 3 0.0032 .981 . . 56.6 1.6
14 CL17 CL23 8 0.0038 .978 . . 53.9 4.9
13 R. DOMINICANA EL SALVADOR 2 0.0048 .973 . . 50.7 .
12 CL14 CL19 12 0.0052 .968 . . 48.9 4.9
11 CL20 BOLIVIA 3 0.0058 .962 . . 47.9 4.0
10 CL11 CENTROAFRICA 4 0.0091 .953 . . 44.8 2.5
9 CL15 CL22 5 0.0093 .943 . . 43.8 4.3
8 CL16 COREA SUR 3 0.0101 .933 . . 44.0 3.7
7 CL21 CONGO 3 0.0156 .918 . . 42.8 12.7
6 CL9 CL13 7 0.0209 .897 .821 4.70 41.7 5.1
5 CL6 CL7 10 0.0605 .836 .779 2.70 32.0 8.3
4 CL10 CL5 14 0.1142 .722 .722 0.00 22.5 10.1
3 CL8 CL12 15 0.1272 .595 .634 -.97 19.8 58.0
2 CL4 BANGLADESH 15 0.2601 .335 .384 -.93 14.1 13.6
1 CL3 CL2 30 0.3349 .000 .000 0.00 . 14.1
Como no queda clara la formación de los clusters, puede realizarse un gráfico, o
dendograma, que ayude a interpretar los clusters obtenidos mediante el PRC TREE como sigue:
proc tree data=arbol out=Nuevo nclusters=3;
id PAIS;
run;
La salida presenta el dendograma en la figura 2-30.
Figura 2-30
ϰϮdE/^^'DEd/MEDZK^ Ξ^dZKK
Se observa que pueden considerarse seis clusters de último nivel, que son los
siguientes: {Alemania, Bélgica, Corea del Sur}, {Argentina, Estados Unidos, Chile, Brasil,
Austria, Colombia, China, Dinamarca, Australia, Canadá, Emiratos Árabes, España},
{Angola, Chad, Bolivia, Centro África}, {Arabia Saudita, Argelia, Costa Rica, Ecuador,
Egipto, República Dominicana, El Salvador}, {Camerún, Costa de Marfil, Congo} y
{Bangladesh}. En un segundo nivel de aglomeración podrían considerarse tres clusters
agrupando los dos primeros de último nivel, los tres siguientes y dejando el último
conglomerado como estaba.
2.5 SAS Y EL ANÁLISIS CLUSTER NO JERÁRQUICO
El procedimiento habitual para realizar análisis cluster no jerárquico en SAS es
VARCLUS que realizar análisis cluster no jerárquico y jerárquico. Se trata del procedimiento
más general para realizar análisis cluster. Su sintaxis es la siguiente:
PROC VARCLUS opciones;
BY variables;
SEED variables;
FREQ variable;
PARTIAL variables;
WEIGHT variables;
VAR variables;
Los posibles métodos a utilizar en PROC CLUSTER son: AVERAGE | AVE , CENTROID |
CEN, COMPLETE | COM, DENSITY | DEN, EML, FLEXIBLE | FLE, MCQUITTY | MCQ, MEDIAN |
MED, SINGLE | SIN, TWOSTAGE | TWO y WARD | WAR
Las opciones de PROC CLUSTER son: DATA= conjunto de datos de entrada,
OUTTREE= conjunto de datos de salida que contienen los datos para que el PROC TREE dibuje
el diagrama de árbol, OUTSTAT=conjunto de datos de salida con los resultados del análisis,
CENTROID, COVARIANCE HIERARCHY y MULTIPLEGROUP son métodos para elaborar
clusters, INTITIAL= GROUP | INPUT | RANDOM | SEED define opciones para inicializar los
clusters, MAXITER=n indica el máximo número de iteraciones en total, MAXSEARCH=n indica el
máximo número de iteraciones en la fase de búsqueda, RANDOM=semilla aleatoria,
MAXCLUSTERS= n.º máximo de clusters a obtener MINCLUSTERS= n.º mínimo de clusters a
obtener, MAXEIGEN= mayor valor propio admitido para formar clusters, PROPORTION= mayor
proporción de varianza admitida para la formación de clusters, CORR imprime la matriz de
correlaciones, NOPRINT elimina el output, SHORT para obtener una salida simplificada, SIMPLE
para mostrar medias y desviaciones típicas, SUMMARY suprime todo el output excepto la tabla
final, TRACE para mostrar el proceso de formación de clusters, NOINT elimina la constante del
ajuste y VARDEF=DF | N | WDF | WEIGHT | WGT para fijar el denominador del cálculo de las
varianzas.
La sentencia SEED especifica las variables a utilizar como semillas para inicializar los
clusters, PARTIAL define las variables a utilizar como referencia cuando se usan clusters basados
en correlaciones parciales, la sentencia VAR lista las variables numéricas a utilizar en el análisis
cluster, la sentencia BY permite obtener análisis separados para grupos definidos en las variables
de BY, la sentencia FREQ permite introducir una variable con las frecuencias absolutas de las
observaciones y la sentencia WEIGTH permite usar variable de pesos.
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϰϯ
Como ejemplo consideremos los datos relativos a la cantidad de proteínas consumidas en
cada uno de los 25 Estados europeos en nueve grupos de comidas: carne roja, carne blanca,
huevos, leche, pescado, cereal, fécula, frutos secos y fruta (los datos se presentan en la sintaxis del
procedimiento). Se trata de realizar un análisis cluster que agrupe los países según hábitos de
consumo de proteínas similares. Se usa el procedimiento VARCLUS para formar cuatro clusters
según la sintaxis siguiente:
data Proteinas;
input Estado $ CarneR CarneB Huevos Leche Pescado Cereal Fecula Secos
Fruta;
datalines;
Albania 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
Austria 8.9 14.0 4.3 19.9 2.1 28.0 3.6 1.3 4.3 Belgica
13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4.0
Bulgaria 7.8 6.0 1.6 8.3 1.2 56.7 1.1 3.7 4.2
Checoslovaquia 9.7 11.4 2.8 13.5 2.0 34.3 5.0 1.1 4.0
Dinamarca 10.6 10.8 3.7 25.0 9.9 21.9 4.8 0.7 2.4
Alemania 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6
Finlandia 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1.0 1.4
Francia 18.0 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5
Grecia 10.2 3.0 2.8 17.6 5.9 41.7 2.2 7.8 6.5
Hungria 5.3 13.4 2.9 9.7 0.3 40.1 4.0 5.4 4.2
Irlanda 13.9 10.0 4.7 25.8 2.2 24.0 6.2 1.6 2.9
Italia 9.0 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7
Holanda 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7
Noruega 9.4 4.7 2.7 23.3 9.7 23.0 4.6 1.6 2.7
Polonia 6.9 10.2 2.7 19.3 3.0 36.1 5.9 2.0 6.6
Portugal 6.2 3.7 1.1 4.9 14.2 27.0 5.9 4.7 7.9
Rumania 6.2 6.3 1.5 11.1 1.0 49.6 3.1 5.3 2.8
Spana 7.1 3.4 3.1 8.6 7.0 29.2 5.7 5.9 7.2
Suecia 9.9 7.8 3.5 4.7 7.5 19.5 3.7 1.4 2.0
Suiza 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9
UK 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3
URSS 9.3 4.6 2.1 16.6 3.0 43.6 6.4 3.4 2.9
Luxemburgo 11.4 13.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8
Yugoslavia 4.4 5.0 1.2 9.5 0.6 55.9 3.0 5.7 3.2
;
proc varclus data=Proteinas outtree=tree centroid maxclusters=4;
var CarneR--Fruta;
run;
La salida es la siguiente:
Oblique Centroid Component Cluster Analysis
Observations 25 PROPORTION 1
Variables 9 MAXEIGEN 0
Clustering algorithm converged.
Cluster summary for 1 cluster
Cluster Variation Proportion
Cluster Members Variation Explained Explained
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
1 9 9 0.840541 0.0934
Total variation explained = 0.840541 Proportion = 0.0934
Cluster 1 will be split.
Clustering algorithm converged.
Cluster summary for 2 clusters
Cluster Variation Proportion
Cluster Members Variation Explained Explained
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
1 6 6 2.366172 0.3944
2 3 3 1.71501 0.5717
ϰϰdE/^^'DEd/MEDZK^ Ξ^dZKK
Total variation explained = 4.081182 Proportion = 0.4535
R-squared with
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
Cluster 1 CarneR 0.4124 0.1658 0.7044
CarneB 0.3192 0.2395 0.8952
Huevos 0.7321 0.3375 0.4044
Leche 0.4550 0.2840 0.7611
Pescado 0.1232 0.0319 0.9057
Fecula 0.4619 0.1656 0.6450
------------------------------------------------------
Cluster 2 Cereal 0.5601 0.6882 1.4107
Secos 0.7978 0.5027 0.4067
Fruta 0.3928 0.0006 0.6076
Oblique Centroid Component Cluster Analysis
Standardized Scoring Coefficients
Cluster 1 2
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
CarneR 0.265400 0.000000
CarneB 0.265400 0.000000
Huevos 0.265400 0.000000
Leche 0.265400 0.000000
Pescado 0.265400 0.000000
Cereal 0.000000 0.440865
Fecula 0.265400 0.000000
Secos 0.000000 0.440865
Fruta 0.000000 0.440865
Cluster Structure
Cluster 1 2
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
CarneR 0.642154 -.407160
CarneB 0.564958 -.489394
Huevos 0.855605 -.580944
Leche 0.674566 -.532932
Pescado 0.351005 -.178659
Cereal -.829552 0.748389
Fecula 0.679607 -.406991
Secos -.709006 0.893179
Fruta -.024276 0.626698
Inter-Cluster Correlations
Cluster 1 2
1 1.00000 -0.68900
2 -0.68900 1.00000
Cluster 1 will be split.
Clustering algorithm converged.
Cluster summary for 3 clusters
Cluster Variation Proportion
Cluster Members Variation Explained Explained
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
1 4 4 2.309566 0.5774
2 3 3 1.71501 0.5717
3 2 2 1.403853 0.7019
Total variation explained = 5.428429 Proportion = 0.6032
Oblique Centroid Component Cluster Analysis
R-squared with
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
Cluster 1 CarneR 0.5350 0.1658 0.5574
CarneB 0.4544 0.2395 0.7174
Huevos 0.7926 0.3375 0.3130
Leche 0.5529 0.2840 0.6244
------------------------------------------------------
Cluster 2 Cereal 0.5601 0.4630 0.8192
Secos 0.7978 0.4549 0.3710
Fruta 0.3928 0.0438 0.6350
------------------------------------------------------
Cluster 3 Pescado 0.7019 0.0319 0.3079
Fecula 0.7019 0.1656 0.3572
Standardized Scoring Coefficients
Cluster 1 2 3
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
CarneR 0.329007 0.000000 0.000000
CarneB 0.329007 0.000000 0.000000
Huevos 0.329007 0.000000 0.000000
Leche 0.329007 0.000000 0.000000
Pescado 0.000000 0.000000 0.596794
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϰϱ
Cereal 0.000000 0.440865 0.000000
Fecula 0.000000 0.000000 0.596794
Secos 0.000000 0.440865 0.000000
Fruta 0.000000 0.440865 0.000000
Cluster Structure
Cluster 1 2 3
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
CarneR 0.731443 -.407160 0.117200
CarneB 0.674115 -.489394 0.047602
Huevos 0.890301 -.580944 0.309021
Leche 0.743592 -.532932 0.168047
Pescado -.026750 -.178659 0.837810
Cereal -.680443 0.748389 -.631105
Fecula 0.380606 -.406991 0.837810
Secos -.674463 0.893179 -.370886
Fruta -.145427 0.626698 0.209205
Oblique Centroid Component Cluster Analysis
Inter-Cluster Correlations
Cluster 1 2 3
1 1.00000 -0.66144 0.21118
2 -0.66144 1.00000 -0.34951
3 0.21118 -0.34951 1.00000
Cluster 2 will be split.
Clustering algorithm converged.
Cluster summary for 4 clusters
Cluster Variation Proportion
Cluster Members Variation Explained Explained
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
1 4 4 2.309566 0.5774
2 2 2 1.650997 0.8255
3 2 2 1.403853 0.7019
4 1 1 1 1.0000
Total variation explained = 6.364417 Proportion = 0.7072
R-squared with
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
Cluster 1 CarneR 0.5350 0.2185 0.5950
CarneB 0.4544 0.3331 0.8181
Huevos 0.7926 0.4902 0.4067
Leche 0.5529 0.2721 0.6142
------------------------------------------------------
Cluster 2 Cereal 0.8255 0.4630 0.3250
Secos 0.8255 0.4549 0.3201
------------------------------------------------------
Cluster 3 Pescado 0.7019 0.1365 0.3452
Fecula 0.7019 0.3075 0.4304
------------------------------------------------------
Cluster 4 Fruta 1.0000 0.0538 0.0000
Oblique Centroid Component Cluster Analysis
Standardized Scoring Coefficients
Cluster 1 2 3 4
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
CarneR 0.32901 0.00000 0.00000 0.00000
CarneB 0.32901 0.00000 0.00000 0.00000
Huevos 0.32901 0.00000 0.00000 0.00000
Leche 0.32901 0.00000 0.00000 0.00000
Pescado 0.00000 0.00000 0.59679 0.00000
Cereal 0.00000 0.55032 0.00000 0.00000
Fecula 0.00000 0.00000 0.59679 0.00000
Secos 0.00000 0.55032 0.00000 0.00000
Fruta 0.00000 0.00000 0.00000 1.00000
Cluster Structure
Cluster 1 2 3 4
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
CarneR 0.73144 -0.46740 0.11720 -0.07422
CarneB 0.67412 -0.57715 0.04760 -0.06132
Huevos 0.89030 -0.70012 0.30902 -0.04552
Leche 0.74359 -0.52163 0.16805 -0.26096
Pescado -0.02675 -0.36947 0.83781 0.26614
Cereal -0.68044 0.90857 -0.63111 0.04655
Fecula 0.38061 -0.55448 0.83781 0.08441
Secos -0.67446 0.90857 -0.37089 0.37497
Fruta -0.14543 0.23197 0.20920 1.00000
Inter-Cluster Correlations
Cluster 1 2 3 4
1 1.00000 -0.74563 0.21118 -0.14543
ϰϲdE/^^'DEd/MEDZK^ Ξ^dZKK
2 -0.74563 1.00000 -0.55141 0.23197
3 0.21118 -0.55141 1.00000 0.20920
4 -0.14543 0.23197 0.20920 1.00000
Total Proportion Minimum Minimum Maximum
Number Variation of Variation Proportion R-squared 1-R**2 Ratio
of Explained Explained Explained for a for a
Clusters by Clusters by Clusters by a Cluster Variable Variable
ŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲŲ
1 0.840541 0.0934 0.0934 0.0551
2 4.081182 0.4535 0.3944 0.1232 1.4107
3 5.428429 0.6032 0.5717 0.3928 0.8192
4 6.364417 0.7072 0.5774 0.4544 0.8181
Se ha utilizado la opción OUTTREE para guardar en el fichero Tree la estructura de
árbol, para realizar posteriormente el dendograma con el PROC TREE. Se ha utilizado el
método del centroide con un máximo de 4 iteraciones y se han utilizado en el análisis todas
las variables numéricas. En la salida se ve cómo se van formando los clusters (estructura,
puntuaciones, correlaciones, varianza explicada, etc.) en los sucesivos pasos del método
iterativo del centroide. En el paso final se observa que el cuarto cluster e xplica el 70,72% de la
varianza. También se observa que el primer cluster está formado por los dos tipos de carne,
los huevos y la leche, el segundo por los cereales y los frutos secos, el tercer o por el pescado
y la fécula y el cuarto por la fruta. También se muestra el valor de R2 de cada variable con su
propio cluster y con el cluster más cercano. Este último valor debe de ser pequeño para que
los clusters estén bien separados, lo mismo que el valor de los ratio 1- R2.
La tabla Cluster Estructure muestra la correlación de cada variable con cada cluster
componente, lo que da una idea de cómo y cuánto el cluster representa a la variable. La matriz
Intercluster Correlations muestra la correlación entre cada cluster componente.
La última de las tablas de la salida indica que, si el número de clusters a tomar es
2, la variación total explicada es 4,081182 y la proporción acumulada de variación explicada
por los dos clusters es 0,4535. Si se consideran tres clusters, los valores respectivos son
5,428429 y 0,6032 respectivamente. Al considerar los cuatro clusters, la variación total
explicada es 6,364419 y la proporción acumulada de variación explicada por los cuatro
clusters es 0,7072.
A continuación se representa la estructura de los clusters en un dendograma (Figura
2-31) que se realiza mediante el PROC TREE con la sintaxis siguiente:
axis1 label=(angle=90 rotate=0) minor=none;
axis2 minor=none order=(0 to 1 by .2);
proc tree data=tree horizontal vaxis=axis1 haxis=axis2;
height _propor_;
run;
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϰϳ
Fr ut a
Sec o s
Cereal
Fecu l a
Pescado
Leche
Huevos
CarneB
CarneR
Propor ti on of Vari ance Expl ained
1. 0 0. 8 0. 6 0. 4 0. 2 0.
0
Figura 2-31
2.6 SEGMENTACIÓN POST HOC
CON HERRAMIENTAS DE MINERÍA DE DATOS
Las herramientas de minería de datos más habituales en el mercado siempre
implementan procedimientos en el campo de la segmentación de mercados. Precisamente
la segmentación es una de las facetas más cuidadas en todas estas herramientas. En este
libro utilizaremos SPSS Clementine y SAS Enterprise Miner, por ser las más utilizadas y
sencillas.
2.6.1 Análisis cluster con Enterprise Miner. Nodo
clustering
El nodo Clustering de Enterprise Miner se utiliza especialmente para segmentar
bases de datos mediante análisis de conglomerados o cluster. Este análisis suele ser útil
para segmentar bases de datos. Se busca que los elementos de cada cluster sean similares
(homogeneidad dentro) mientras que los elementos en diferentes clusters tienden a ser
distintos (heterogeneidad entre).
Este método está basado en el uso de la distancia Euclídea con método de
agrupación de tipo no jerárquico, se basa en el modelo de las K medias, lo cual implica que
debemos definir a priori un rango de número de clusters. Este nombre es debido a que los
centros de los clusters son las medias de las observaciones asignadas a cada grupo. El
algoritmo tratará de reducir, en cada iteración, la suma de las distancias al cuadrado en
cada grupo hasta que se alcance la convergencia. El nodo incluye un método para detectar
outliers para evitar formar grupos de un solo individuo. Es conveniente trabajar con más de
100 obervaciones. El nodo Clustering se encuentra situado en SAS Enterprise Miner en la
categoría Modify (Figura 2-32).
ϰϴdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 2-32
Como ejemplo, vamos a utilizar los datos del archivo MUNDO para agrupar, a
partir de información de tipo social y económico, a distintos países del mundo en grupos
homogéneos. El objetivo es conocer qué países son más o menos parecidos según las
variables siguientes: densidad, urbana, espvidaf, espvidam, alfabet, inc_pob, mortinf,
tasa_nat, tasa_mort, tasasida y log_pib. El resto de variables, salvo PA_S, que tiene un
papel de etiqueta serán excluidas del análisis.
Una vez que disponemos ya de nuestros datos de trabajo en formato SAS
(archivo mundo.sas7bdat) en una determinada librería (librería Trabajo que representa el
subdirectorio c:\libros\miningt), abrimos el proyecto P1 (File
Open) y mediante File
New
Diagram creamos el diagrama D12. A continuación, el nodo Clustering se obtiene
mediante el botón Tools del navegador de proyecto de Enterprise Miner como subopción de
la categoría Model o arrastrando el propio nodo sobre la zona de trabajo, al lado del nodo
Input Data Source, al que se le ha asignado previamente el conjunto de datos
mundo.sas7bdat de la librería TRABAJO. A continuación se realizará la unión de ambos
(Figura 2-33).
Figura 2-33
Será necesario declarar las variables densidad, urbana, espvidaf, espvidam,
alfabet, inc_pob, mortinf, tasa_nat, tasa_mort, tasasida y log_pib de tipo input y la variable
PA_S de tipo id, ya que se usará como etiqueta. Esta tarea se realiza haciendo doble clic
sobre el nodo Input Data Source etiquetado como TRABAJO.MUNDO y eligiendo la
pestaña Variables. A continuación, se hace clic con el botón derecho del ratón sobre cada
variable a situar de tipo input, se elige Set Model Role y a continuación Input. Se repite el
proceso con la variables a excluir, que se les asignará tipo rejected y con la variable PA_S,
que se le asignará tipo id (Figura 2-34).
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϰϵ
Figura 2-34
Una vez conectados los nodos Input Data Source y Clustering y definido el papel
de cada variable, guardaremos la información del nodo de datos y abrimos el nodo
Clustering haciendo doble clic sobre él en el diagrama. Se obtiene la pantalla de entrada del
nodo en cuya pestaña Variables elegiremos estandarizar los datos por la desviación típica
(Figura 2-35).
Figura 2-35
A continuación, en la pestaña Clusters, podemos indicar que queremos una
solución que incluya 6 grupos de países. Este parámetro podemos definirlo en la opción
Number of Clusters (Figura 2-36). En la pestaña Mising Values elegimos como método de
imputación de valores desaparecidos el de la media del cluster o grupo más cercano
(Figura 2-37). En la ventana Output (pestaña Print) pediremos que en los resultados nos
muestren las estadísticas de los clusters y el grupo de países que conforma cada grupo
(Figura 2-38).
ϱϬdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 2-36
Figura 2-37
Figura 2-38
A continuación cerramos el nodo (botón ) y después lo ejecutaremos haciendo
clic sobre él en el diagrama con el botón derecho del ratón y eligiendo la opción Run del
menú emergente resultante (Figura 2-39). Finalizada la ejecución, el sistema pregunta si
queremos ver lo resultados (Figura 2-40). Al aceptar se abre el visor de resultados cuya
pestaña Partition (Figura 2-41) muestra una idea gráfica de los clusters.
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϱϭ
Figura 2-39
Figura 2-40
Figura 2-41
ϱϮdE/^^'DEd/MEDZK^ Ξ^dZKK
La pestaña Variables muestra la importancia relativa de cada una de las variables
utilizadas para hacer los grupos (Figura 2-42).
Figura 2-42
La pestaña Distances muestra que los grupos están relativamente cerca. Sólo el
grupo 3 parece ser mucho más distinto que los demás.
Figura 2-43
La pestaña Statistics muestra el número de individuos en cada cluster, la varianza
intragrupo, la distancia máxima de un país al centro del cluster y el cluster más cercano,
etc. (Figura 2-44)
Figura 2-44
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϱϯ
La pestaña Code presenta el código SAS del procedimiento (Figura 2-45).
Figura 2-45
La pestaña Output lista las medias en las variables utilizadas para cada cluster, así
como el grupo al que pertenece cada país (Figura 2-46).
Figura 2-46
Si en la Figura 2-47 de la pestaña Partition hacemos clic con el botón derecho del
ratón sobre el gráfico de sectores, obtenemos el menú emergente de la Figura 2-47. La
opción Cluste r profile de este menú muestra el árbol de decisión que permite asignar los
ϱϰdE/^^'DEd/MEDZK^ Ξ^dZKK
casos a un cluster determinado (Figuras 2-48 y 2-49). Junto a este gráfico, seleccionando la
pestaña Rules podemos ver las reglas lógicas que caracterizan el árbol.
Figura 2-47 Figura 2-48
Figura 2-49
2.6.2 Análisis cluster con SPSS Clementine
Dentro de la paleta Modelado, Clementine dispone de los nodos Entrenar K-Medias
y Cluster Bietápico, cuya finalidad es la realización de análisis cluster y que se muestran en
las Figuras 2-50 y 2-51.
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϱϱ
Figura 2-50 Figura 2-51
Entrenar K-Medias: permite realizar el método K-Medias de análisis cluster.
Cluster Bietápico: permite realizar análisis cluster por el método de las dos fases,
que suele utilizarse cuando se mezclan variables cual itativas y cuantitativas.
2.6.3 El nodo Entrenar K-medias: Cluster no
jeráquico
El nodo Entrenar K-medias de la paleta Modelado (Figura 2-50) permite realizar
análisis cluster mediante el algoritmo de K-medias. Como ejemplo se consideran las variables
densidad, urbana, espvidaf, espvidam, alfabet, inc_pob, mortinf, tasa_nat, tasa_mort, tasasida y
log_pib del fichero mundo.sas7bdat y se trata de realizar seis clusters que agrupen los países
del mundo según similitudes en estas variables.
Como el fichero de datos está en formato SAS, comenzamos utilizando el nodo Import.
SAS de la categoría Orígenes para situar como origen de datos el fichero mundo.sas7bdat.
Hacemos clic con el botón derecho del ratón sobre el nodo Import. SAS, elegimos Modificar
(Figura 2-52) y rellenamos la pantalla resultante como se indic a en la Figura 2-53. Al hacer clic
en Aceptar ya tenemos el archivo mundo.sas7bdat como origen de datos. Si al nodo anterior le
enlazamos un nodo Tabla y ejecutamos este último nodo haciendo clic sobre él con el
botón derecho del ratón y eligiendo Ejecutar en el menú emergente resultante, podemos
ver los datos del archivo (Figura 2-54).
Figura 2-52 Figura 2-53
ϱϲdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 2-54
Es una tarea previa al uso de cualquier modelo, definir el tipo de las variables que lo
componen. El nodo Tipo permite asignar campos como variables dependientes o independientes
en un modelo y no utilizar los que se desee. Para ello añadimos el nodo Tipo de la categoría
Operaciones con campos al diagrama. A continuación hacemos clic con el botón derecho del ratón
sobre el nodo Tipo y elegimos Modificar en el menú emergente resultante (Figura 2-55). Se obtiene
la pantalla Tipo con las características de todas las variables del archivo de datos. Si se hace clic
sobre la dirección de cualquier campo (columna Dir) se obtiene un menú emergente cuyas
opciones nos permiten asignar ese campo como variable dependiente (opción SALIDA) o
independiente (opción ENTRADA), o ambas o ninguna en un modelo. De esta forma situamos
como variables de entrada las variables densidad, urbana, espvida f, espvidam, alfabet,
inc_pob, mortinf, tasa_nat, tasa_mort, tasasida y log_pib de tipo input y las demás de tipo
NINGUNO (Figura 2-56).
Figura 2-55 Figura 2-56
Para realizar el análisis de conglomerados añadimos el nodo entrenar K-medias de la
categoría Modelado al diagrama. A continuación hacemos clic con el botón derecho del ratón sobre
el nodo entrenar K-medias y elegimos Modificar en el menú emergente resultante (Figura 2-57). Se
obtiene la pantalla de la Figura 2-58 en cuyo campo Nombre del modelo situamos su nombre. En
el campo Número de conglomerados elegimos 6. El resto de los campos se complementa como se
indica en la Figura 2-58. Al pulsar Aceptar se memorizan las características del análisis cluster.
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϱϳ
.
Figura 2-57 Figura 2-58
Para ejecutar el análisis cluster hacemos clic con el botón derecho del ratón sobre
el nodo entrenar K-medias y elegimos Ejecutar en el menú emergente resultante (Figura
2-59). Se obtiene la pantalla de la Figura 2-60 que presenta un icono relativo al nuevo
modelo generado. Si hacemos clic con el botón derecho del ratón sobre el icono y elegimos
Examinar en el menú emergente resultante (Figura 2-61), se obtiene el modelo ajustado
(Figuras 2-62 a 2-64) en el que se observa la formación de los 6 clusters. También podemos
añadir un nodo Tabla (Figura 2-65), que al ejecutarlo presenta los elementos que per tenecen
a cada cluster (Figura 2-66).
Figura 2-59 Figura 2-60
Figura 2-61
ϱϴdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 2-62
Figura 2-63 Figura 2-64
Ξ^dZKKKϮ͘^'DEd/MEWK^d,K͘E>/^/^>h^dZ ϱϵ
Figura 2-65 Figura 2-66
Si ahora añadimos al icono K-means un nodo Distribución (Figura 2-67) con las
especificaciones de la Figura 2-68 y lo ejecutamos, obtenemos la distribución de individuos
por clusters (Figura 2-69).
Figura 2-67
Figura 2-68 Figura 2-69
2.6.4 El nodo Cluster Bietápico: Cluster jerárquico
El nodo Cluster bietápico de la paleta Modelado (Figura 2-51) permite realizar análisis
cluster por el método de las dos fases, que suele utilizarse cuando se mezclan variables
cualitativas y cuantitativas. Si realizamos el análisis cluster para los datos del párrafo anterior con
este método, se siguen los mismos pasos incorporando el nodo Bietápico de la paleta Modelado
y rellenando la pantalla de especificaciones como se indica en la Figura 2-70. Se observa que,
en este caso, no es necesario especificar el número de conglomerados si se marca la opción
Calcular automáticamente número de conglomerados. Al ejecutar el nodo se obtiene un icono
amarillo etiquetado con el nombre del modelo (Bietápico). Al hacer clic sobre él con el botón
secundario del ratón y elegir Examinar en el menú emergente resultante (Figura 2-71) se
obtienen los tres conglomerados que se observan en la Figura 2-72.
ϲϬdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 2-70
Al igual que en el caso del método K-medias, podemos añadir al diagrama un nodo
Tabla que nos permitirá ver el reparto de individuos por clusters. Así mismo, también podemos
añadir al diagrama un nodo Distribución al igual que en el caso anterior, para obtener el gráfico de
la distribución de los individuos por clusters, que será similar al presentado en la Figura 2-69.
Figura 2-71 Figura 2-72

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR