Segmentación ad hoc. Análisis discriminante - Segmentación de Mercados - Libros y Revistas - VLEX 862817514

Segmentación ad hoc. Análisis discriminante

AutorPablo Valderrey Sanz
Páginas95-127
ĂƉşƚƵůŽϰ
SEGMENTACIÓN AD HOC. ANÁLISIS
DISCRIMINANTE
4.1 EL ANÁLISIS DISCRIMINANTE COMO TÉCNICA
DE CLASIFICACIÓN Y SEGMENTACIÓN
El análisis discriminante es una técnica que resulta útil para las situaciones en las
que se desea construir un modelo predictivo, para pronosticar el grupo al que pertenece
una, observación a partir de determinadas características observadas que delimitan su
perfil. Se trata de una técnica estadística que permite asignar o clasificar nuevos individuos
u observaciones dentro de grupos o segmentos previamente definidos, razón por la cual es
una técnica de clasificación y segmentación ad hoc. El análisis discriminante se conoce en
ocasiones como análisis de la clasificación, ya que su objetivo fundamental es producir una
regla o un esquema de clasificación que permita a un investigador predecir la población a la
que es más probable que tenga que pertenecer una nueva observación o individuo.
El modelo predictivo que pronostica el grupo de pertenencia de una observación en
virtud de su perfil define la relación entre una variable dependiente (o endógena) no métrica
(categórica) y varias variables independientes (o exógenas) métricas. Por tanto, la expresión
funcional del análisis discriminante puede escribirse como ),,,( xxxFy L=con la variable
dependiente no métrica y las variables independientes métricas. Las categorías de la
variable dependiente definen los posibles grupos de pertenencia de las observaciones o
individuos y las variables independientes definen el perfil conocido de cada observación. El
objetivo esencial del análisis discriminante es utilizar los valores conocidos de las variables
independientes medidas sobre un individuo u observación (perfil), para predecir con qué
categoría de la variable dependiente se corresponden y clasificar al individuo en la
categoría adecuada.
ϵϲdE/^^'DEd/MEDZK^ Ξ^dZKK
Las dos grandes finalidades perseguidas en el uso del análisis discriminante son la
descripción de diferencias entre grupos y la predicción de pertenencia a grupos. La
interpretación de las diferencias entre los grupos responde al objetivo de determinar en qué
medida un conjunto de características observadas en los individuos permite extraer
dimensiones que diferencian a los grupos, y cuáles de estas características son las que en
mayor medida contribuyen a tales dimensiones, es decir, cuáles presentan el mayor poder de
discriminación. Las características usadas para diferenciar entre los grupos reciben el nombre
de variables discriminantes. Al análisis discriminante que se orienta fundamentalmente a la
tarea de valorar el grado en que las variables independientes contribuyen a la diferenciación
entre los grupos se le denomina análisis discriminante descriptivo. La predicción de
pertenencia a los grupos se lleva a cabo determinando una o más ecuaciones matemáticas,
denominadas funciones discriminantes, que permitan la clasificación de nuevos casos a partir
de la información que poseemos sobre ellos. Estas ecuaciones combinan una serie de
características o variables, de tal modo que su aplicación a un caso nos permite identificar el
grupo al que más se parece. En este sentido, podremos hablar del carácter predictivo del
análisis discriminante.
4.2 HIPÓTESIS EN EL MODELO DISCRIMINANTE
El modelo subyacente en el análisis discriminante requiere de una comprobación
de determinados supuestos. Para comenzar, la aplicación del análisis discriminante
requiere que contemos con un conjunto de variables discriminantes (características
conocidas de los individuos) y una variable nominal que define dos o más grupos (cada
modalidad de la variable nominal se corresponde con un grupo diferente). Además, los
datos deben corresponder a individuos o casos clasificados en dos o más grupos
mutuamente excluyentes. Es decir, cada caso corresponde a un grupo y sólo a uno. Por
otra parte, las variables discriminantes han de estar medidas en una escala de intervalo o
de razón, lo cual permitiría el cálculo de medias y varianzas, y la utilización de éstas en
ecuaciones matemáticas. Teóricamente, no existen límites para el número de variables
discriminantes, salvo la restricción de que no debe ser nunca superior al número de casos
en el grupo más pequeño, pero sí es conveniente contar al menos con 20 sujetos por cada
variable discriminante si queremos que las interpretaciones y conclusiones obtenidas sean
correctas.
En cuanto a la presencia de datos desaparecidos (missing), hay que tener presente
que cuando corresponden a la variable de clasificación, los individuos afectados podrían ser
excluidos del análisis a la hora de determinar las funciones discriminantes. Si los datos
desaparecidos están en variables independientes, hay que asegurarse de que los individuos
en los que se registra la ausencia de datos no posean características diferenciales respecto al
resto de los individuos, modificando las características de la muestra con la que trabajamos.
Si se diera esta circunstancia, sería necesario recurrir a alguno de los procedimientos para
tratar los casos desaparecidos (imputación por la media, regresión, etc.). En cuanto a los
casos aislados (outliers), es necesario detectar su existencia en cada una de las variables
consideradas por separado. Para la detección de casos aislados multivariantes, podría
recurrirse al cálculo de la distancia de Mahalanobis de cada individuo respecto al centro del
grupo o a un método gráfico. Por otro lado, la aplicación del análisis discriminante se apoya en
una serie de supuestos básicos como la normalidad multivariante, homogeneidad de matrices
de varianza-covarianza (homoscedasticidad), linealidad y ausenc ia de multicolinealidad.
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϵϳ
El supuesto de normalidad exige que cada grupo represente una muestra aleatoria
extraída de una población con distribución normal multivariable sobre las variables
discriminantes. La normalidad univariante no implica la multivariante, pero como esta última es
difícil de comprobar, se contrasta la normalidad univariante mediante pruebas clásicas como
la prueba de bondad de ajuste basada en Chi-cuadrado, la prueba de Kolmogorov-Smirnov, el
test de Shapiro-Wilk o las pruebas de significación basadas en la asimetría y la curtosis. El
supuesto de homogeneidad de matrices de varianza-covarianza (homoscedasticidad) obliga a
que las matrices de varianzas-covarianzas para las pob laciones de las que fueron extraídos
los grupos sean iguales, hipótesis que suele probarse mediante la prueba de M de Box, que
no es más que una generalización del test de Barlett para la comprobación de la
homogeneidad de varianzas univariadas y que se basa en los determinantes de las matrices
de varianzas-covarianzas para cada grupo. Por otro lado, el supuesto de linealidad implica
que existen relaciones lineales entre las variables dentro de cada grupo y suele comprobarse
a partir de los diagramas de dispersión de las variables o mediante el cálculo de coeficientes
de correlación lineal de Pearson. La matriz de correlaciones de las variables también se utiliza
para detectar la multicolinealidad (variables con correlación muy alta pueden ser
redundantes), que puede ser muy nociva en la inversión de matrices requeridas en los
algoritmos discriminantes.
4.3 ESTIMACIÓN DEL MODELO DISCRIMINANTE
En el análisis discriminante, una vez comprobado el cumplimiento de los supuestos
subyacentes al modelo matemático, se persigue obtener una serie de funciones lineales a
partir de las variables independientes, que permitan interpretar las diferencias entre los
grupos y clasificar a los individuos en alguna de las subpoblaciones definidas por la variable
dependiente. Estas funciones lineales se denominan funciones discriminantes y son
combinaciones lineales de las variables discriminantes. En el caso general de análisis
discriminante con G grupos (G > 2) llamado análisis discriminante múltiple, el número
máximo de funciones o ejes discriminantes que se pueden obtener viene dado por min(G-
1,k). Por tanto pueden obtenerse hasta G-1 ejes discriminantes, si el número de variables
explicativas k es mayor o igual que G-1, hecho que suele ser siempre cierto, ya que en las
aplicaciones prácticas el número de variables explicativas suele ser grande.
Cada una de las funciones discriminantes Di se obtiene como función lineal de las
k variables explicativas X, es decir:
kikiii XuXuXuD +++= L
2211 i=1,2,...,G-1
Los G-1 ejes discriminantes vienen definidos respectivamente por los vectores u1,
u2,...,uG-1 definidos mediante las siguientes expresiones:
=
k
u
u
u
u
1
12
11
1M
=
k
u
u
u
u
2
22
21
2M ...
=
kG
G
G
G
u
u
u
u
1
12
11
1M
ϵϴdE/^^'DEd/MEDZK^ Ξ^dZKK
Consideremos las matrices F, T y W del análisis de la varianza múltiple definidas
en el capítu lo anter ior. Para la obtención del primer eje discriminante, se maximiza
λ
1, donde:
11
11
1'Wuu
'Fuu
λ=
La solución a este problema se obtiene derivando
λ
1 respecto de u e igualando a
cero, es decir:
()
0)'(2)'(20
'
)'(2)'(2
111111
2
11
111111
1
1==
=
FuuWuWuuFu
Wuu
FuuWuWuuFu
u
λ
De donde:
111
1
1111
11
11
1
1
2
2uλFuWλWuFuλ
'Wuu
'Fuu
Wu
Fu ====
Por tanto, la ecuación para la obtención del primer eje discriminante 111
1uλFuW =
se
traduce en la obtención de un vector propio u1 asociado a la matriz no simétrica FW 1.
De los valores propios
λ
i que se obtienen al resolver la ecuación 111
1uλFuW =
se
retiene el mayor, ya que precisamente
λ
1 es la ratio que queremos maximizar y u1 es el vector
propio asociado al mayor valor propio de la matriz FW 1.
Dado que
λ
1 es la ratio a maximizar, nos medirá, una vez calculado, el poder
discriminante del primer eje discriminante. Como estamos en un caso general de análisis
discriminante con G grupos (G > 2), el número máximo de ejes discriminantes que se pueden
obtener viene dado por min(G -1,k). Por tanto pueden obtenerse hasta G-1 ejes discriminantes,
si el número de variables explicativas k es mayor o igual que G-1, hecho que suele ser
siempre cierto, ya que en las aplicaciones prácticas el número de variables explicativas suele
ser grande.
El resto de los ejes discriminantes vendrán dados por los vectores propios
asociados a los valores propios de la matriz FW 1ordenados de mayor a menor. Así, el
segundo eje discriminante tendrá menos poder discriminatorio que el primero, pero más que
cualquiera de los restantes.
Como la matriz
FW 1no es simétrica, los ejes discriminantes no serán en general
ortogonales (perpendiculares entre sí).
Podemos concluir que los ejes discriminantes son las componentes de los vectores
propios normalizados asociados a los valores propios de la matriz FW 1ordenados en sentido
decreciente (a mayor valor propio mejor eje discriminante).
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϵϵ
4.3.1 Contrastes de significación en el modelo
discriminante
En cuanto a los contrastes de significación, en el análisis discriminante múltiple
se plantean contrastes específicos para determinar si cada uno de los valores
λ
i que se
obtienen al resolver la ecuación λuFuW =
1 es estadísticamente significativo (o lo que es
lo mismo, se trata de contrastar si las funciones discriminantes correspondientes son
significativas), es decir, para determinar si contribuye o no a la discriminación entre los
diferentes grupos.
Este tipo de contrastes se realiza a partir del estadístico V de Barlett, que es una
función de la Λ de Wilks y que se aproxima a una Chi-cuadrado. Su expresión es la
siguiente:
T
W
Ln
Gk
nV Gk =ΛΛ
+
=
2
)1(
)(
2
1
χ
La hipótesis nula de este contraste es H0 :
µ
1 =
µ
2 = ...
µ
G, y ha de ser rechazada para
que se pueda continuar con el análisis discriminante, porque en caso contrario, las variables
clasificadoras utilizadas no tendrían poder discriminante alguno.
No olvidemos que W era la matriz suma de cuadrados y productos cruzados
intragrupos en el análisis de la varianza múltiple, y T era la matriz suma de cuadrados y
productos cruzados total.
También existe un estadístico de Barlett para contrastación secuencial, que se
elabora como sigue:
FWIF)(WWTWTW
W
T
1111
1
+=+====
Λ
Pero como el determinante de una matriz es igual al producto de sus valores
propios, se tiene que:
)1()1)(1(
1
121
+++=
ΛG
λλλ
L
Esta expresión puede sustituirse en la expresión del estadístico V vista
anteriormente, para obtener la expresión alternativa siguiente para el estadístico de Barlett:
2
)1(
1
1
)1(
2
1)(
2
1
=
+
+
=Λ
+
= Gk
G
g
g
Ln
Gk
nLn
Gk
nV
χλ
ϭϬϬdE/^^'DEd/MEDZK^ Ξ^dZKK
Si se rechaza la hipótesis nula de igualdad de medias, al menos uno de los ejes
discriminantes es estadísticamente significativo, y será el primero, porque es el que más
poder discriminante tiene.
Una vez visto que el primer eje discriminante es significativo, se pasa a analizar la
significatividad del segundo eje discriminante a partir del estadístico:
2
)2)(1(
1
2
)1(
2
1
=
+
+
= Gk
G
g
g
Ln
Gk
nV
χλ
De la misma forma se analiza la significatividad de sucesivos ejes discriminantes,
pudiendo establecerse el estadístico V de Barlett genérico para cont rastación secuencial de la
significatividad del eje discriminate j-ésimo como:
2,,2,1,0)1(
2
12
)1)((
1
1
=+
+
=
+=
GjLn
Gk
nV jGjk
G
jg
g
L
χλ
En este proceso secuencial se van eliminando del estadístico V las raíces
características que van resultando significativas, deteniendo el proceso cuando se acepte la
hipótesis nula de no significatividad de los ejes discriminantes que queden por contrastar.
Como una medida descriptiva complementaria de este contraste, se suele calcular
el porcentaje acumulativo de la varianza después de la incorporación de cada nueva
función discriminante.
Un modo de valorar la importancia discriminante de cada una de las funciones
consiste en compararlas entre sí, de modo que conozcamos cuáles destacan en relación a
las demás. Bastaría sumar todos los autovalores y dividir por esta cantidad cada uno de
ellos. Este cálculo nos conduciría a los porcentajes relativos, los cuales indican el
porcentaje que una función posee sobre el poder discriminante total acumulado por el
conjunto de funciones. Pero los porcentajes relativos nos dan información de la importancia
de una función en relación a las restantes, pero no aportan un criterio definitivo para decidir
si una función discriminante ha de ser retenida.
No es posible fijar un porcentaje mínimo a partir del cual pudiéramos afirmar que la
función discriminante resulta de interés para nuestros propósitos de discriminación. Podría
suceder que aunque el porcentaje que representa un autovalor sea muy superior al de otras
funciones, todas ellas resulten igualmente poco significativas de cara a establecer
diferencias entre los grupos.
Otro modo de juzgar la importancia de las funciones discriminantes se basa en el
cálculo del coeficiente de correlación canónica que, al igual que el autovalor, mide las
desviaciones de las puntuaciones discriminantes entre los grupos respecto a las
desviaciones dentro de los grupos. El coeficiente de correlación canónica
()
r está
relacionado con el autovalor mediante la siguiente expresión, referida a una función
discriminante i:
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϬϭ
i
i
i
r
λ
λ
+
=
1
Este coeficiente proviene del análisis de correlaciones canónicas, que ya sabemos que
estudia el grado de asociación entre dos conjuntos de variables medidas en escala de intervalo.
Se desarrolla creando q pares de combinaciones lineales, siendo q el número de variables en el
conjunto más pequeño. Las combinaciones lineales en cada par se generan maximizando la
correlación entre ambas. Para el primer par tendremos el mayor grado de asociación; para el
segundo, se determinan las combinaciones lineales de modo que presenten el mayor grado de
asociación entre sí, pero con la condición adicional de que no esté correlacionada con las del
primer par; y así sucesivamente hasta el q-ésimo par. El coeficiente de correlación canónica es
una medida idéntica a la correlación de Pearson entre las combinaciones lineales de un par. En
el caso que nos ocupa, las variables discriminantes constituyen uno de los conjuntos de
variables, mientras que el otro conjunto surge de representar los grupos mediante G-1 variables
dummy. Si para estos dos grupos generamos q pares de combinaciones lineales, la función
discriminante constituirá una parte del par y la combinación dada por los grupos la otra parte. El
coeficiente de correlación canónica se interpreta como una medida de la asociación entre los
dos conjuntos de variables.
Otra interpretación posible del coeficiente de correlación canónica se basa en el
análisis de varianza, en cuyo contexto recibe la denominación de coeficiente eta. En el caso
del análisis que nos ocupa, tomaríamos como variable dependiente a la función discriminante
y como variable independiente a los grupos. Mediante el coeficiente eta puede ser medido el
grado en que difieren las medias alcanzadas por la función discriminante en los gr upos. El
coeficiente eta al cuadrado representaría el porcentaje de varianza de la función
discriminante explicada por la diferencia entre grupos. En términos del análisis de varianza,
tendríamos:
total
ergrupos
SC
SC
eta int
2=
Recurriendo al coeficiente de correlación canónica, puede ser evaluada la relevancia
de las funciones discriminantes. Un valor alto para este coeficiente indicaría que existe una
relación entre el grupo de pertenencia y los valores de la función discriminante. Es decir, la
función adopta diferentes valores en los grupos considerados y responde satisfactoriamente al
propósito de discriminar entre los grupos. Mientras que el porcentaje r elativo nos indicaba cuál
era la función más potente, la correlación canónica nos indica en qué grado ésta resulta
relevante. En una situación en la que los grupos no sean suficientemente diferentes respecto
a las variables analizadas, podremos determinar una funci ón discriminante que presenta el
mayor porcentaje relativo. Sin embargo, el criterio de la correlación canónica nos permitirá
rechazar esta función, dado que el valor del mismo hab rá de ser bajo.
4.3.2 Selección de variables discriminantes
A veces el análisis discriminante es utilizado sin que tengamos la certeza de que
nuestras variables poseen una suficiente capacidad de discriminación. En ese caso, el
investigador partiría de una lista de variables, sin que pueda precisar cuáles van a ser las
variables discriminantes.
ϭϬϮdE/^^'DEd/MEDZK^ Ξ^dZKK
En principio, contaríamos con una serie de variables, sin que conozcamos las que
resultarán más relevantes de cara a diferenciar entre los grupos, y precisamente uno de los
resultados que podemos esperar del análisis discriminante es descubrir cuáles son las
variables útiles para lograr ese fin. Determinadas variables habrían de ser eliminadas, dada
su baja contribución a la discriminación de los grupos. Habrá otras variables que, aun
siendo buenos discriminadores, aportan la misma información y resultan redundantes.
Uno de los algoritmos para seleccionar las variables útiles comúnmente usado es el
denominado método stepwise, o método paso a paso, que puede considerarse desde el punto
de vista de la selección hacia adelante o hacia atrás. En el Método de selección pas o a paso
hacia delante (forward), la primera variable que entra a formar parte del análisis es la que
maximiza la separación entre grupos. A continuación, se forman parejas entre esta variable y
las restantes, de modo que encontremos la pareja que produce la mayor discriminación. La
variable que contribuye a la mejor pareja es seleccionada en segundo lugar. Con ambas
variables, podrían formarse triadas de variables para determinar cuál de éstas resulta más
discriminante. De este modo quedaría seleccionada la tercera variable. El proceso continuaría
hasta que todas las variables hayan sido seleccionadas o las variables restantes no supongan
un incremento suficiente en la capacidad de discriminación.
En el Método de selección paso a paso hacia atrás (backward), todas las variables son
consideradas inicialmente, y van siendo excluidas una a una en cada etapa, eliminando del
modelo aquéllas cuya supresión produce el menor descenso en la discriminación entre los
grupos. Incluso a veces, las direcciones hacia delante y hacia atrás se combinan en la aplicación
del método stepwise. Se partiría de una selección hacia adelante de variables, aunque revisando
tras cada paso el conjunto de variables resultantes, por si pudiera excluirse alguna de ellas. Esto
puede ocurrir cuando la incorporación de una variable supone que alguna de las anteriormente
consideradas resulta redundante.
Antes de ser sometidas a cualquier criterio de selección, las variables que van a
ser consideradas en un análisis discriminante deben ser revisadas, para determinar si
satisfacen ciertas condiciones mínimas, sin cuyo cumplimiento habrían de ser descartadas.
Del mismo modo, tras la selección de variables, podríamos revisar las que han quedado
incluidas, para decidir si alguna de ellas debería ser eliminada. Estas condiciones se basan,
en la tolerancia de las variables discriminantes y en los estadísticos multivariantes parciales
F (F de entrada y F de salida), utilizados para garantizar que el incremento de
discriminación debido a la variable supera un nivel fijado. Una variable deberá superar las
condiciones impuestas en relación a la tolerancia y a F de entrada antes de que apliquemos
los criterios de selección. Después de ser introducida una variable, habremos de comprobar
que todas las seleccionadas hasta ese momento satisfacen la condición fijada para el
estadístico F de salida. Una variable que inicialmente fue seleccionada, puede ser ahora
inadecuada debido a que otras variables introducidas posteriormente aporten la misma
contribución a la separación de grupos.
La Tolerancia es una medida del grado de asociación lineal entre las variables
independientes. La tolerancia para una variable no seleccionada es 1-R2, donde R es la
correlación múltiple entre esta variable y todas las variables ya incluidas, cuando han sido
obtenidas a partir de la matriz de correlaciones intragrupos. Interesan valores altos de la
tolerancia.
El Estadístico F de entrada representa el incremento producido en la
discriminación tras la incorporación de una variable respecto al total de discriminación
alcanzado por las variables ya introducidas.
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϬϯ
Una F pequeña aconsejaría no seleccionar la variable, pues su aporte a la
discriminación de los grupos no sería importante. El estadístico F puede ser utilizado para
realizar una prueba estadística, que permita determinar la significación del incremento
producido en la discriminación. El estadístico se distribuye según F con
()
1g y
()
1+gsn grados de libertad, donde n es el número de individuos, g el de grupos y s el
de variables discriminantes.
El Estadístico F de salida es un estadístico multivariante parcial, que permite valorar
el descenso en la discriminación si una variable fuera extraída del conjunto de las ya
seleccionadas. Aquellas variables para las cuales el valor de F es bajo, podrían ser descartadas
antes de proceder a un nuevo paso en el método de selección de variables. El estadístico F
permitiría llevar a cabo una prueba de significación. Los grados de libertad con que se distribuye
F son en este caso de
()
1g y
()
gsn . Tras el último paso en la aplicación del método
stepwise, el estadístico F de salida puede ser usado para ordenar las variables seleccionadas de
acuerdo con su contribución a la separación de los grupos. Las variables a las que corresponda
el valor más alto de F serían las que mayor aportación hacen a la discriminación.
Una vez que sabemos que las variables discriminantes cumplen unas condiciones
mínimas para ser seleccionadas como tales, aplicaremos ya criterios formales de
selección paso a paso sobre ellas. Hay varios criterios para la selección de variables
discriminantes paso a paso. Destacan los siguientes:
Criterio basado en la minimización de la Lambda de Wilks. Se selecciona en cada paso la
variable que, una vez incorporada a la función discriminante, produce el valor de lambda
más pequeño para el conjunto de variables incluidas en la función.
Criterio basado en la V de Rao. Criterio basado en la medida de Rao de la distancia que
separa a los grupos. La V de Rao también se conoce como traza de Lawley-Hotelling, y
para cada paso viene definida por la expresión:
()
()()
∑∑
===
=
g
k
jjkiikk
p
i
p
j
ij XXXXnwgnV
1
'
1
'
1
donde pes el número de variables presentes en el modelo (incluyendo la añadida o suprimida en
esa etapa), k
n el tamaño de la muestra en el grupo k, el valor ij
w corresponde a los elementos de
la matriz inversa de covarianzas intragrupos, y las medias presentes en cada uno de los factores
del producto representan los valores medios de una variable dentro del grupo k y en el grupo
global. Los valores n y g corresponden, como en casos anteriores, al tamaño de la muestra total y
al número de grupos. Cuanto mayores sean las diferencias entre los grupos, mayor será el valor de
V. La contribución de una variable al modelo puede evaluarse a partir del incremento que se
produce en V al ser ésta añadida al modelo. Contando con un suficiente número de cados, V se
distribuye según Chi-cuadrado con
()
1' gp grados de libertad. El cambio producido en V tras la
adición o supresión de una variable sigue el mismo modelo de distribución, con un número de
grados de libertad coincidente con
()
1g veces el número de variables añadidas o suprimidas en
cada paso.
ϭϬϰdE/^^'DEd/MEDZK^ Ξ^dZKK
Por tanto, tras añadir una variable, podemos contrastar la significación estadística del
cambio de un modelo que maximiza las diferencias entre los grupos, pero sin atender a la cohesión
interna de los mismos, la cual no se tiene en cuenta en el cálculo de V.
Criterio basado en la distancia de Mahalanobis. La distancia de Mahalanobis es una medida
de la separación entre dos grupos. De acuerdo con este criterio, mediríamos la distancia de
Mahalanobis al cuadrado 2
entre todos los grupos respecto a las variables incluidas en el
modelo, y determinaríamos qué pareja de grupos se encuentran más cercanos (poseen el
valor más pequeño para 2
). De las variables que permanecen fuera del modelo,
seleccionaríamos para ser incluida aquélla que maximiza 2
para la pareja de grupos
inicialmente más próximos. La expresión de D para el caso de dos grupos a y b puede
escribirse como:
()
()()
∑∑
==
=
'
1
'
1
2
p
i
p
j
jbjaibiaijab XXXXwgnD
donde los elementos incluidos en la expresión analítica tienen el mismo significado que les
atribuíamos al hablar de la V de Rao, y los factores del producto son las diferencias entre
las medias de las variables del modelo para ambos grupos.
Criterio basado en la F intergrupos. A partir de la distancia de Malahanobis es posible
calcular un estadístico F para medir la diferencia entre dos grupos y contrastar la hipótesis
nula de igualdad de medias para ambos. La expresión de este estadístico, en el caso de
dos grupos a y b, es la siguiente:
()
()( )
2
2.'
'1.
ab
ba
ba D
nnnp
nnpn
F+
=
y podría ser usado también como criterio para la selección de variables. En cada paso,
seleccionaríamos aquella variable que conduce al mayor valor de F en la pareja de grupos
que inicialmente resultaban más próximos entre sí. La diferencia con respecto al criterio
basado en la distancia de Mahalanobis al cuadrado, radica en que aquí se tienen en cuenta
los tamaños de los grupos.
Criterio basado en la varianza residual. Sumando para cada pareja de grupos la varianza
residual no explicada por la función discriminante, tendremos una varianza residual total
expresada por:
∑∑
=+=+
=
1
11
2
4
4
g
i
g
ij ba
D
R
La variable seleccionada en cada paso será aquélla que minimiza el total de la
varianza no explicada por la función discriminante.
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϬϱ
4.4 INTERPRETACIÓN DE LA FUNCIÓN DISCRIMINANTE
Halladas las funciones discriminantes, y fijado el número de ellas que se retiene,
es necesario interpretar el significado de las mismas. La interpretación de la función
discriminante podrá hacerse atendiendo a las posiciones relativas que determina para los
casos y los centroides de cada grupo, y estudiando la relación entre las variables y la
función, de modo que podamos establecer la contribución de las distintas variables a la
discriminación. Para examinar la posición relativa que ocupan los casos y los centroides de
acuerdo con la función o funciones obtenidas, es necesario recurrir a las puntuaciones
discriminantes, o valores de la función discriminante para casos específicos. Cada una de
las funciones discriminantes extraídas representa un eje en el espacio discriminante y
permite determinar la posición de cualquier caso a lo largo de ese eje. Tomando la función
correspondiente a un eje cualquiera, el valor de la puntuación discriminante alcanzada por
un caso m, perteneciente al grupo k, será la que obtenemos al sustituir en la ecuación los
valores X por las puntuaciones observadas para ese caso en cada una de las variables:
pkmpkmkmkm XuXuXuuy +
+
++= L
22110
Si calculamos las puntuaciones discriminantes sobre los diferentes ejes, podremos
localizar en el espacio la posición de cualquier individuo. En este cálculo, cada coeficiente
no estandarizado ui representa el cambio producido sobre la posición de un caso si en la
variable Xi la puntuación observada aumentara en una unidad. Examinando sus respectivas
puntuaciones discriminantes, podremos conocer si dos o más casos se sitúan próximos o
quedan enfrentados a lo largo de un determinado eje. En la medida en que hayamos
identificado el significado de dicho eje, la posición relativa de los casos cobrará sentido. No
obstante, para estudiar el comportamiento de los grupos, puede resultar más interesante
focalizar nuestra atención en la posición de los centroides de cada grupo y no en las de los
casos aislados. La puntuación correspondiente a un centroide se determinará sustituyendo las
variables de la ecuación discriminante por los valores medios que alcanzan esas variables en el
grupo. Las coordenadas de los centroides de diferentes grupos determinan la posición de cada
uno de ellos en el espacio discriminante.
Las puntuaciones discriminantes pueden representarse gráficamente mediante
histogramas unigrupales, histograma total o diagramas de dispersión. Un histograma unigrupal
situaría a lo largo del eje horizontal (eje discriminante) las puntuaciones alcanzadas por los casos,
generalmente agrupados en intervalos. Denotando los casos mediante alguna marca (cruces o
números, por ejemplo), en cada intervalo de puntuaciones situaríamos una columna de tantos
símbolos como casos se encuentren comprendidos en el mismo. Así, la altura de la columna
expresará el número de casos incluidos en el intervalo. Utilizando un símbolo diferente para los
casos de cada grupo (por ejemplo números), podemos representar sobre un mismo eje los
histogramas correspondientes a los diferentes grupos. Este tipo de representación, a la que
denominaríamos histograma total de las puntuaciones discriminantes, ofrece la posibilidad de
examinar cómodamente la posición de los diferentes grupos sobre el eje discriminante y comparar
el grado de cohesión dentro de cada uno de ellos.
Por otro lado, los diagramas de dispersión permiten representar la posición de
los casos y los centroides sobre dos funciones simultáneamente. Cada una de estas
funciones se hace corresponder con uno de los ejes cartesianos, situando los casos en el
plano discriminante definido para ambos. Para ello se toman como coordenadas de cada
punto las puntuaciones discriminantes sobre las dos funciones.
ϭϬϲdE/^^'DEd/MEDZK^ Ξ^dZKK
La primera función discriminante suele hacerse corresponder al eje horizontal,
mientras que el eje vertical representa la segunda función. En este tipo de diagramas, se
suele denotar, con símbolos diferentes, la posición de los casos y la de los centroides. Las
distancias y proximidades entre los diferentes centroides pueden ser interpretadas si
conocemos el significado del espacio discriminante definido por los dos ejes.
Como las funciones no están correlacionadas, es posible que dos grupos
aparezcan próximos en cuanto a la primera función, pero que muestren claras diferencias si
son examinados respecto a la segunda función discriminante. Las posiciones reflejadas
respecto a los dos primeros ejes discriminantes suelen ser las más significativas, dado que
los dos primeros ejes son los que determinan una mayor separación entre los grupos. Si el
número de funciones calculadas es alto, los dos primeros ejes, aun siendo los de mayor
importancia, podrían ser insuficientes para reflejar las posiciones relativas de los centroides.
Si los grupos se encuentran suficientemente separados, las funciones discriminantes
consideradas deparan una representación gráfica en la que los centroides de grupo se
sitúan alejados entre sí y las nubes de puntos mediante las que se representan los
individuos de cada grupo no mostrarán solapamientos importantes. Si el número de casos
es elevado, en situaciones en las que, o bien los grupos no son muy homogéneos o bien la
separación entre ellos no es grande, puede darse un solapamiento de puntos que haga
difícil la interpretación. En tales situaciones, de cara a facilitar la interpretación, será
preferible la representación de los grupos en diagramas de dispersión separados, o bien
reducir la representación a los centroides de cada grupo.
La contribución absoluta de una variable a la determinación de la puntuación
discriminante permite también interpretar la función discriminante a través de los coeficientes
estandarizados o no estandarizados. Los coeficientes ui de la ecuación obtenida para la
función discriminante son coeficientes no estandarizados. Si la función discriminante se
obtiene a partir de puntuaciones que previamente han sido estandarizadas, los coeficientes ui
reciben la denominación de coeficientes estandarizados.
Los coeficientes no estandarizados pueden interpretarse como la contribución
absoluta de una variable a la determinación de la puntuación discriminante. Dado que no
existen restricciones sobre la unidad de medida y la variabilidad en las variables originales,
estos coeficientes no son comparables. En cambio, los coeficientes estandarizados permiten
conocer la importancia relativa de cada variable en la función discriminante. Examinando
estos coeficientes, podemos determinar qué variables contribuyen más a las puntuaciones
alcanzadas en la función. El término independiente para la ecuación de la función
discriminante estandarizada será cero, pues el eje construido a partir de las variables
tipificadas pasará por el origen. Ignorando el signo, la magnitud del coeficiente estandarizado
indicará la importancia de la contribución que cada variable hace a la determinación de las
puntuaciones discriminantes.
Otro camino para determinar la contribución de las variables a la función
discriminante consiste en calcular la correlación de Pearson entre las puntuaciones
observadas en la variable y las puntuaciones discriminantes. A estas correlaciones se
las denomina también coeficientes de estructura. Un valor próximo a 1 ó -1 indicará que la
variable aporta la misma función información que la función, mientras que valores próximos
a 0 demuestran que ambas poseen poco en común.
Los coeficientes de estructura que se obtienen a partir de la correlación entre las
puntuaciones correspondientes a todos los casos, también sirven para determinar la contribución
de las variables a la función discriminante.
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϬϳ
Basándonos en las variables que presentan los coeficientes de estructura más elevados
(en valores absolutos), podemos encontrar significado al eje que cada función representa en el
espacio discriminante. Si advertimos alguna característica común a esas variables, podríamos
utilizar tal característica para nombrar la función. El examen de la posición alcanzada por los
centroides de grupo puede ayudar en la interpretación de los ejes. Por tanto, la contribución que
cada variable hace a la función discriminante puede evaluarse a partir de los coeficientes
estandarizados o a partir de los coeficientes de estructura.
4.5 CLASIFICACIÓN DE LOS INDIVIDUOS
El análisis discriminante, decíamos en las primeras páginas, puede ser utilizado
con dos finalidades básicas: interpretar las diferencias existentes entre varios grupos o
pronosticar la clasificación de los sujetos. En el apartado anterior hemos aludido a la
interpretación que las funciones discriminantes permiten hacer, al posicionar en el espacio a
los casos y los centroides de grupo o al permitir que identifiquemos el significado de las
mismas, de acuerdo con la contribución de las variables a la discriminación. Sin embargo,
para el investigador interesado en obtener una regla de decisión que permita clasificar
nuevos casos, el número de dimensiones consideradas en el espacio discriminante y su
significado posiblemente no atraigan su atención. Puede ser más interesante la utilización
de las funciones discriminantes para pronosticar el grupo al que quedará adscrito un nuevo
caso no contemplado al extraer las funciones.
En realidad, la clasificación de un sujeto podría hacerse a partir de sus valores en
las variables discriminantes o en las funciones discriminantes. En el primer caso, no
podríamos hablar propiamente de un análisis discriminante, pues no es necesario el cálculo
de las funciones discriminantes, sino la utilización de funciones de clasificación. Uno y otro
tipo de funciones sirven al mismo objetivo, pero la clasificación a partir de las funciones
discriminantes es más cómoda y suele llevar a mejores resultados en la mayoría de los
casos. Los diferentes procedimientos usados para la clasificación se basan en la
comparación de un caso con los centroides de grupo, a fin de ver a cuál de ellos resulta
más próximo.
Uno de los procedimientos seguidos para asignar un caso a uno de los grupos se basa
en las denominadas funciones de clasificación por grupos. Estas funciones tienen la
propiedad de que resultan más elevadas cuanto mayor sea la proximidad del caso al grupo.
Examinando las puntuaciones obtenidas por un caso en cada una de las funciones de
clasificación, podemos establecer a qué grupo ha de ser asignado. El caso será asignado a
aquel grupo en el que se obtiene la puntuación más alta. Este procedimiento de clasificación
resulta muy sensible a la violación del supuesto de igualdad de matrices de varianzas-
covarianzas. Cuando no se verifica dicho supuesto, los casos tienden a ser clasificados en el
grupo en el que se registra la mayor dispersión.
Un procedimiento alternativo para la clasificación de un caso se basa en el cálculo de su
distancia a los centroides de cada uno de los grupos o funciones de distancia generalizada. El
caso sería adscrito a aquel grupo con cuyo centroide existe una menor distancia. La distancia de
Mahalanobis es una medida adecuada para valorar la proximidad entre casos y centroides. Un
caso será clasificado en el grupo respecto al cual presenta la distancia más pequeña. Ello
significaría que a ese grupo corresponde el centroide cuyo perfil sobre las variables discriminantes
resulta más parecido al perfil del caso.
ϭϬϴdE/^^'DEd/MEDZK^ Ξ^dZKK
Otro de los procedimientos seguidos para asignar un caso a uno de los grupos es utilizar
las probabilidades de pertenencia al grupo. Un caso se clasifica en el grupo al que su
pertenencia resulta más probable. El cálculo de probabilidad de pertenencia a un grupo asume que
todos los grupos tienen un tamaño similar. No se tiene en cuenta que a priori es posible anticipar
una mayor probabilidad de pertenencia a un determinado grupo, cuando en la población el
porcentaje de sujetos que pertenece a cada grupo es muy diferente. En tal situación, conviene
incorporar al cálculo las probabilidades a priori, con lo que se consigue mejorar la predicción final
y reducir lo errores de clasificación. De acuerdo con este planteamiento, la regla de Bayes sería útil
para calcular la probabilidad posterior de pertenencia del caso a un grupo (probabilidad a
posteriori), conocida la probabilidad a priori para el mismo. Un caso será clasificado en el grupo en
el que su pertenencia cuenta con una mayor probabilidad a posteriori. Podría ocurrir que dos casos
que son clasificados en el mismo grupo tengan probabilidades bastante diferentes, o que las
probabilidades de que un sujeto pertenezca a dos grupos distintos no sean muy diferentes entre sí,
en cuyo caso, aun asignándolo a la clase en la que cuenta con mayor probabilidad, su clasificación
no sería tan clara. Por ese motivo, resulta interesante conocer para cada individuo no sólo la
máxima probabilidad, sino también las probabilidades de pertenecer a otros grupos.
En los apartados anteriores hemos clasificado los individuos basándonos en las
variables discriminantes, pero también es posible la clasifi cación en función de las
funciones discriminantes. El planteamiento en ese caso sería análogo al presentado hasta
ahora, con la única salvedad de que en lugar de var iables Xi consideramos funciones Fi. Dado
que la clasificación final conseguida es generalmente idéntica, resulta preferible utilizar las
funciones discriminantes, pues a la hora de realizar los cálculos trabajar con q funciones
conlleva menos esfuerzo que hacerlo con p variables, tanto si se trata de calcular distancias
como probabilidades. La clasificación lograda a partir de la función discriminante no coincide
con la que obtendríamos a partir de las variables discriminantes, en los casos en que las
matrices de covarianza en los grupos no son igual es o cuando alguna función discriminante
no es considerada por resultar poco significativa. En este segundo caso, la clasificación
resultante es más correcta.
En el paquete SPSS, se trabaja con las funciones discriminantes no estandarizadas, y
se aplica la regla de Bayes a las puntuaciones discriminantes (D) obtenidas por cada caso para
clasificarlos en algún grupo.
Un procedimiento muy útil para la representación gráfica de la clasificación de
casos es el mapa territorial, que consiste en situar en el eje horizontal y en el vertical dos
funciones discriminantes (o variables discriminantes) y separar en el plano resultante, por
medio de líneas, las zonas o territorios que ocuparían los sujetos clasificados en cada
grupo. Lógicamente, cuando el número de funciones es mayor que dos, el plano no es
suficiente para representar todas las dimensiones del espacio discriminante. En ese caso
suelen representarse únicamente las dos primeras, que son las que en mayor medida
contribuyen a la separación de los grupos. El problema del número de dimensiones en la
representación se agrava cuando en la clasificación trabajamos con las variables y no con
las funciones discriminantes. Es una razón más para preferir procedimientos de
clasificación basados en estas últimas. No obstante, cuando sólo contamos con una función
discriminante, la representación del mapa territorial se hará sobre una línea, y no en un
plano. Cuando los casos o individuos están bien clasificados, su representación sobre el
plano formado por las dos funciones les situaría en el territorio correspondiente al grupo. En
cambio, cuando la discriminación es débil, puede haber un cierto número de sujetos que
caen fuera del territorio que serían casos mal clasificados. Las líneas que constituyen las
fronteras entre el territorio ocupado por los diferentes grupos se determinan a partir de la
posición de los centroides.
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϬϵ
Para el caso de dos grupos, la línea divisoria sería la mediatriz del segmento que une a
los dos respectivos centroides, siempre y cuando las matrices de covarianza de los grupos sean
idénticas. Si no fuera así, la línea estaría más próxima al centroide correspondiente al grupo con
menor varianza. Si existen más de dos grupos, el trazado de las líneas se complica.
Una forma de valorar la bondad de la clasificación de los individuos realizada es aplicar
el procedimiento a los casos para los que conocemos su grupo de adscripción, y comprobar si
coinciden el grupo predicho y el grupo observado. El porcentaje de casos correctamente
clasificados indicaría la corrección del procedimiento. La matriz de clasificación, también
denominada matriz de confusión, permite presentar para los casos observados en un grupo,
cuántos de ellos se esperaban en ese grupo y cuántos en los restantes. De esta forma, resulta
fácil constatar qué tipo de errores de clasificación se producen. La estructura de la matriz de
clasificación sería la mostrada en la Figura 7-17, donde cada valor nij representa el número de
casos del grupo i que tras aplicar las reglas de clasificación son adscritos al grupo j. Los
valores situados en la diagonal descendente constituyen, por tanto, el número de casos que
han sido correctamente clasificados.
En la matriz de clasificación, es frecuente encontrar estos valores en forma de
porcentajes. Si el porcentaje de casos correctamente clasificados es alto, cabe esperar que las
funciones discriminantes también proporcionen buenos resultados a la hora de predecir el grupo
al que se adscribirá cualquier nuevo sujeto perteneciente a la misma población de donde fue
extraída la muestra. Este porcentaje puede ser tomado como una medida no sólo de la bondad
de la clasificación, sino también de las diferencias existentes entre los grupos; si la clasificación
es buena se deberá a que las variables discriminantes permiten diferenciar entre los grupos.
Existen, tanto métodos gráficos, como contrastes estadísticos formales, para comprobar
la normalidad de las variables que intervienen en un método multivariante.
4.6 SPSS Y EL ANÁLISIS DISCRIMINANTE
Utilizando el fichero hábitos.sav realizaremos un análisis discriminante que clasifique
los individuos en grupos dependiendo del tipo de cine que les guste (amor, humor, violencia o
sexo) registrado en la variable tipocine, según la calificación media en los estudios (califest), el
número de veces que anulamente van al cine (cine), su edad (edad), el número de libros que
leen al año (lect), la paga semanal (paga), las horas semanales de televisión (tv) y el nivel de
rechazo a la violencia que tienen (violen).
SPSS incorpora el procedimiento Análisis discriminante que permite realizar
análisis discriminante múltiple de forma sencilla y bastante completa. Para realizar un
análisis discriminante, elija en los menús Analizar
Clasificar
Discriminante (Figura 7-
1), previa apertura del fichero que contienen los datos.
A continuación, rellenamos la pantalla de entrada del procedimiento Análisis
discriminante como se indica en la Figura 7-2. La variable dependiente será tipocine y las
variables independientes del modelo serán califest, cine, edad, lect, paga, tv y violen. Las
pantallas Estadísticos, Clasificar, Guardar y Método se rellenan como se indica en las
Figuras 7-3 a 7-6. Al pulsar Continuar y Aceptar se obtiene la salida del procedimiento. La
Figura 7-7 indica que hay 165 casos válidos en el análisis y que se han excluido 10 por las
diversas causas que se exponen.
ϭϭϬdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 7-1
La Figura 7-8 muestra las pruebas de igualdad de medias de las variables
indepenedientes en los cuatro grupos discriminantes (valores de la variable dependiente).
Se ve que se acepta la igualdad de medias de las variables paga, califest, lect y tv en los
cuatro grupos (p-valores mayores que 0,05) y se rechaza la igualdad de medias para las
otras tres cine, violen y edad, que son las posibles para discriminar.
Figura 7-2
Figura 7-3 Figura 7-4
Figura 7-5 Figura 7-6
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϭϭ
Figura 7-7 Figura 7-8
En el proceso de análisis discriminante se buscan funciones discriminantes a partir de las
variables independientes para clasificar a los individuos según los valores de la variable
dependiente. Por ello, inicialmente se seleccionan las variables independientes que más
discriminen (que proporcionen los centros de los grupos muy distintos entre sí y muy homogéneos
dentro de sí). Las Figuras 7-9 y 7-11 nos muestran que las variables introducidas para discriminar
en el modelo son definitivamente violen y edad. En la Etapa 1 se seleccionó violen y en la Etapa 2
se seleccionó edad. Los valores de la Lambda de Wilks de la Figura 7-11 (0,433 y 0,386) no son
muy pequeños (no son próximos a cero), por lo que es posible que los grupos no estén claramente
separados. Los p-valores de cuadro Lambda de Wilks y los estadístico F exacta (Figura 7-12)
certifican la significatividad de dos ejes discriminantes, con lo que su capacidad explicativa será
buena (separan bien grupos). Luego el modelo formado por las dos variables es significativo (p-
valores nulos). Para describir las dos funciones discriminantes canónicas se usan los coeficientes
estandarizados D1= -0,011edad+1,001violen y D2= -1,004edad-0,82 violen (Figura 7-10) o los
coeficientes sin estandarizar D1= -4,272-0,006edad+3,535violen y D2= -8,832+0,583edad-
0,290violen (Figura 7-15). Se ve que violen contribuye más a a primera función (1,001>0,82) y
edad a la segunda (1,004>0,011). En la matriz de estructura (Figura 7-14) se fija este resultado.
Figura 7-9 Figura 7-10
Figura 7-11
ϭϭϮdE/^^'DEd/MEDZK^ Ξ^dZKK
Figura 7-12
En la Figura 7-13 se observa que la primera función discriminante explica casi toda la
variabilidad del modelo (91,5%) mientras que la segunda sólo explica el 8,5%, aunque según los
p-valores de la Lambda de Wilks son significativas las dos funciones discriminantes. La matriz de
estructura de la Figura 7-14 muestra que las tres primeras variables tienen la mayor correlación
con la primera función discriminante (sólo se emplea e n el análisis violen) y las tres últimas están
más correladas con la segunda función discriminante (sólo se emplea en el análisis edad). En la
Figura 7-13 se observa que los valores de la correlación canónica decrecen 0,753 > 0,330, con
lo que la primera función discrimina más que la segunda. Con los autovalores ocurre lo mismo
1,307 > 1,22. La primera función es la que va a dar pr ácticamente la clasificación, mientras que
la segunda aporta poca información, aunque ya lo hemos visto con la Lambda de Wilks que es
significativa. El cuadro Funciones en los centroides de los grupos de la Figura 7-15 nos da una
idea de cómo las funciones discriminan grupos. Si las medias de los cuatro grupos en cada
función son muy parecidas, la función no discrimina grupos. Se observa que la discriminación es
buena para las dos funciones tal y como ya había asegurado la Lambda de Wilks.
Figura 7-13
Los individuos se clasifican en los cuatro gr upos de acuerdo a las probabilidades que
tienen a priori de pertenecer a los mismos (Figura 7-16). Pero una vez conocidas las
puntuaciones discriminantes (valores de las funciones discriminantes para cada individuo),
cada individuo se clasificará en el grupo en que te nga mayor probabilidad de pertenecer a
posteriori según sus puntuaciones discriminantes. La tabla Resultados de la clasificación o
matriz de confusión de la Figura 7-17 muestra los casos en total que están c orrecta o
incorrectamente clasificados (75,1% correctos). Se muestran también tantos por ciento en
cada grupo y en el total junto con el número de cas os que se han clasificado en cada nivel.
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϭϯ
En la tabla de estadísticos por casos de la Figura 7-18 se observan el grupo real y
el pronosticado (para grupo mayor y segundo grupo mayor) al que pertenece cada individuo
(sólo los 30 primeros). Un individuo se clasifica en el grupo en el que su pertenencia
tiene una mayor probabilidad a posteriori.
Cuando el grupo real en el que cae el individuo y el pronosticado en grupo mayor
no coinciden, hay un error de clasificación del individuo. En la columna de segundo grupo
mayor se observan los grupos a los que pertenece cada individuo en segundo lugar en
sentido probabilística (pero el importante es el grupo mayor). Las dos últimas columnas de
la tabla de estadísticos por casos de la Figura 7-18 muestran las puntuaciones
discriminantes de los individuos para las dos funciones discriminantes. Los casos que
tengan puntuaciones discriminantes similares se situarán próximos en los grupos de
discriminación. No obstante, son más útiles las puntuaciones en los centroides de los
grupos (Figura 7-15), ya que determinan su posición en el espacio discriminante. La
puntuación de un centroide se determina sustituyendo las variables de la ecuación
discriminante por los valores medios de estas variables en el grupo. Una observación
futura se clasificará en el grupo cuyo centroide esté más cerca de la puntuación
discriminante de la observación, según la función discriminante considerada. Lo
ideal sería clasificar la observación en el mismo grupo según las dos funciones
discriminantes.
Figura 7-14 Figura 7-15
Figura 7-16 Figura 7-17
ϭϭϰdE/^^'DEd/MEDZK^ Ξ^dZKK
Estadísticos por casos
Núme
ro de
casos
Grupo
real Grupo mayor Segundo grupo mayor Puntuaciones
discriminantes
Grupo
pronos
ticado
P(D>d |
G=g) P(G=g |
D=d) Distancia de
Mahala-
nobis al
cuadrado
hasta el
centroide
Grupo P(G=g
| D=d) Distancia
de Malala-
nobis al
cuadrado
hasta el
centroide
F 1 F 2
p gl
2 4 1(**) ,997 2 ,716 ,006 2 ,222 ,683 -,837 ,199
3 1 1 ,873 2 ,654 ,271 2 ,306 ,131 -,831 -,383
4 3 3 ,619 2 ,988 ,960 1 ,006 12,256 2,692 ,492
5 1 1 ,545 2 ,572 1,215 2 ,402 ,257 -,824 -,966
6 2 1(**) ,469 2 ,750 1,513 4 ,137 ,359 -,849 1,364
7 3 3 ,684 2 ,988 ,759 2 ,006 10,560 2,698 -,091
8 3 3 ,684 2 ,988 ,759 2 ,006 10,560 2,698 -,091
9 Desagr. 1 ,873 2 ,654 ,271 2 ,306 ,131 -,831 -,383
10 1 1 ,997 2 ,716 ,006 2 ,222 ,683 -,837 ,199
11 2 3(**) ,539 2 ,987 1,237 2 ,008 10,3 89 2,704 -,6 73
12 2 1(**) ,469 2 ,750 1,513 4 ,137 ,359 -,849 1,364
13 1 1 ,997 2 ,716 ,006 2 ,222 ,683 -,837 ,199
14 1 1 ,873 2 ,654 ,271 2 ,306 ,131 -,831 -,383
15 1 1 ,997 2 ,716 ,006 2 ,222 ,683 -,837 ,199
16 2 1(**) ,997 2 ,716 ,006 2 ,222 ,683 -,837 ,199
17 1 1 ,997 2 ,716 ,006 2 ,222 ,683 -,837 ,199
18 2 1(**) ,545 2 ,572 1,215 2 ,402 ,257 -,824 -,966
19 1 1 ,811 2 ,749 ,420 2 ,155 1,915 -,843 ,782
20 4 3(**) ,399 2 ,987 1,840 1 ,007 12,9 68 2,686 1,075
21 3 3 ,539 2 ,987 1,237 2 ,008 10,389 2,704 -,673
22 2 3(**) ,619 2 ,988 ,960 1 ,006 12,256 2,692 ,492
23 3 3 ,399 2 ,987 1,840 1 ,007 12,968 2,686 1,075
24 3 1(**) ,997 2 ,716 ,006 2 ,222 ,683 -,837 ,199
25 1 1 ,873 2 ,654 ,271 2 ,306 ,131 -,831 -,383
26 2 1(**) ,811 2 ,749 ,420 2 ,155 1,915 -,843 ,782
27 2 2 ,280 2 ,607 2,545 1 ,381 5,138 -,812 -2,131
28 1 1 ,997 2 ,716 ,006 2 ,222 ,683 -,837 ,199
29 1 1 ,811 2 ,749 ,420 2 ,155 1,915 -,843 ,782
** Caso mal clasificado Figura 7-18
El mapa territorial que se muestra a continuación representa los valores de las
puntuaciones en las funciones discriminantes canónicas (en abscisas se sitúan las puntuaciones
en la función 1 y en ordenadas las puntuaciones en la función 2). La región del grupo 1 está
delimitada por números 1 en el mapa, la del grupo 2 por el número 2, etcétera.Cuando los casos
o individuos están bien clasificados, su representación sobre el mapa territorial los sitúa en el
territorio correspondiente al grupo. Cuando la discriminación es débil puede haber sujetos que
caen fuera de su territorio y que estarían mal clasificados. Las líneas de números que separan
una zona de otra, delimitan las combinaciones de puntuaciones discriminantes en ambas
funciones que conducen a la clasificación en cada grupo. El mapa territorial también se utiliza
para clasificar individuos futuros. Para ello se observan las puntuaciones del individuo en
las funciones discriminantes consideradas y se observa a qué grupo corresponde la
región del mapa territorial en la que se sitúa el punto cuyas coordenadas son
precisamente las puntuaciones discriminantes citadas. Por ejemplo, si las puntuaciones de
la primera y segunda funciones discriminantes para un nuevo individuo son 4,5 y -5
respectivamente, este individuo se clasificará en el grupo 3, que es la zona del mapa territorial
en la que cae el punto de coordenadas (4,5, -5).
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϭϱ
Mapa territorial
(Asumiendo que todas las funciones excepto las dos primeras son = 0)
Función 2
-6,0 -4,0 -2,0 ,0 2,0 4,0 6,0

6,0 4 43
1444 REGIÓN DEL 43
1114444 GRUPO 4 43
11114444 43
1111444 43
1114444 43
4,0 1111444 43
1114444 43
1111444 43
1114444 43
11114443
113
2,0 13
13
REGIÓN DEL 13 REGIÓN DEL
GRUPO 1 * 13 GRUPO 3
13
13
,0 * 13 *
13
* 13
1113
1111122223
111122222 23
-2,0 11112222 23
11112222 23
111112222 23
111122222 23
11112222 23
12222 23
-4,0 2 23
23
23
REGIÓN DEL 23
GRUPO 2 23
23
-6,0 23

-6,0 -4,0 -2,0 ,0 2,0 4,0 6,0
Función discriminante canónica 1
Símbolos usados en el mapa territorial
Símbol Grupo Etiqu
------ ----- --------------------
1 1 AMOR
2 2 HUMOR
3 3 VIOLENCIA
4 4 SEXO
* Indica un centroide de grupo
La Figura 7-19 muestra el diagrama de dispersión global para los cuatro grupos, que
permite situar la posición de los casos y los centroides sobre las dos funciones discriminantes
canónicas simultáneamente. Las coordenadas de cada caso serán sus puntuaciones
discriminantes sobre las dos funciones. Como hay muchos casos, en la gráfica se han
presentado también las posiciones de los centroides de grupo.
ϭϭϲdE/^^'DEd/MEDZK^ Ξ^dZKK
funciones discriminantes canónicas
Función 1
3210-1
Función 2
3
2
1
0
-1
-2
-3
TIPO DE PELÍCULA QUE
Centroides de grupo
Casos no agrupados
SEXO
VIOLENCIA
HUMOR
AMOR
SEXO
VIOLENCIA
HUMOR
AMOR
Figura 7-19
También es posible listar todos los casos con el grupo al que pertenecen, la
probabilidad de pertenecer y la máxima probabilidad. Para ello usamos Analizar
Informes
Resúmenes de casos (Figura 7-20) y rellenamos la pantalla de entrada como se indica
en la Figura 7-21. Al hacer clic en Aceptar se obtiene la tabla de resúmenes de casos de la
Figura 7-22.
Figura 7-20 Figura 7-21
Resúmenes de casos(a)
Número
de caso Grupo
pronosticado
para el análisis 1
Probabilidades de
pertenencia al grupo
1 para el análisis 1
Probabilidades de
pertenencia al grupo
2 para el análisis 1
Probabilidades de
pertenencia al grupo
3 para el análisis 1
1 2 AMOR ,71597 ,22245 ,01153
2 3 AMOR ,65429 ,30594 ,01146
3 4 VIOLENCIA ,00603 ,00402 ,98784
4 5 AMOR ,57157 ,40223 ,01089
5 6 AMOR ,74997 ,10287 ,01020
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϭϳ
6 7 VIOLENCIA ,00555 ,00555 ,98770
7 8 VIOLENCIA ,00555 ,00555 ,98770
8 9 AMOR ,65429 ,30594 ,01146
9 10 AMOR ,71597 ,22245 ,01153
10 11 VIOLENCIA ,00509 ,00767 ,98655
11 12 AMOR ,74997 ,1028 7 ,01020
12 13 AMOR ,71597 ,2224 5 ,01153
13 14 AMOR ,65429 ,3059 4 ,01146
14 15 AMOR ,71597 ,2224 5 ,01153
15 16 AMOR ,71597 ,2224 5 ,01153
16 17 AMOR ,71597 ,2224 5 ,01153
17 18 AMOR ,57157 ,4022 3 ,01089
18 19 AMOR ,74949 ,1547 3 ,01109
19 20 VIOLENCIA ,00656 ,00290 ,98684
20 21 VIOLENCIA ,00509 ,00767 ,98655
21 22 VIOLENCIA ,00603 ,00402 ,98784
22 23 VIOLENCIA ,00656 ,00290 ,98684
23 24 AMOR ,71597 ,2224 5 ,01153
24 25 AMOR ,65429 ,3059 4 ,01146
25 26 AMOR ,74949 ,1547 3 ,01109
26 27 HUMOR ,38070 ,60682 ,00859
27 28 AMOR ,71597 ,2224 5 ,01153
28 29 AMOR ,74949 ,1547 3 ,01109
29 30 VIOLENCIA ,00656 ,00290 ,98684
Total N 29 29 29 29
a Limitado a los primeros 30 casos.
Figura 7-22
4.7 SAS Y EL ANÁLISIS DISCRIMINANTE:
PROCEDIMIENTO DISCRIM
El procedimiento DISCRIM realiza análisis discriminante mediante varios métodos
de clasificación utilizando funciones lineales o cuadráticas y utilizando incluso métodos no
paramétricos. Su sintaxis es la siguiente:
PROC DISCRIM opciones;
CLASS variable;
BY variables;
ID variables;
FREQ variable;
WEIGHT variables;
VAR variables;
PRIORS probabilidades;
TESTCLASS variable;
TESTFREQ variable;
TESTID variable;
Las opciones iniciales de PROC DISCRIM son: DATA = conjunto de datos de
entrada, TSDATA = conjunto de datos con las observaciones que van a ser clasificadas,
OUT = conjunto de datos de salida con observaciones iniciales, clases para clasificación,
etcétera., y OUTSTAT = conjunto de datos de salida con los resultados estadísticos del
análisis.
Otras opciones sobre conjuntos de datos son: OUTCROSS = conjunto de datos de
salida con observaciones iniciales y clasificación de observaciones por validación cruzada,
OUTD = conjunto de datos de salida con observaciones iniciales y estimaciones de
ϭϭϴdE/^^'DEd/MEDZK^ Ξ^dZKK
densidad específica de grupo por cada observación, TESTOUT = conjunto datos de
TESTDATA más las probabilidades de clasificación de indivuos y TESTOUD = conjunto de
datos de TESTDATA más estimaciones de densidades.
Entre las opciones más importantes de especificación del análisis discriminante
tenemos: METHOD= NORMAL | NPAR para especificar el método discriminante normal
multivariante o no paramétrico respectivamente, POOL= YES | NO | TEST | para usar
funciones lineales, cuadráticas o test de Barlet, SLPOOL= nivel de confianza para los
contrastes de homogeneidad, K = valor del parámetro para el método no paramétrico del
vecino más cercano, R = radio para la estimación de la densidad en el método no paramétrico
del núcleo, KERNEL = BIWEIGHT | BIW, EPANECHNIKOV | EPA, NORMAL | NOR,
TRIWEIGHT | TRI, UNIFORM | UNI para estimar un grupo de densidades de núcleos en el
método no paramétrico del núcleo, METRIC = DIAGONAL | FULL | IDENTITY para especificar
el tipo de métrica para computar cuadrados de distanc ias en métodos no paramétricos.
Entre otras opciones, tenemos las opciones relativas al análisis discriminante canónico
(CANONICAL, CANPREFIX=nombre y NCAN=numero), generales (ALL, ANOVA, BCORR, BCOV
y BSSCP), de resustitución (LIST, LISTER y NOCLASSIFY), de validación cruzada (CROSSLIST,
CROSSLISTERR y CROSSVALIDATE) y de otro control de salida (DISTANCE, MANOVA,
PCORR, PCOV, POSTERR, PSSCP, SHORT SIMPLE, SINGULAR=p, SLPOOL=p, STDMEAN,
TCORR, TCOV, THRESHOLD=p, TSSCP, WCORR, WCOV y WSSCP).
La sentencia CLASS define la variable de clasificación que forma los grupos para el
análisis. La sentencia PRIORS especifica las probabilidades a priori en caso de que sea necesario.
La sentencia TESTCLASS controla observaciones mal clasificadas.
La sentencia TESTFREQ controla el número de veces que se repiten las
observaciones.
La sentencia TESTID controla la identificación en ID.
La sentencia VAR lista las variables numéricas a utilizar en el análisis.
La sentencia BY permite obtener análisis separados para grupos definidos en las
variables de BY.
La sentencia FREQ permite introducir una variable con las frecuencias absolutas
de las observaciones.
La sentencia WEIGTH permite usar variable de pesos.
Las opciones más importantes de PROC DISCRIM pueden clasificarse por
funcionalidad como sigue.
Funcionalidades Opciones
Conjunto de datos de entrada DATA=
TESTDATA=
Conjunto de datos de salida OUTSTAT=
OUT=
OUTCROSS=
OUTD=
TESTOUT=
TESTOUTD=
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϭϵ
Análisis discriminant
e
METHOD=
POOL=
SLPOOL=
Métodos no paramétricos K=
R=
KERNEL=
METRIC=
Otras opciones pueden clasificarse por funcionalidad como sigue:
Funcionalidades Opciones
Regla de clasificación THRESHOLD=
Singularidad SINGULAR=
Análisis discriminante canónico CANONICAL
CANPREFIX=
NCAN=
Clasificación y resustitución LIST
LISTERR
NOCLASSIFY
Clasificación y validación cruzada CROSSLIST
CROSSLISTERR
CROSSVALIDATE
Test de clasificación de datos TESTLIST
TESTLISTERR
Tasa de error estimada POSTERR
Funcionalidades Opciones
Control de la salida mostrada
Correlations BCORR
PCORR
TCORR
WCORR
Covariances BCOV
PCOV
TCOV
WCOV
SSCP Matrix BSSCP
PSSCP
TSSCP
WSSCP
Miscellaneous ALL
ANOVA
DISTANCE
MANOVA
SIMPLE
STDMEAN
Suppress output NOPRINT
SHORT
4.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE
Como ejemplo consideramos 12 variables procedentes de una analítica sanguínea
(LDH, proteínas totales, ácido úrico, hemoglobina, leucocitos, plaquetas, fosfatasa alcalina, GCTP,
GOT, GPT Br y Ca) medidas en 40 enfermos con cáncer de pulmón contenidas en el fichero
discrim.sas7bdat. Se trata de encontrar funciones discriminantes capaces de clasificar a pacientes
ϭϮϬdE/^^'DEd/MEDZK^ Ξ^dZKK
en tres grupos (variable GRUPO) según sus expectativas de supervivencia (supervivencia menor
que un año, supervivencia entre uno y dos años, y supervivencia superior a dos años).
Utilizaremos la siguiente sintaxis SAS:
Data sangre;
set ejemplos.discrim;
proc discrim data=sangre outstat=salida;
class Grupo;
var LDH PROT_TOT AC_URICO HEMOGLOB LEU COCIT PLAQUET
FOSF_ALC GGTP GOT GPT BR CA;
run;
La salida comienza presentando estadísticos simples, frecuencias absolutas y relativas
de individuos muestrales en cada clase de la variable grupo y las probabilidades a priori de
pertenencia a cada grupo de clasificación para cualquier nuevo individuo (se suponen iguales) e
información sobre la matriz de covarianzas ponderada.
Procedimiento DISCRIM
Observacione 40 Total DF 39
Variables 12 Clases Within DF 37
Clases 3 Clases Between DF 2
Información del nivel de la clase
Nombre de Probabilidad
Grupo variable Frecuencia Peso Proporción anterior
1_2 _1_2 13 13.0000 0.325000 0.333333
<1 _1 19 19.0000 0.475000 0.333333
>2 _2 8 8.0000 0.200000 0.333333
Información de la matriz de covarianza ponderada
Registro natural de la
Rango de la matriz Determinante de la
de covarianza matriz de covarianza
12 77.05497
A continuación el programa muestra la matriz de distancias generalizadas para las
categorías de la variable grupo. Continuando con la salida, el programa muestra las funciones
discriminantes lineales calculadas para cada uno de los tres grupos, presentando los
coeficientes que multiplican a cada variable. Estas funciones discriminantes son las que servirán
para clasificar nuevos individuos en distintos grupos de tratamiento según sus valores en las
variables de características sanguíneas.
Pairwise Generalized Squared Distances Between Groups
2 _ _ -1 _ _
D (i|j) = (X - X )' COV (X - X )
i j i j
Distancia cuadrada generalizada para Grupo
De Grupo 1_2 <1 >2
1_2 0 16.24299 1.29225
<1 16.24299 0 18.41302
>2 1.29225 18.41302 0
Función discriminante lineal
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϮϭ
_ -1 _ -1 _
Constant = -.5 X' COV X Coefficient Vector = COV X
j j j
Función discriminante lineal para Grupo
Variable Etiqueta 1_2 <1 >2
Constant -281.22065 -333.12159 -280.90258
e
LDH LDH 0.04230 0.05734 0.04078
PROT_TOT PROT_TOT 32.91782 36.14526 33.22442
AC_URICO AC_URICO -2.60609 -3.08545 -2.05650
HEMOGLOB HEMOGLOB 0.34633 -1.46457 0.18406
LEUCOCIT LEUCOCIT 0.00341 0.00404 0.00333
PLAQUET PLAQUET -1.6842E-6 -5.7757E-6 -4.4259E-6
FOSF_ALC FOSF_ALC 0.01010 0.02187 0.01203
GGTP GGTP 0.12302 0.14255 0.13208
GOT GOT 0.77930 0.94183 0.77843
GPT GPT -0.36515 -0.32712 -0.39448
BR BR 25.93659 26.76894 26.02474
CA CA 25.67323 27.90843 25.52039
Las tres funciones discriminantes serán:
GRUPO1 = -281,2 + 0,04LDH + 32,91PROT_TOT - 2,6AC_URICO + 0,34HEMOGLOB +
+0,0034LEUCOCIT- 0,0000016PLAQUET + 0,01FOSF_ALC + 0,12GGTP + 0,77GOT -0,36GPT +
+25,9BR + 25,6CA
GRUPO2 = -333,1 + 0,06LDH + 36,14PROT_TOT - 3,08AC_URICO – 1,4HEMOGLOB +
+0,004LEUCOCIT- 0,0000057PLAQUET + 0,02FOSF_ALC + 0,14GGTP + 0,94GOT -0,32GPT +
+26,7BR + 27,9CA
GRUPO3 = -280,9 + 0,04LDH + 33,22PROT_TOT - 2,05AC_URICO + 0,18HEMOGLOB +
0,0033LEUCOCIT- 0,0000044PLAQUET + 0,012FOSF_ALC + 0,13GGTP + 0,77GOT -0,39GPT +
26,02BR + 25,5CA
Para clasificar un nuevo individuo en un grupo, hallamos los valores de las
funciones discriminantes para sus datos dados de las variables independientes relativos a
sus características sanguíneas y lo clasificamos en el grupo para el que la función
discriminante dé un mayor valor. Continuando con la salida de SAS, se obtiene ahora el
resultado de la aplicación de las funciones discriminantes a los propios individuos de la
muestra para asignarlos a los grupos y ver si se clasifican bien en el grupo al que realmente
pertenecen. En la matriz del número de observaciones y porcentaje clasificado en grupo
(matriz de confusión) vemos que los números de individuos bien clasificados y los
porcentajes de individuos bien clasificados en su grupo son bajos, lo que no es un buen
indicio para el poder clasificatorio de estas funciones discriminantes.
Por último, se presentan las tasas de error en la clasificación de individuos por
grupos. La tasa de error aparente total es del 25,32%. Las tasas de error de clasificación en
los tres grupos son respectivamente 38,46%, 0% y 37,5%.
Resumen de clasificación para los datos calibrados: WORK.SANGRE
Resumen de resustitución usando Función discriminante lineal
Función de la distancia cuadrada generalizada
2 _ -1 _
D (X) = (X-X )' COV (X-X )
j j j
Probabilidad posterior de miembro en cada Grupo
2 2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j k k
ϭϮϮdE/^^'DEd/MEDZK^ Ξ^dZKK
Número de observaciones y porcentaje clasificado en Grupo
De Grupo 1_2 <1 >2 Total
1_2 8 0 5 13
61.54 0.00 38.46 100.00
<1 0 19 0 19
0.00 100.00 0.00 100.00
>2 3 0 5 8
37.50 0.00 62.50 100.00
Total 11 19 10 40
27.50 47.50 25.00 100.00
Anteriores 0.33333 0.33333 0.33333
Estimaciones de cuenta de error para Grupo
1_2 <1 >2 Total
Tasa 0.3846 0.0000 0.3750 0.2532
Anteriores 0.3333 0.3333 0.3333
4.8.1 SAS Y EL ANÁLISIS DISCRIMINANTE PASO
A PASO: PROCEDIMIENTO STEPDISC
Y EJEMPLO
El procedimiento STEPDIC realiza análisis discriminante paso a paso, para
seleccionar un conjunto de variables cuantitativas a utilizar para la discriminación entre
clases. Su sintaxis es la siguiente:
PROC STEPDISC opciones;
CLASS variable;
BY variables;
FREQ variable;
WEIGHT variables;
VAR variables;
Como ejemplo, realizaremos el análisis discriminante de los ejemplos anteriores
mediante el método de paso a paso hacia delante (forward). La sintaxis será la siguiente:
Data sangre;
set ejemplos.discrim;
proc stepdisc data=sangre method = forward;
class Grupo;
var LDH PROT_TOT AC_URICO HEMOGLOB LEUCOCIT PLAQUET
FOSF_ALC GGTP GOT GPT BR CA;
run;
La salida comienza presentando estadísticos simples, y frecuencias absolutas y
relativas de individuos muestrales en cada clase de la variable grupo.
Procedimento STEPDISC
El método para las variables de selección es FORWARD
Observaciones 40 Variable(s) en el análisis 12
Niveles de cla 3 Las variable(s) se incluirán 0
Nivel de significación para 0.15
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϮϯ
Información del nivel de la clase
Nombre de
Grupo variable Frecuencia Peso Proporción
1_2 _1_2 13 13.0000 0.325000
<1 _1 19 19.0000 0.475000
>2 _2 8 8.0000 0.200000
A continuación se estudia la capacidad discriminante de todas las variables por
separado a través de la F (su magnitud informa sobre el poder discriminante de cada
variable y su p-valor informa de la significatividad de cada variable en el modelo, que en
nuestro caso supera el 95% en muchos casos) y del coeficiente R2 (proporción de
dispersión total explicada por la dispersión factorial entre grupos de cada variable).
Procedimento STEPDISC
Selección hacia delante: Paso 1
Estadísticos para Entry, DF = 2, 37
Variable Etiqueta R-cuadrado F-Valor Pr > F Tolerancia
LDH LDH 0.2586 6.45 0.0039 1.0000
PROT_TOT PROT_TOT 0.0184 0.35 0.7089 1.0000
AC_URICO AC_URICO 0.1790 4.03 0.0260 1.0000
HEMOGLOB HEMOGLOB 0.2541 6.30 0.0044 1.0000
LEUCOCIT LEUCOCIT 0.0388 0.75 0.4813 1.0000
PLAQUET PLAQUET 0.0208 0.39 0.6780 1.0000
FOSF_ALC FOSF_ALC 0.2120 4.98 0.0122 1.0000
GGTP GGTP 0.1124 2.34 0.1103 1.0000
GOT GOT 0.1540 3.37 0.0454 1.0000
GPT GPT 0.3090 8.27 0.0011 1.0000
BR BR 0.0250 0.47 0.6258 1.0000
CA CA 0.2317 5.58 0.0076 1.0000
A continuación se introduce la variable GPT en el modelo (la más significativa por
tener el mayor p-valor de la F, y por tanto, la de mayor poder discrimínate). Seguidamente,
el programa calcula índices que valoran la capacidad discriminante del modelo formado
sólo por esta primera variable discriminante elegida. Vemos que la Lambda de Wilks vale
0,691, valor muy lejano de cero. Esto indica que hay que introducir otra variable en el
modelo, que será la de mayor poder discriminante, es decir, la de mayor p-valor de la F
después de haber calculado nuevamente la capacidad discriminante de cada variable del
modelo sin GPT (variable HEMOGLOB).
Se va a introducir la variable GPT.
Variable(s) introducidas
GPT
Estadísticos multivariables
Estadístico Valor F-Valor Num DF Den DF Pr > F
Lambda de Wilks 0.691031 8.27 2 37 0.0011
Traza de Pillai 0.308969 8.27 2 37 0.0011
Correlación canónica cuadrada media 0.154484
Selección hacia delante: Paso 2
Estadísticos para Entry, DF = 2, 36
R-cuadrado
Variable Etiqueta parcial F-Valor Pr > F Tolerancia
LDH LDH 0.2045 4.63 0.0163 0.9312
PROT_TOT PROT_TOT 0.0073 0.13 0.8758 0.9829
AC_URICO AC_URICO 0.1075 2.17 0.1292 0.9124
HEMOGLOB HEMOGLOB 0.2944 7.51 0.0019 0.9928
ϭϮϰdE/^^'DEd/MEDZK^ Ξ^dZKK
LEUCOCIT LEUCOCIT 0.0364 0.68 0.5134 0.9952
PLAQUET PLAQUET 0.0238 0.44 0.6481 0.9984
FOSF_ALC FOSF_ALC 0.0996 1.99 0.1514 0.8407
GGTP GGTP 0.0225 0.41 0.6645 0.7405
GOT GOT 0.0765 1.49 0.2388 0.8986
BR BR 0.0155 0.28 0.7556 0.7980
CA CA 0.1359 2.83 0.0722 0.8772
Introducida la variable HEMOGLOB, se vuelven a calcular los estadísticos de la
capacidad discriminante del modelo con dos variables y se observa que la Lambda de Wilks
ha mejorado disminuyendo su valor. Continuando con el proceso, se observa que en 5
pasos se obtiene una Lambda de Wilks de valor 0,28 (modelo discrimínate muy
significativo) después de haber introducido en el modelo las variables GPT, HEMOGLOB,
LDH y LEUCOCIT.
Se va a introducir la variable HEMOGLOB.
Variable(s) introducidas
HEMOGLOB GPT
Estadísticos multivariables
Estadístico Valor F-Valor Num DF Den DF Pr > F
Lambda de Wilks 0.487601 7.78 4 72 <.0001>
Traza de Pillai 0.522370 6.54 4 74 0.0001
Correlación canónica cuadrada media 0.261185
Procedimento STEPDISC
Selección hacia delante: Paso 3
Estadísticos para Entry, DF = 2, 35
R-cuadrado
Variable Etiqueta parcial F-Valor Pr > F Tolerancia
LDH LDH 0.3309 8.65 0.0009 0.9215
PROT_TOT PROT_TOT 0.0069 0.12 0.8855 0.9764
AC_URICO AC_URICO 0.0635 1.19 0.3170 0.8474
LEUCOCIT LEUCOCIT 0.0824 1.57 0.2221 0.9806
PLAQUET PLAQUET 0.0257 0.46 0.6343 0.9851
FOSF_ALC FOSF_ALC 0.1959 4.26 0.0220 0.8290
GGTP GGTP 0.0351 0.64 0.5355 0.7325
GOT GOT 0.0339 0.61 0.5464 0.8501
BR BR 0.0157 0.28 0.7583 0.7915
CA CA 0.0952 1.84 0.1736 0.8374
Se va a introducir la variable LDH.
Variable(s) introducidas
LDH HEMOGLOB GPT
Estadísticos multivariables
Estadístico Valor F-Valor Num DF Den DF Pr > F
Lambda de Wilks 0.326257 8.76 6 70 <.0001>
Traza de Pillai 0.689860 6.32 6 72 <.0001>
Correlación canónica cuadrada media 0.344930
Selección hacia delante: Paso 4
Estadísticos para Entry, DF = 2, 34
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϮϱ
R-cuadrado
Variable Etiqueta parcial F-Valor Pr > F Tolerancia
PROT_TOT PROT_TOT 0.0092 0.16 0.8545 0.8956
AC_URICO AC_URICO 0.0951 1.79 0.1830 0.8464
LEUCOCIT LEUCOCIT 0.1129 2.16 0.1306 0.9170
PLAQUET PLAQUET 0.0430 0.76 0.4741 0.8928
FOSF_ALC FOSF_ALC 0.1124 2.15 0.1317 0.7461
GGTP GGTP 0.0408 0.72 0.4924 0.6919
GOT GOT 0.0871 1.62 0.2126 0.8252
BR BR 0.0009 0.02 0.9849 0.6944
CA CA 0.0317 0.56 0.5781 0.7644
Se va a introducir la variable LEUCOCIT.
Variable(s) introducidas
LDH HEMOGLOB LEUCOCIT GPT
Estadísticos multivariables
Estadístico Valor F-Valor Num DF Den DF Pr > F
Lambda de Wilks 0.289435 7.30 8 68 <.0001>
Traza de Pillai 0.728410 5.01 8 70 <.0001>
Correlación canónica cuadrada media 0.364205
Selección hacia delante: Paso 5
Estadísticos para Entry, DF = 2, 33
R-cuadrado
Variable Etiqueta parcial F-Valor Pr > F Tolerancia
PROT_TOT PROT_TOT 0.0120 0.20 0.8193 0.8954
AC_URICO AC_URICO 0.0787 1.41 0.2584 0.8280
PLAQUET PLAQUET 0.0349 0.60 0.5568 0.8908
FOSF_ALC FOSF_ALC 0.0807 1.45 0.2494 0.7051
GGTP GGTP 0.0560 0.98 0.3861 0.6818
GOT GOT 0.0942 1.72 0.1956 0.8221
BR BR 0.0002 0.00 0.9961 0.6940
CA CA 0.0510 0.89 0.4219 0.7565
No se pueden introducir variables.
No puede haber más pasos.
Una vez formado el modelo con las variables adecuadas, se presenta un resumen
del mismo, observando que todas las variables incuidas en el mismo son significativas
(p-valores de la F bajos).
Resumen de la selección hacia delante
Correlación
canónica
Número R-cuadrado Lambda Pr < cuadrada Pr >
Paso en Introducido Etiqueta parcial F-Valor Pr > F de Wilks Lambda de la media ASCC
1 1 GPT GPT 0.3090 8.27 0.0011 0.69103105 0.0011 0.15448448 0.0011
2 2 HEMOGLOB HEMOGLOB 0.2944 7.51 0.0019 0.48760064 <.0001 class="_ _1">8484 0.0001
3 3 LDH LDH 0.3309 8.65 0.0009 0.32625717 <.0001 class="_ _1">2988 <.0001>
4 4 LEUCOCIT LEUCOCIT 0.1129 2.16 0.1306 0.28943535 <.0001 class="_ _1">0481 <.0001>
Ahora podríamos realizar un análisis discriminante común sólo con esas variables
discriminadoras elegidas con el procedimiento DISCRIM. La sintaxis sería la siguiente:
Data sangre;
set ejemplos.discrim;
proc discrim data=sangre outstat=datos;
class Grupo;
var LDH HEMOGLOB LEUCOCIT GPT;
ϭϮϲdE/^^'DEd/MEDZK^ Ξ^dZKK
run;
En la salida se observa una matriz de confusión que clasifica mejor los individuos de la
muestra que en el caso del primer ejemplo con todas las variables discriminantes en el modelo.
Al eliminar variables menos significativas, se obtiene un modelo que discrimina mejor.
Procedimiento DISCRIM
Observacione 40 Total DF 39
Variables 4 Clases Within DF 37
Clases 3 Clases Between DF 2
Información del nivel de la clase
Nombre de Probabilidad
Grupo variable Frecuencia Peso Proporción anterior
1_2 _1_2 13 13.0000 0.325000 0.333333
<1 _1 19 19.0000 0.475000 0.333333
>2 _2 8 8.0000 0.200000 0.333333
Información de la matriz de covarianza ponderada
Registro natural de la
Rango de la matriz Determinante de la
de covarianza matriz de covarianza
4 33.78984
Pairwise Generalized Squared Distances Between Groups
2 _ _ -1 _ _
D (i|j) = (X - X )' COV (X - X )
i j i j
Distancia cuadrada generalizada para Grupo
De Grupo 1_2 <1 >2
1_2 0 7.88475 0.34642
<1 7.88475 0 10.25391
>2 0.34642 10.25391 0
Función discriminante lineal
_ -1 _ -1 _
Constant = -.5 X' COV X Coefficient Vector = COV X
j j j
Función discriminante lineal para Grupo
Variable Etiqueta 1_2 <1 >2
Constant -22.90563 -23.01226 -20.56610
e
LDH LDH 0.00295 0.01213 0.00107
HEMOGLOB HEMOGLOB 2.48778 1.18571 2.51588
LEUCOCIT LEUCOCIT 0.0008728 0.00129 0.0007781
GPT GPT 0.05611 0.15618 0.03551
Resumen de clasificación para los datos calibrados: WORK.SANGRE
Resumen de resustitución usando Función discriminante lineal
Función de la distancia cuadrada generalizada
2 _ -1 _
D (X) = (X-X )' COV (X-X )
j j j
Probabilidad posterior de miembro en cada Grupo
2 2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j k k
Número de observaciones y porcentaje clasificado en Grupo
(MATRIZ DE CONFUSIÓN)
De Grupo 1_2 <1 >2 Total
1_2 9 0 4 13
69.23 0.00 30.77 100.00
<1 2 17 0 19
10.53 89.47 0.00 100.00
>2 3 0 5 8
37.50 0.00 62.50 100.00
Ξ^dZKKKϰ͘^'DEd/ME,K͘E>/^/^/^Z/D/EEd ϭϮϳ
Total 14 17 9 40
35.00 42.50 22.50 100.00
Anteriores 0.33333 0.33333 0.33333
Estimaciones de cuenta de error para Grupo
1_2 <1 >2 Total
Tasa 0.3077 0.1053 0.3750 0.2627
Anteriores 0.3333 0.3333 0.3333
En el procedimiento STEPDISC, la variable definida en la sentencia CLASS define los
grupos para el análisis y las opciones son similar es a las de los procedimientos CANDISC y
DISCRIM con especial mención a la opción ME THOD = BACKWARE | FORWARE | STEPWISE
que define el método de selección paso a paso.

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR