Análisis de datos: técnicas de la dependencia
Autor | Pablo Valderrey Sanz |
Páginas | 159-202 |
Superadas las fases de diseo de la inves tigacin y de recopilacin y preparacin
de los datos llega el momento de la utilizacin de las tcnicas de anlisis de datos en la
investigacin de mercados.
La clasificacin inicial de las tcnicas de anlisis de datos distingue entre tcnicas de la
dependencia en las que las variables pueden clasificarse en dependientes e independientes y
tcnicas de la interdependencia en las que todas las variables tienen inicialmente el mismo
estatus sin existir variables dependientes ni independientes.
Las tcnicas de la dependencia especifican el modelo para los datos en base a un
conocimiento terico previo. El modelo supuesto para los datos debe contrastarse despus del
proceso de ajuste de datos a un modelo estimado antes de aceptarlo como vlido. Formalmente,
la aplicacin de todo modelo debe superar las fases de identificacin objetiva (a partir de los datos
se aplican reglas que permitan identificar el mejor modelo posible que ajuste los datos),
estimacin (proceso de clculo de los parmetros del modelo elegido para los datos en la fase de
identificacin), diagnosis (proceso de contraste de la validez del modelo estimado) y prediccin
(proceso de utilizacin del modelo identificado, estimado y validado para predecir valores futuros
de las variables dependientes). Podemos incluir entre estas tcnicas todos los tipos de regresin y
asociacin, anlisis de la varianza y covarianza, anlisis discriminante y series temporales.
En las tcnicas de la interdependencia no se asigna ningn papel predeterminado a las
variables. No se supone la existencia de variables dependientes ni independientes y tampoco se
supone la existencia de un modelo previo para los datos. Los modelos se crean
automticamente partiendo del reconocimiento de patrones. El modelo se obtiene como mezcla
del conocimiento obtenido antes y despus del anlisis de datos y tambin debe contrastarse
antes de aceptarse como vlido. Podemos incluir en este grupo las tcnicas de reduccin de la
dimensin (factorial, componentes principales, correspondencias, etc.), las tcnicas de
escalamiento ptimo y multidimensional y el anlisis conjunto. Tambin podemos incluir tcnicas
de clasificacin que extraen perfiles de comportamiento o clases, como el anlisis cluster.
Cuando alguna v ariable destaca como dependiente principal, habr que utilizar
tcnicas analticas o inferenciales (MTODOS DE DEPENDENCIA) considerando la
variable dependiente como explicada por las dems variables independientes explicativas, y
tratando de relacionar todas las variables por medio de una posible ecuacin o modelo que
las ligue. E l mtodo elegido podra ser entonces la Regresin lineal, generalmente con
todas las variables cuantitativas. Una vez configurado el modelo matemtico se podr llegar
a predecir el valor de la variable dependiente conocido el perfil de todas las dems. Si la
variable dependiente fuera cualitativa dicotmica (1, 0; s o no ) podr usarse como
clasificadora, estudiando su relacin con el resto de variables clasificativas a travs de la
Regresin logstica. Si l a variable dependiente cualitativa observada constatara la
asignacin de cada individuo a grupos previamente definidos (dos, o ms de dos), puede
ser utilizada para clasificar nuevos casos en que se desconozca el grupo a que
probablemente pertenecen, en cuyo cas o estamos ante el Anlisis discriminante, que
resuelve el problema de asignacin en funcin de un perfil cuantitativo de variables
clasificativas. Si la variable dependiente es cuantitativa y las explicativas son cualitativas
estamos ante los modelos del anlisis de la varianza, que puede extenderse a los modelos
loglineales para el anlisis de tablas de contingencia de dimensin elevada. Si la variable
dependiente puede ser cualitativa o cuantitativa y las indepen dientes cualitativas, estamos
ante el c aso de la Segmentacin. Con la intencin de clarificar un poco ms ese tipo de
tcnicas de anlisis de la dependencia se presenta el esquema siguiente, que las clasifica en
funcin de la naturaleza mtrica o no mtrica de las variables independientes y dependientes.
La regresin mltiple tiene como objetivo analizar un modelo que pretende explicar
el comportamiento de una variable (variable endgena, explicada o dependiente), que
designaremos como Y, utilizando la informacin proporcionada por los valores tomados por
un conjunto de variables explicativas (exgenas o independientes), que designaremos por
X1, X2, ..., Xk. Tanto las variables exgenas como la endgena son cuantitativas.
El modelo lineal (modelo economtrico) viene dado de la forma:
Los coeficientes (parmetros) b1, b2, ..., bk denotan la magnitud del efecto que las
variables explicativas (exgenas o independientes) X1, X2 ,..., Xk tienen sobre la variable
explicada (endgena o dependiente) Y. El coeficiente b0 se denomina trmino constante
(o independiente) del modelo. El trmino u se denomina trmino de error del modelo.
Disponemos de un conjunto de T observaciones para cada una de las variables
endgenas y exgenas. Entonces, podremos escribir el modelo de la forma:
La aparicin (no necesaria) de un trmino independiente e n el modelo puede
interpretarse como la presencia de una primera variable X0 cuyo valor sea siempre 1.
El problema fundamental que se aborda es el siguiente: suponiendo que la relacin
entre la variable Y y el conjunto de variables X1, X2, ... , Xk es como se ha descrito en el
modelo, y que se dispone de un conjunto de T observaciones para cada una de las
variables, la endgena y las exgenas, cmo pueden asignarse valores numricos a los
parmetros b0, b1, b2, , bk basndonos en la informacin muestral Estos valores se
llamarn estimaciones de los parmetros.
Una vez encontradas las estimaciones de los parmetros del modelo, podremos
hacer predicciones acerca del comportamiento futuro de la variable Y.
Formulamos el modelo lineal bajo las siguientes hiptesis:
Las variables X1, X2, ..., Xk son deterministas ( no son v ariables aleatorias), ya que su
valor es un valor constante proveniente de una muestra tomada.
La variable u (trmino de error) es una variable aleatoria con esperanza nula y matriz de
covarianzas constante y diagonal (matriz escalar). Es decir que, para todo t, la variable ut
tiene media cero y varianza 2 no dependiente de t, y adems Cov(ui,uj) = 0 para todo i y
para todo j distintos entre s. El hecho de que la varianza de ut sea constante para todo t (que
no dependa de t), se denomina hiptesis de homoscedasticidad. El hecho de que Cov(ui,uj) =
0 para todo i distinto de j se denomina hiptesis de no autocorrelacin.
La variable Y es aleatoria, ya que depende de la variable aleatoria u.
Tambin se supone la ausencia de errores de especificacin, es decir, que suponemos
que todas las variables X que son relevantes para la explicacin de la variable Y, estn
incluidas en la definicin del modelo lineal.
Para continuar leyendo
Solicita tu prueba