Análisis de datos: técnicas de la dependencia - Investigación de Mercados. Enfoque práctico - Libros y Revistas - VLEX 862817712

Análisis de datos: técnicas de la dependencia

AutorPablo Valderrey Sanz
Páginas159-202
Superadas las fases de diseo de la inves tigacin y de recopilacin y preparacin
de los datos llega el momento de la utilizacin de las tcnicas de anlisis de datos en la
investigacin de mercados.
La clasificacin inicial de las tcnicas de anlisis de datos distingue entre tcnicas de la
dependencia en las que las variables pueden clasificarse en dependientes e independientes y
tcnicas de la interdependencia en las que todas las variables tienen inicialmente el mismo
estatus sin existir variables dependientes ni independientes.
Las tcnicas de la dependencia especifican el modelo para los datos en base a un
conocimiento terico previo. El modelo supuesto para los datos debe contrastarse despus del
proceso de ajuste de datos a un modelo estimado antes de aceptarlo como vlido. Formalmente,
la aplicacin de todo modelo debe superar las fases de identificacin objetiva (a partir de los datos
se aplican reglas que permitan identificar el mejor modelo posible que ajuste los datos),
estimacin (proceso de clculo de los parmetros del modelo elegido para los datos en la fase de
identificacin), diagnosis (proceso de contraste de la validez del modelo estimado) y prediccin
(proceso de utilizacin del modelo identificado, estimado y validado para predecir valores futuros
de las variables dependientes). Podemos incluir entre estas tcnicas todos los tipos de regresin y
asociacin, anlisis de la varianza y covarianza, anlisis discriminante y series temporales.
En las tcnicas de la interdependencia no se asigna ningn papel predeterminado a las
variables. No se supone la existencia de variables dependientes ni independientes y tampoco se
supone la existencia de un modelo previo para los datos. Los modelos se crean
automticamente partiendo del reconocimiento de patrones. El modelo se obtiene como mezcla
del conocimiento obtenido antes y despus del anlisis de datos y tambin debe contrastarse
antes de aceptarse como vlido. Podemos incluir en este grupo las tcnicas de reduccin de la
dimensin (factorial, componentes principales, correspondencias, etc.), las tcnicas de
escalamiento ptimo y multidimensional y el anlisis conjunto. Tambin podemos incluir tcnicas
de clasificacin que extraen perfiles de comportamiento o clases, como el anlisis cluster.
Cuando alguna v ariable destaca como dependiente principal, habr que utilizar
tcnicas analticas o inferenciales (MTODOS DE DEPENDENCIA) considerando la
variable dependiente como explicada por las dems variables independientes explicativas, y
tratando de relacionar todas las variables por medio de una posible ecuacin o modelo que
las ligue. E l mtodo elegido podra ser entonces la Regresin lineal, generalmente con
todas las variables cuantitativas. Una vez configurado el modelo matemtico se podr llegar
a predecir el valor de la variable dependiente conocido el perfil de todas las dems. Si la
variable dependiente fuera cualitativa dicotmica (1, 0; s o no ) podr usarse como
clasificadora, estudiando su relacin con el resto de variables clasificativas a travs de la
Regresin logstica. Si l a variable dependiente cualitativa observada constatara la
asignacin de cada individuo a grupos previamente definidos (dos, o ms de dos), puede
ser utilizada para clasificar nuevos casos en que se desconozca el grupo a que
probablemente pertenecen, en cuyo cas o estamos ante el Anlisis discriminante, que
resuelve el problema de asignacin en funcin de un perfil cuantitativo de variables
clasificativas. Si la variable dependiente es cuantitativa y las explicativas son cualitativas
estamos ante los modelos del anlisis de la varianza, que puede extenderse a los modelos
loglineales para el anlisis de tablas de contingencia de dimensin elevada. Si la variable
dependiente puede ser cualitativa o cuantitativa y las indepen dientes cualitativas, estamos
ante el c aso de la Segmentacin. Con la intencin de clarificar un poco ms ese tipo de
tcnicas de anlisis de la dependencia se presenta el esquema siguiente, que las clasifica en
funcin de la naturaleza mtrica o no mtrica de las variables independientes y dependientes.
La regresin mltiple tiene como objetivo analizar un modelo que pretende explicar
el comportamiento de una variable (variable endgena, explicada o dependiente), que
designaremos como Y, utilizando la informacin proporcionada por los valores tomados por
un conjunto de variables explicativas (exgenas o independientes), que designaremos por
X1, X2, ..., Xk. Tanto las variables exgenas como la endgena son cuantitativas.
El modelo lineal (modelo economtrico) viene dado de la forma:
Los coeficientes (parmetros) b1, b2, ..., bk denotan la magnitud del efecto que las
variables explicativas (exgenas o independientes) X1, X2 ,..., Xk tienen sobre la variable
explicada (endgena o dependiente) Y. El coeficiente b0 se denomina trmino constante
(o independiente) del modelo. El trmino u se denomina trmino de error del modelo.
Disponemos de un conjunto de T observaciones para cada una de las variables
endgenas y exgenas. Entonces, podremos escribir el modelo de la forma:
La aparicin (no necesaria) de un trmino independiente e n el modelo puede
interpretarse como la presencia de una primera variable X0 cuyo valor sea siempre 1.
El problema fundamental que se aborda es el siguiente: suponiendo que la relacin
entre la variable Y y el conjunto de variables X1, X2, ... , Xk es como se ha descrito en el
modelo, y que se dispone de un conjunto de T observaciones para cada una de las
variables, la endgena y las exgenas, cmo pueden asignarse valores numricos a los
parmetros b0, b1, b2, , bk basndonos en la informacin muestral Estos valores se
llamarn estimaciones de los parmetros.
Una vez encontradas las estimaciones de los parmetros del modelo, podremos
hacer predicciones acerca del comportamiento futuro de la variable Y.
Formulamos el modelo lineal bajo las siguientes hiptesis:
Las variables X1, X2, ..., Xk son deterministas ( no son v ariables aleatorias), ya que su
valor es un valor constante proveniente de una muestra tomada.
La variable u (trmino de error) es una variable aleatoria con esperanza nula y matriz de
covarianzas constante y diagonal (matriz escalar). Es decir que, para todo t, la variable ut
tiene media cero y varianza 2 no dependiente de t, y adems Cov(ui,uj) = 0 para todo i y
para todo j distintos entre s. El hecho de que la varianza de ut sea constante para todo t (que
no dependa de t), se denomina hiptesis de homoscedasticidad. El hecho de que Cov(ui,uj) =
0 para todo i distinto de j se denomina hiptesis de no autocorrelacin.
La variable Y es aleatoria, ya que depende de la variable aleatoria u.
Tambin se supone la ausencia de errores de especificacin, es decir, que suponemos
que todas las variables X que son relevantes para la explicacin de la variable Y, estn
incluidas en la definicin del modelo lineal.

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR