Recopilación y preparación de los datos. Exploratorio, depuración, tabulación y test - Investigación de Mercados. Enfoque práctico - Libros y Revistas - VLEX 862817711

Recopilación y preparación de los datos. Exploratorio, depuración, tabulación y test

AutorPablo Valderrey Sanz
Páginas111-157
Dentro de la fase de recopilacin y preparacin de los datos la primera tarea que suele
abordarse en la investigacin de mercados es el anlisis exploratorio de los datos, que persigue
hacerse una idea grfica y formal de la distribucin, evolucin y comportamiento de las variables
en estudio con la finalidad de identificar posibles problemticas derivadas de la informacin
atpica, de la falta de normalidad y simetra, etc.
La mayora del software esta dstico dispon e de herramientas que aportan
tcnicas grficas preparadas para el examen de los dato s que se ven mejoradas con
medidas estads ticas ms detalladas para su descripci n. Estas tcnicas permiten el
examen de las caractersticas de la distribuci n de las variables implicadas en el anlisis,
las relaciones bivariantes (y multivariant es) en tre ell as y el anlisis de las diferencias
entre grup os. Hay que tener presente que la s representaciones g rficas nunca susti tuyen
a las medidas de diagnstico for mal estadstico (contrastes de ajuste de los datos a una
distribucin , contrastes de asimet ra, contrastes de aletoriedad, etc.), pero proporcionan
una forma alt ernativa de desarrollar una perspectiva del carc ter de los d atos y de la s
interrelacio nes que existen, incluso s i son multivariantes.
Una vez obtenidos los datos de un problema, es prctico representarlos de una forma
grfica que refleje la dispersin de los valores respecto de la media. Un histograma (Figura 4-1)
se construye dibujando una recta horizontal y colocando una escala en la misma, definiendo una
sucesin ordenada de rangos de valores. En cada rango se dibuja una columna cuya altura
indica el nmero de veces en que el valor del resultado del proceso se incluye en ese rango. Se
pueden dibujar, adems, la media obtenida real y el valor medio objetivo.
Histograma
Consumo
Frecuencia
13 16 19 22 25 28 31 34 37 40 43 46 49
0
2
4
6
8
10
12
14
16
18
20
22
24
Figura 4-1
En el h istograma se obser va la distribucin subyacen te que modela los datos
sobre la vari able en estudio y su po sible simetra y calidad de ajuste a forma de ca mpana,
lo que permite pensar en la existencia de normalidad y simetra e n la distribucin de la
variable. Vemos as que el histograma da una idea c lara de la d istribucin de l a variable,
incluyendo un modelo probab ilstico para su modelacin, en este caso la distribucin
normal. El s imple examen de los datos tabulados inicialmente no aport aba informac in
alguna, sin e mbargo su graficacin da luz al proceso a travs d el histograma.
El diagrama de tallo y hojas, tambin llam ado histogra ma digital, es una
combinacin entre un histograma de barras y una tabla de frecuencias. Al mantener los
valores de la variable, el diagrama de tal lo y hojas resulta ms in formativo que el clsico
histograma de barras, ya que conserva los datos originales y, al mismo tiempo, compone
un perfil que ayuda a estudiar la form a y simetra de la distrib ucin.
Se trata pues de una herramienta de anlisis exploratorio de datos que muestra el
rango de los datos, dnde estn ms concentrados, su simetra y la presencia de datos
atpicos. Este procedimiento no es muy aconsejable para conjuntos de datos grandes. En la
Figura 4-2 se presenta el diagrama de tallo y hojas para una caracaterstica de calidad X.
Figura 4-2
El rango de l a caracterstica de calid ad X ha sido dividido en 7 clases o intervalos
llamados tallos, cada uno de ellos repr esentado por una fila del diagrama. El primer
nmero de cada fila (s eparado de los dems) presenta la frecuencia ab soluta de la clase
correspondie nte. El segundo nmero de cada fila presenta la c ifra de las decenas de
cada valor de X en su cor respondiente clase. El resto de l os nmeros de cada fila
(llamados hoja s) son las cifras de las unidades de todos los elementos de la clas e
definida por la fi la. De esta forma, adems de presentar la distribucin de los e lementos
en forma de histograma horizontal, en e l diagrama se observan lo s propios elementos.
Las hoja s permiten analiz ar la simetra, la norma lidad y otras caracterstica s de la
ditribucin de igual forma que un histograma.
El diagrama de tallo y ho jas es un procedimi ento semigrfic o para presentar la
informacin para variables cuantitati vas, que es especialmente til cua ndo el nmero total
de datos es pequeo (menor que 50).
El grfico de caja y bigotes permite analizar y resumir un conjunto de datos
univariante dado. Esta herramienta de anlisis explorator io de datos va a per mitir estudiar
la simetra de los d atos, detectar valores atpicos y vislumbrar un aju ste de los datos a
una distribucin de frecue ncias determin ada. En la Fig ura 4-3 se mue stra el grfico de
caja y bigot es para una caracterstic a X.
Figura 4-3
El grf ico de caja y big otes divide los datos en cuatro reas de igual frecue ncia,
una caja central divi dida en dos reas por una lnea vertica l y otras dos reas
representadas por dos segment os horizonta les (bigotes) que parten de l centro de cad a
lado ver tical de la caja. La caja central encierra el 50 por ciento de los datos. El si stema
dibuja la mediana como una lnea vertical en el interior de la caja. Si esta lnea est en e l
centro de la caja no hay asimetra en la variable. Los l ados vertical es de la caja estn
situados en l os cuartiles inferior y s uperior de la variable.
Partiendo del centro de cada lado vertical de la ca ja se dibu jan los dos bigotes,
uno hacia la izquierda y el otro hacia la derech a. E l big ote de l a iz quierda tiene un
extremo en el primer cuartil Q1, y el otro en el valor dad o por el pr imer cuartil men os 1,5
veces el rango intercuar tlico, esto es, Q1 - 1,5* (Q3 - Q1).
El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el valor
dado por el tercer cuartil ms 1,5 veces el rango intercuartlico, esto es, Q3 + 1,5*(Q3 - Q1). El
sistema considera valores atpicos (outliers) los que se encuentren a la izquierda del bigote
izquierdo y a la derecha del bigote derecho. El sistema separa estos datos del resto y los
representa mediante puntos alineados con la lnea horizontal central para que sean fciles de
detectar. En el interior de la caja central se representa la media con un signo ms.
El grfico de la Figura 4-3 permite afirmar que la carac terstica de calidad X vara
entre 15,5 y 46,6 y que el 50% central de la distribuci n de X vara entre 22 ( primer
cuartil) y 34,5 (ter cer cuartil). Por otra parte, no existen v alores de X anormalmente
grandes (o utliers), ya que en la Figura 4-3 no aparecen punto s alineados con los bigotes.
La dist ribucin es ligeramente asimtrica hacia la derecha, ya que la zona de la derecha
en el rea central de la figura es mayor que la de la izquierda. L a mediana c orresponde
aproximadamen te al valor 29 de X.

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR