Recopilación y preparación de los datos. Exploratorio, depuración, tabulación y test
Autor | Pablo Valderrey Sanz |
Páginas | 111-157 |
Dentro de la fase de recopilacin y preparacin de los datos la primera tarea que suele
abordarse en la investigacin de mercados es el anlisis exploratorio de los datos, que persigue
hacerse una idea grfica y formal de la distribucin, evolucin y comportamiento de las variables
en estudio con la finalidad de identificar posibles problemticas derivadas de la informacin
atpica, de la falta de normalidad y simetra, etc.
La mayora del software esta dstico dispon e de herramientas que aportan
tcnicas grficas preparadas para el examen de los dato s que se ven mejoradas con
medidas estads ticas ms detalladas para su descripci n. Estas tcnicas permiten el
examen de las caractersticas de la distribuci n de las variables implicadas en el anlisis,
las relaciones bivariantes (y multivariant es) en tre ell as y el anlisis de las diferencias
entre grup os. Hay que tener presente que la s representaciones g rficas nunca susti tuyen
a las medidas de diagnstico for mal estadstico (contrastes de ajuste de los datos a una
distribucin , contrastes de asimet ra, contrastes de aletoriedad, etc.), pero proporcionan
una forma alt ernativa de desarrollar una perspectiva del carc ter de los d atos y de la s
interrelacio nes que existen, incluso s i son multivariantes.
Una vez obtenidos los datos de un problema, es prctico representarlos de una forma
grfica que refleje la dispersin de los valores respecto de la media. Un histograma (Figura 4-1)
se construye dibujando una recta horizontal y colocando una escala en la misma, definiendo una
sucesin ordenada de rangos de valores. En cada rango se dibuja una columna cuya altura
indica el nmero de veces en que el valor del resultado del proceso se incluye en ese rango. Se
pueden dibujar, adems, la media obtenida real y el valor medio objetivo.
Histograma
Consumo
Frecuencia
13 16 19 22 25 28 31 34 37 40 43 46 49
0
2
4
6
8
10
12
14
16
18
20
22
24
Figura 4-1
En el h istograma se obser va la distribucin subyacen te que modela los datos
sobre la vari able en estudio y su po sible simetra y calidad de ajuste a forma de ca mpana,
lo que permite pensar en la existencia de normalidad y simetra e n la distribucin de la
variable. Vemos as que el histograma da una idea c lara de la d istribucin de l a variable,
incluyendo un modelo probab ilstico para su modelacin, en este caso la distribucin
normal. El s imple examen de los datos tabulados inicialmente no aport aba informac in
alguna, sin e mbargo su graficacin da luz al proceso a travs d el histograma.
El diagrama de tallo y hojas, tambin llam ado histogra ma digital, es una
combinacin entre un histograma de barras y una tabla de frecuencias. Al mantener los
valores de la variable, el diagrama de tal lo y hojas resulta ms in formativo que el clsico
histograma de barras, ya que conserva los datos originales y, al mismo tiempo, compone
un perfil que ayuda a estudiar la form a y simetra de la distrib ucin.
Se trata pues de una herramienta de anlisis exploratorio de datos que muestra el
rango de los datos, dnde estn ms concentrados, su simetra y la presencia de datos
atpicos. Este procedimiento no es muy aconsejable para conjuntos de datos grandes. En la
Figura 4-2 se presenta el diagrama de tallo y hojas para una caracaterstica de calidad X.
Figura 4-2
El rango de l a caracterstica de calid ad X ha sido dividido en 7 clases o intervalos
llamados tallos, cada uno de ellos repr esentado por una fila del diagrama. El primer
nmero de cada fila (s eparado de los dems) presenta la frecuencia ab soluta de la clase
correspondie nte. El segundo nmero de cada fila presenta la c ifra de las decenas de
cada valor de X en su cor respondiente clase. El resto de l os nmeros de cada fila
(llamados hoja s) son las cifras de las unidades de todos los elementos de la clas e
definida por la fi la. De esta forma, adems de presentar la distribucin de los e lementos
en forma de histograma horizontal, en e l diagrama se observan lo s propios elementos.
Las hoja s permiten analiz ar la simetra, la norma lidad y otras caracterstica s de la
ditribucin de igual forma que un histograma.
El diagrama de tallo y ho jas es un procedimi ento semigrfic o para presentar la
informacin para variables cuantitati vas, que es especialmente til cua ndo el nmero total
de datos es pequeo (menor que 50).
El grfico de caja y bigotes permite analizar y resumir un conjunto de datos
univariante dado. Esta herramienta de anlisis explorator io de datos va a per mitir estudiar
la simetra de los d atos, detectar valores atpicos y vislumbrar un aju ste de los datos a
una distribucin de frecue ncias determin ada. En la Fig ura 4-3 se mue stra el grfico de
caja y bigot es para una caracterstic a X.
Figura 4-3
El grf ico de caja y big otes divide los datos en cuatro reas de igual frecue ncia,
una caja central divi dida en dos reas por una lnea vertica l y otras dos reas
representadas por dos segment os horizonta les (bigotes) que parten de l centro de cad a
lado ver tical de la caja. La caja central encierra el 50 por ciento de los datos. El si stema
dibuja la mediana como una lnea vertical en el interior de la caja. Si esta lnea est en e l
centro de la caja no hay asimetra en la variable. Los l ados vertical es de la caja estn
situados en l os cuartiles inferior y s uperior de la variable.
Partiendo del centro de cada lado vertical de la ca ja se dibu jan los dos bigotes,
uno hacia la izquierda y el otro hacia la derech a. E l big ote de l a iz quierda tiene un
extremo en el primer cuartil Q1, y el otro en el valor dad o por el pr imer cuartil men os 1,5
veces el rango intercuar tlico, esto es, Q1 - 1,5* (Q3 - Q1).
El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el valor
dado por el tercer cuartil ms 1,5 veces el rango intercuartlico, esto es, Q3 + 1,5*(Q3 - Q1). El
sistema considera valores atpicos (outliers) los que se encuentren a la izquierda del bigote
izquierdo y a la derecha del bigote derecho. El sistema separa estos datos del resto y los
representa mediante puntos alineados con la lnea horizontal central para que sean fciles de
detectar. En el interior de la caja central se representa la media con un signo ms.
El grfico de la Figura 4-3 permite afirmar que la carac terstica de calidad X vara
entre 15,5 y 46,6 y que el 50% central de la distribuci n de X vara entre 22 ( primer
cuartil) y 34,5 (ter cer cuartil). Por otra parte, no existen v alores de X anormalmente
grandes (o utliers), ya que en la Figura 4-3 no aparecen punto s alineados con los bigotes.
La dist ribucin es ligeramente asimtrica hacia la derecha, ya que la zona de la derecha
en el rea central de la figura es mayor que la de la izquierda. L a mediana c orresponde
aproximadamen te al valor 29 de X.
Para continuar leyendo
Solicita tu prueba