Estimación con información auxiliar
Autor | Andrés Gutiérrez Rojas |
Páginas | 295-354 |
Cap´ıtulo 9
Estimaci´on con informaci´on
auxiliar
Si los datos son ´utiles en la estimaci´on o no, depender´a de la manera
en que xest´e relacionado con y. Si el conocimiento y experiencia del
estad´ıstico le dicen que efectivamente xtiene una fuerte relaci´on con y,
entonces el modelo comienza a tener sentido. Entre m´as conocimiento se
tenga, se ajustar´a un mejor modelo.
Bengt Swensson (2005)
Las nociones de la inferencia en poblaciones finitas fueron expresadas hace m´as
de 60 a˜nos en muchos libros cl´asicos como Cochran, Hansen, Hurwitz y Madow,
Deming, Muthy, Des Raj y otros. La teor´ıa de muestreo era aplicada desde la
perspectiva misma de la selecci´on aleatorizada de posibles muestras en la poblaci´on
finita. Dependiendo de las circunstancias pr´acticas, la selecci´on se hac´ıa de distintas
maneras: muestreo aleatorio simple, muestreo aleatorio estratificado, muestreo de
conglomerados, muestreo en dos etapas, etc. El muestreo era considerado como
la actividad primaria y la estimaci´on nunca fue considerada como una pr´actica
separada sino como una consecuencia autom´atica. Lo anterior se deb´ıa a que cada
tipo de dise˜no de muestreo induc´ıa un estimador cuyas propiedades estad´ısticas
como el insesgamiento y la varianza eran establecidas de antemano con el dise˜no
y as´ı, la varianza era calculable y estimable.
As´ı que, para la d´ecada de los sesenta, muchos creyeron que la investigaci´on en
el campo del muestreo y de la inferencia en poblaciones finitas ya estaba muerta
porque se deber´ıan inventar nuevas formas de selecci´on de muestras (tarea ardua
y dif´ıcil), m´as all´a de las que se cubr´ıan en los libros cl´asicos del muestreo. Aunque
el estimador de raz´on fue considerado en alg´un detalle por los textos de referencia,
la inclusi´on de varias variables de informaci´on auxiliar no se vio como un t´opico
que prometiera r´edito alguno para emprender el camino de la investigaci´on en esa
v´ıa. En la d´ecada de los setenta, varios autores dieron un viraje en su perspectiva
epistemol´ogica de la inferencia en poblaciones finitas. Es as´ı como Bas´u, Brewer,
Godambe y Royall, entre otros, consideraron los modelos estad´ısticos (en sinton´ıa
con la estad´ıstica cl´asica Fisheriana) como los verdaderos fundamentos de la es-
295
296 9. Estimaci´on con informaci´on auxiliar
timaci´on e inferencia en poblaciones finitas. Su trabajo se ciment´o alrededor de
la posibilidad de tener una inferencia que dependiera estrictamente del modelo
propuesto y no tuviera nada que ver con el dise˜no de muestreo utilizado en la
recolecci´on de los datos. Como consecuencia, la atenci´on se torn´o alrededor de la
estimaci´on y se dejo de lado el muestreo por la relaci´on existente o propuesta entre
la caracter´ıstica de inter´es y las variables de informaci´on auxiliar.
El camino que tom´o la historia del muestreo fue, precisamente, la incorporaci´on
de las dos corrientes de pensamiento bajo una sola sombrilla. As´ı que, fue posible
combinar la aleatorizaci´on cl´asica con un percepci´on m´as general de la relaci´on de y
con x. No hubo necesidad de sacrificar los principios basados en la aleatorizaci´on.
As´ı naci´o la inferencia asistida por modelos pero basada en ala aleatorizaci´on
(model assisted design-based inference por su original en ingl´es). Este nuevo tipo
de inferencia se hizo muy atractiva porque la regresi´on y los modelos acompa˜nan
al estad´ıstico desde sus primeros cursos y van tomando m´as fuerzas a medida
que se avanza en el camino universitario. As´ı que, este pensamiento ≪asistido
por modelos≫es un matrimonio efectivo y tolerante que permite las ideas de la
regresi´on junto con el paradigma de la aleatorizaci´on.
Jan Wrettman (Kott, Sweensson, S¨arndal & Wretman 2005) opina que el a juste
de un modelo se ha convertido en parte integral de la teor´ıa cl´asica del muestreo,
aunque los principios de la misma deben permanecer intocables porque las propie-
dades de los estimadores son evaluadas con respecto al mecanismo de probabilidad
que genera la muestra y no con respecto a cualquier modelo asumido.
9.1 Introducci´on
En los cap´ıtulos anteriores de este texto, el lector ha sido introducido en los di-
ferentes dise˜nos de muestreo que, dependiendo de la configuraci´on de los valores
de la caracter´ıstica de inter´es, mejoran la eficiencia de los estimadores de Horvitz-
Thompson o Hansen-Hurwitz, seg´un sea el caso. En algunas ocasiones, el uso
correcto de la informaci´on auxiliar en la etapa de dise˜no hace que la eficiencia de
los estimadores mejore dram´aticamente. Por ejemplo, si la informaci´on auxiliar es
de tipo categ´orico y est´a bien correlacionada con el comportamiento estructural de
la caracter´ıstica de inter´es, es posible acudir a un dise˜no de muestreo estratificado.
De otra forma, si la informaci´on auxiliar disponible en la poblaci´on es de tipo
continuo, podemos utilizar un dise˜no de muestreo PPT o πPT para mejorar la
precisi´on de las estimaciones. En cualquiera de los casos, es necesario:
1. Conocer los valores de la informaci´on auxiliar, ya sea de tipo continua o
categ´orica, para todos los elementos que conforman la poblaci´on.
2. Tener la certeza de que la caracter´ıstica de inter´es guarda una estrecha co-
rrelaci´on positiva con la informaci´on auxiliar.
En este cap´ıtulo, el inter´es est´a centrado en mejorar la eficiencia de las estimaciones
incorporando al estimador la informaci´on auxiliar, que puede ser de tipo categ´orico
o continuo, fijando el dise˜no de muestreo utilizado. En otras palabras, se quiere
hacer uso de la informaci´on auxiliar en la etapa de estimaci´on. Para este fin es
necesario:
9.1. Introducci´on 297
1. Contar con la experticia del investigador que ha sabido discernir y esco-
ger el mejor dise˜no de muestreo para la configuraci´on de los valores de la
caracter´ıstica de inter´es.
2. Sab er que la caracter´ıstica de inter´es est´a bien relacionada con la informa-
ci´on auxiliar. Como se ver´a m´as adelante no es necesario el conocimiento
estricto de los valores de la informaci´on auxiliar en todos los elementos de la
poblaci´on, aunque s´ı es necesario conocer estos valores para la muestra junto
con el total poblacional de la informaci´on auxiliar en la poblaci´on1.
Por supuesto, los nuevos estimadores, que incorporan informaci´on auxiliar, apun-
tan a la mejora dram´atica en la eficiencia de las estrategias de estimaci´on de totales
poblacionales. Adem´as de esta caracter´ıstica, existen muchas otras que tienen que
ver con la consistencia y el insesgamiento. Sin embargo, una caracter´ıstica impor-
tante de un estimador construido a partir de la informaci´on auxiliar est´a dada por
la siguiente definici´on.
Definici´on 9.1.1. Una estrategia de muestreo se dice representativa con res-
pecto a la informaci´on auxiliar x, s´ı y s´olo s´ı
ˆ
tS(x) = tx.(9.1.1)
Es decir, si el estimador aplicado a las variables auxiliares reproduce exactamente
el total poblacional de las mismas.
La idea detr´as del principio de representatividad de la estrategia es que si se tiene
el conocimiento de que la caracter´ıstica de inter´es guarda una estrecha relaci´on
lineal con la informaci´on auxiliar entonces podemos pensar en que la siguiente
igualdad se cumple
tx≈ty(9.1.2)
y, una consecuencia inmediata de esta propiedad, bajo los anteriores supuestos es
que
ˆ
tS(y)≈ty(9.1.3)
Sin importar el dise˜no de muestreo utilizado para la selecci´on de la muestra, si
el total poblacional de las variables auxiliares, tx, es conocido, se puede utilizar
esta informaci´on para construir un estimador a´un m´as preciso. En este cap´ıtulo se
consideran los estimadores lineales de la forma
ˆ
tS(y) = w0+X
k∈S
wkyk,(9.1.4)
En donde los pesos wkpueden depender del vector de informaci´on auxiliar. Es
claro que no todos los estimadores lineales cumplen la ecuaci´on de representativi-
dad. Por ejemplo, el estimador de Horvitz-Thompson es insesgado pero no utiliza
1Esta informaci´on puede ser suministrada por alguna entidad oficial.
Para continuar leyendo
Solicita tu prueba