Tamaño muestral e intervalos de confianza

28 de agosto de 2017

La estadística inferencial es una herramienta poderosa para conocer información mucho más allá de nosotros. Básicamente nos permite hacer conclusiones acerca de un grupo muy grande, a partir de una muestra pequeña aleatoriamente seleccionada dentro de ese grupo grande. Esto ahorra mucho tiempo y dinero y es, a veces, lo único que hace posible llegar a conclusiones concisas acerca de estas poblaciones grandes.

En investigación de fenómenos sociales (estudios de mercado, test de concepto, estudios de satisfacción, etc.), dos de los parámetros o características interesantes de conocer acerca de un grupo muy grande de personas son: la proporción de personas que cumple con cierto criterio en una población, y la media del conjunto de valores que asume una característica numérica de una población.

Antes de entrar en materia para simplificar conviene definir población, en el sentido estadístico, como la totalidad de mediciones o realizaciones posibles de un experimento. Así, Podemos imaginar a una población como un conjunto de datos, todos aquellos datos que puedan obtenerse repitiendo un experimento todas las veces posibles, en lugar de imaginar al término como un conjunto de personas o cosas.

De esta forma, es posible hablar de “media de una población” en lugar de “media del conjunto de valores que asume una característica numérica en una población”.
En lo sucesivo, usaremos el término población indistintamente para referirnos tanto al conjunto de personas que asume cierta característica, como al conjunto de todos los valores que pueda asumir dicha característica.

Caso 1: Proporción de una Población

Supongamos por ejemplo que tuviéramos una nueva forma de prestar un servicio y nos preguntáramos qué proporción de nuestro target o población objetivo la utilizaría, o que tuviéramos pensado un nuevo producto, y quisiéramos saber si este tendría o no la suficiente aceptación en base a la proporción de personas que dijesen que están dispuestos a utilizarlo.

En el fondo, en los casos anteriores lo que querríamos sería conocer la proporción de personas que, dentro de una población muy grande (target o población objetivo) serían potenciales clientes.

Es crucial darnos cuenta de la diferencia entre conocer esa proporción (lo cual implicaría encuestar a cientos de miles, o incluso a millones de personas), y estimar la proporción en cuestión, (que gracias a la estadística, supondría encuestar solo a una pequeña fracción de esa población total).

Si nuestra población objetivo es por ejemplo, el conjunto de los jóvenes estudiantes universitarios residentes en alguna provincia, sería casi económica y logísticamente imposible encuestar a todos para conocer la verdadera proporción de ellos que cumplan algún criterio.

En lugar de conocer a ciencia cierta, por ejemplo, la verdadera proporción de jóvenes mayores de 18 años que estarían buscando un empleo en toda España, podríamos estimar dicha proporción sin encuestar a los millones de jóvenes mayores de 18 años de todo el país, sino encuestando una muestra comparativamente pequeña de 4000-4500 jóvenes, mucho menor que la cantidad verdadera (unos 7 Millones). Al final, podremos llegar a una muy buena conclusión sin haber encuestado a la población entera, como por ejemplo: Tras haber encuestado a unos 4330 jóvenes entre 18 y 35 años, se puede concluir que entre el 38 y el 43% de los jóvenes entre 18 y 35 años de toda España se apuntarían en un nuevo programa de búsqueda de empleo con un nivel de confianza de 99.9%.

¿Qué es lo que nos ha permitido llegar a la conclusión anterior?

La respuesta es una fórmula muy útil, que nos da el tamaño mínimo de muestra necesaria n , para estimar una proporción en una población finita de tamaño N, con margen de error deseado ε y confianza deseada P: 

Lo que la fórmula de arriba nos dice en palabras es: si en una población grande de tamaño N, tomamos una muestra aleatoria pequeña de tamaño n, y medimos la proporción de valores que dentro de esos n valores, cumplen cierto criterio, entonces podemos confiar en que con probabilidad P, la proporción verdadera (la que se obtendría evaluando a toda la población de N personas), está a una distancia menor que ε, de la proporción experimental obtenida de la muestra pequeña de n personas.


Es conveniente aclarar que  es el resultado al cuadrado de evaluar el nivel de confianza deseado o probabilidad P, en una función z que encuentra el número que junto con su negativo –z, enmarca el rango de valores que tiene una probabilidad P de ocurrir en una distribución normal estándar. p es el parámetro de la población (proporción de personas de la población total que cumplen con el criterio) y q es su complemento, y aunque tenga poco sentido usar en la formula precisamente los números que queremos estimar, al asumir que ambos, p y q son 0.5 , maximizamos el tamaño n de la población que estamos buscando.

En la fórmula anterior, N es el tamaño de la población total, y ε es un número que se introduce en la fórmula según libre elección, y actuará como la longitud de la mitad del intervalo, centrado en la proporción obtenida experimentalmente, en donde se estimará que la media de la población grande p asume su valor.

Poniendo en la formula anterior N=7,000,000 (jóvenes mayores de 18 y menores de 35 en España, aproximadamente), P=99.9%, (dándonos un z= 3.291), un ε=0.025 (un error de más o menos 2.5%), obtendremos n=4330 personas a encuestar, que es lo que nos permite llegar a una conclusión como la anterior.

-Si quisiéramos calcular el tamaño mínimo de muestra necesaria para estimar una proporción en una población considerada infinita (En donde N es muy grande con respecto a n, el tamaño de la muestra seleccionada), con margen de error ε y confianza P determinados, entonces la formula a utilizar será:


Que es un caso particular más sencillo de la situación anterior.

-Además, si quisiéramos calcular un intervalo de confianza para una proporción en una población finita (intervalo es un rango de valores dentro del cual, la proporción de la población p que queremos estimar ha de encontrarse con un nivel de confianza P deseado) dicho intervalo vendrá dado por las fórmulas:

Donde N=el tamaño de la población finita, por ejemplo, 7,000,000 (jóvenes mayores de 18 y menores de 35 en España, aproximadamente), P=99.9% el nivel deseado de confianza, (dándonos un z= 3.291), n =el tamaño de la muestra de personas seleccionadas, por ejemplo, 433, y donde p será la proporción buscada, medida sólo a nivel de la muestra seleccionada de tamaño n, por ejemplo, 40.5% (en la fórmula se debe introducir dicho porcentaje en forma de proporción, 0.405). Introduciendo estos números en la fórmula de intervalos de arriba obtendremos un intervalo de confianza igual a [38%,43%], como es de esperarse (ya que hemos usado los datos del ejemplo anterior).

-Por último, si quisiéramos calcular un intervalo de confianza en una población considerada infinita, dicho intervalo vendrá dado por las fórmulas: Que son un caso particular más sencillo de la situación anterior.

Caso 2: Media de una Población

Supongamos por ejemplo, que para un estudio de mercado quisiéramos conocer la proporción del ingreso media, medida en %, que dedican las familias madrileñas al ocio mensualmente.

En el fondo, lo que querríamos sería conocer la media de una población de valores, (una población estaría conformada por ejemplo, por las diferentes proporciones del ingreso familiar, medidas en %, que cada hogar destina al ocio mensualmente). Habiendo definido población, en sentido estadístico, como el conjunto de todas las posibles mediciones de nuestra variable de estudio (por ejemplo, 10% en el caso de la familia A, 17% en el caso de la familia B, 15% en el caso de la familia C), tendríamos unos 2.5 millones de mediciones o proporciones, porque hay unos 2.5 millones de hogares en Madrid.

Es crucial, al igual que lo dicho anteriormente, explicar la diferencia entre conocer esa media (lo cual implicaría encuestar a millones de familias), y estimarla, (que gracias a la estadística, supondría solo encuestar a una pequeña muestra de familias de Madrid).
Siendo nuestra población objetivo el número de hogares de Madrid, sería casi económica y logísticamente imposible encuestar a representantes de todos ellos, para conocer la verdadera media de la proporción de su ingreso destinada al ocio.

En lugar de conocer a ciencia cierta dicha media, podríamos estimarla sin llegar a encuestar a los millones de hogares de Madrid, sino encuestando una muestra comparativamente pequeña de menos de 1000 hogares (una muestra de menos del 0.04% de la población total) y al final, podremos llegar a una muy buena conclusión sin haber encuestado a la población entera, como por ejemplo:

Tras haber encuestado a unos 911 hogares de la ciudad de Madrid, se puede concluir que entre el 12% y el 18% del ingreso familiar de los hogares de Madrid se destina mensualmente al ocio, con un nivel de confianza de 99.9%.

¿Qué es, de nuevo, lo que nos ha permitido llegar a la conclusión anterior?

La respuesta es una fórmula que nos da el tamaño mínimo de muestra necesaria n , para estimar una media en una población finita de tamaño N , con margen de error deseado ε y confianza deseada P:

Lo que la fórmula de arriba nos dice en palabras, es que si en una población grande de tamaño N, tomamos una muestra aleatoria pequeña de tamaño n, y medimos la media μ de esos n valores, entonces podemos confiar en que con probabilidad P, la media verdadera (la que se obtendría evaluando a toda la población de N personas), está a una distancia menor que ε, de la media experimental obtenida de la muestra pequeña de n personas.

Es conveniente aclarar que es el resultado al cuadrado de evaluar el nivel de confianza deseado o probabilidad P, en una función z que encuentra el número que junto con su negativo –z, enmarca el rango de valores que tiene una probabilidad P de ocurrir en una distribución normal estándar. σ² es la varianza de la población (un indicador de la dispersión de los datos), y aunque pueda tener poco sentido usar en la fórmula la varianza de la población entera (generalmente desconocida) con el fin de estimar la media de dicha población total (también desconocida, motivo por el cual se quiere estimar), podemos asumir que σ² es un valor medido en estudios anteriores, o reconocerla desconocida y maximizar la fórmula poniendo σ²=0.25.

Esto último nos permitirá confiar sobradamente en los resultados con el nivel de confianza P que deseemos, ya que n será lo más grande posible.

Poniendo en la formula anterior N=2.500.000 (estimado de número de hogares en la ciudad de Madrid), P=99.9%, (dándonos un z= 3.291) ε=0.03 (un error de más o menos 3%), obtenemos n=911, que es lo que nos permite llegar a una conclusión como la anterior.

-Si quisiéramos calcular el tamaño mínimo de muestra necesaria para estimar una media en una población considerada infinita (En donde N es muy grande con respecto a n, el tamaño de la muestra seleccionada), con margen de error ε y confianza P determinados, entonces la formula a utilizar será:

Que es un caso particular más sencillo de la situación anterior.

Tamaño muestral e intervalos de confianza

– Si tuviéramos la media experimental , obtenida de una muestra de tamaño n, y quisiéramos a partir de aquí, calcular un intervalo de confianza (el rango de valores dentro del cual, la media verdadera de la población m que queremos estimar ha de encontrarse con un nivel de confianza P deseado) en una población grande pero finita, dicho intervalo vendrá dado por las fórmulas:

Donde N=el tamaño de la población finita, por ejemplo, al igual que antes, 2.500.000 hogares, P=99.9% el nivel deseado de confianza, (dándonos un z= 3.291), n =el tamaño de la muestra de personas seleccionadas, por ejemplo, como antes, 911, y donde X̅ será la media que ha sido obtenida de la muestra seleccionada de tamaño n, por ejemplo, 15% (en la fórmula se debe introducir dicho porcentaje en forma de proporción, 0.15). Recordando que en ejemplo anterior, el intervalo mencionado era de 12% a 18%, al introducir estos números en la fórmula de arriba obtendremos un intervalo de confianza igual a [12%,18%], porque hemos usado precisamente los datos del ejemplo anterior).

-Por último, si quisiéramos calcular un intervalo de confianza en una población considerada infinita, dicho intervalo vendrá dado por las fórmulas: Que son un caso particular más sencillo de la situación anterior.
En los dos siguientes artículos, dedicados a todos los curiosos de la estadística y las matemáticas, daremos las demostraciones de las ocho fórmulas que hemos expuesto.

Crea tu encuesta online ahora
Crear encuesta

O contacta con nuestro equipo de analistas.