¿Que es un intervalo de confianza?
El intervalo de confianza es una herramienta de probabilidad que se utiliza para expresar la certeza o incertidumbre de un número estimado. La falta de certeza absoluta se debe al método estadístico de utilizar muestras aleatorias o un número limitado de sujetos de grupos mucho más grandes al realizar determinaciones e inferencias estadísticas. El objetivo de este método es que el promedio o la media de la muestra sea igual o se aproxime mucho a la media del número total de sujetos de los que se obtuvo la muestra (la media verdadera). El intervalo de confianza es el rango de números necesarios para especificar con diversos grados de probabilidad (o confianza) que la media muestral se aproxima mucho a la media verdadera.
Por ejemplo, a los encuestadores políticos les resulta imposible preguntar a todos los adultos de Estados Unidos si aprueban o no el desempeño del presidente. Tal encuesta requeriría preguntar a más de 200 millones de personas si aprueban o desaprueban el desempeño del presidente.
En cambio, los encuestadores muestrean solo una pequeña cantidad de personas, generalmente 5,000 personas, y extraen inferencias estadísticas para toda la población basándose en los resultados de esa muestra. Siempre que la población de la muestra se elija al azar y el número sea significativo (más de 30 personas), los encuestadores pueden estar razonablemente seguros de que las opiniones expresadas por la población de la muestra se distribuirán normalmente y, por lo tanto, serán indicativas de las opiniones de toda la población. .
Suponga que se realiza una encuesta telefónica en la que se pide a 5,000 personas seleccionadas al azar que expresen aprobación, desaprobación, neutralidad o ninguna opinión sobre el desempeño del presidente. La muestra revela que 2.000, o el 40 por ciento, aprueban el desempeño del presidente, mientras que 2.250, o el 45 por ciento, lo desaprueban. Mientras tanto, 450, o el 9 por ciento, son neutrales, y los 300 restantes, o el 6 por ciento, no tienen opinión sobre cómo le está yendo al presidente.
Las cifras son 100 por ciento precisas solo para la población de la muestra porque se ha preguntado a cada uno de los 5.000. Pero al intentar hacer una inferencia para toda la población basada en estos datos de muestra, los encuestadores no pueden estar absolutamente seguros de que las proporciones seguirán siendo precisas.
En cambio, los encuestadores intentan expresar la probabilidad de que estos números sean precisos para toda la población. Esta probabilidad resulta del intervalo de confianza, que permite al encuestador o al estadístico estimar la media de la población (la media verdadera) con base en una media muestral. Como resultado, las calificaciones de aprobación presidencial se expresan comúnmente con grados de precisión que son reflejos del intervalo de confianza. Los resultados siempre incluyen una indicación del error (más o menos un porcentaje) que puede existir en la encuesta.
Es logísticamente muy difícil medir valores para poblaciones enteras. En lugar de intentar encontrar el valor correcto para toda una población, el estadístico puede intentar encontrar solo el valor “más correcto” para la población utilizando solo una muestra de la población, y usar el intervalo de confianza para determinar si el valor de la muestra es absolutamente correcto.
Para utilizar un ejemplo algo diferente de la encuesta de opinión presidencial, suponga que un fabricante de automóviles ha desarrollado un automóvil nuevo y debe proporcionar una estimación del kilometraje que los conductores pueden esperar de este modelo. Se toma una muestra de 100 coches de la línea de montaje y se realizan pruebas en una pista cerrada. El automóvil de peor desempeño entre la muestra obtiene 39 millas por galón, mientras que el mejor obtiene 49 millas por galón. El promedio de la muestra de toda la población (el millaje total de todos los automóviles dividido por 100) es 44 millas por galón.
Los resultados se pueden expresar como: Kilometraje = 39 <Χ̅ <49, lo que indica que la media muestral Χ̅ se encuentra entre 39 y 49 millas por galón. De hecho, cuanto más amplio sea el rango de números mayor o menor que la media de la muestra, mayor será la probabilidad de que incluya la media verdadera μ Por ejemplo, hay una mayor probabilidad de que la media verdadera μ esté entre 35 y 53, que que se encuentra entre 41 y 47. Además, hay un 100 por ciento de certeza de que la media verdadera está entre 0 e infinito. Sin embargo, estas consideraciones no proporcionan una estimación útil de la probabilidad de que la media verdadera μ para toda la población sea igual a la media muestral Χ̅, o 44.
Para que sea útil, la estimación del intervalo debe incluir una especificación de límites o valores de frontera para el intervalo, así como una probabilidad de que el intervalo de valores contenga la media verdadera. El intervalo de valores es el “intervalo de confianza” y sus límites de valores se denominan “límites de confianza” del intervalo.
El intervalo de confianza es un rango de números por encima y por debajo de la media de la muestra con una probabilidad específica de que contenga la media verdadera. Como medida de probabilidad, generalmente se expresa como un porcentaje y se denomina “nivel de confianza”. El intervalo de confianza, los límites de confianza y la media pueden representarse en un diagrama como en la Figura 1.
La amplitud del intervalo de confianza está determinada por el grado de confianza. Un intervalo de confianza del 95 por ciento será más estrecho que un intervalo de confianza del 99 por ciento, lo que indica que hay una mayor probabilidad de que la media verdadera se encuentre dentro de un intervalo de confianza más amplio.
La diferencia entre la media de la muestra Χ̅ y la media real μ es atribuible a un grado de error de variable desconocida ϵ. Esta relación puede expresarse como:
El error ϵ es esencial para definir un intervalo de confianza para la media verdadera μ. Pero aunque se desconoce el error ϵ para la media muestral Χ̅, los estadísticos pueden hacer suposiciones sobre el tamaño de los errores si conocen la media, la desviación estándar y la forma de la distribución de esos errores. Por ejemplo, con solo usar el Intervalo de confianza
desviación tsandard: una cifra derivada de las variaciones entre la media de la muestra y el rango de números utilizados para calcular este promedio, los estadísticos pueden determinar el intervalo de confianza.
Los estadísticos a menudo establecen el intervalo de confianza que desean de antemano, es decir, seleccionan la probabilidad que desean de que la media verdadera se incluya en el intervalo. Luego, determinan qué tan amplio debe ser el intervalo para tener la probabilidad deseada (por ejemplo, una probabilidad del 95 por ciento) de que se incluya la media verdadera. Por lo tanto, los estadísticos pueden elegir entre un intervalo de confianza estrecho con un nivel de confianza del 85 por ciento o un intervalo de confianza amplio con un nivel de confianza del 99 por ciento. Una vez que se determina esta información, los estadísticos pueden calcular el tamaño de la muestra que necesitarían para lograr el intervalo de confianza y el nivel de confianza deseados.