Análisis estadístico

¿Que es el análisis estadístico?

El análisis estadístico proporciona un marco para organizar datos, analizar datos y examinar problemas comerciales de una manera lógica y sistemática. Con los tremendos avances en tecnología informática que han tenido lugar, las empresas tienen un mayor acceso y más datos que nunca. El análisis estadístico proporciona a los gerentes las herramientas necesarias para dar sentido a grandes cantidades de datos y tomar decisiones comerciales cada vez más efectivas basadas en inferencias extraídas de los datos.

Los métodos estadísticos pueden dividirse en dos categorías amplias: métodos de descripción y métodos de inferencia. Los métodos de estadística descriptiva consisten en una variedad de técnicas, tanto matemáticas como gráficas, mediante las cuales se organizan y describen los datos. Dos características de gran interés en la descripción de datos son la tendencia central y el grado de variación en una variable dada. Por ejemplo, un gerente podría estar interesado en cuáles son los ingresos promedio de un grupo de trabajadores o podría estar interesado en saber si hay mucha variación en el diámetro de los artículos producidos en una corrida de producción.

Para determinar gráficamente la tendencia central y la variación, el gerente podría trazar datos para una variable dada usando un histograma de frecuencia Un histograma es un gráfico de barras que divide una variable en subrangos de los valores más bajos a más altos de los datos y traza la frecuencia de ocurrencia en cada subrango (o clase). A menudo ocurre que los valores de la variable que ocurren con mayor frecuencia aparecerán cerca de la mitad del histograma, por lo que este subrango tendrá la barra con la mayor altura. La variación se mostrará por la extensión de las barras. Si las categorías en los extremos inferior y superior de los datos tienen barras sin mucha altura, entonces los datos no están muy dispersos ni son variables.

Aunque el histograma de frecuencia es el medio más popular para mostrar datos gráficamente, existen otras técnicas. Estos incluyen diagramas de tallo y hojas, diagramas de caja y gráficos circulares. Además de determinar la tendencia central y la variación de una variable dada, el gerente puede, en otros casos, estar interesado en determinar el movimiento de los datos a lo largo del tiempo o puede estar interesado en determinar si dos variables tienen alguna relación entre sí. En cada uno de estos casos, se utilizaría un diagrama de dispersión para representar los datos gráficamente. En el primer caso, la variable en cuestión se graficaría contra el tiempo mismo, mientras que en el último caso, una variable se graficaría contra la otra.

También existen técnicas matemáticas para describir datos. Por lo general, estos métodos se utilizan junto con las técnicas gráficas indicadas anteriormente y no como una alternativa. Las principales medidas de tendencia central son la media, la mediana y la moda de una variable. La media se obtiene tomando la suma de las observaciones de la variable y dividiéndola por el número de observaciones. La media está demasiado influenciada por valores particularmente grandes o particularmente pequeños de la variable y, por esta razón, la mediana es a veces una mejor medida de tendencia central que la media. La mediana se encuentra ordenando los valores de la variable de menor a mayor e identificando el valor medio en esta clasificación.

Las medidas de variación son la varianza, la desviación estándar y el rango de los datos. La varianza es la suma de las desviaciones cuadradas de la media de la variable dividida por el número de observaciones menos uno (o, en otras palabras, es aproximadamente la desviación cuadrática promedio de la media). La desviación estándar es la raíz cuadrada de la varianza. Si los datos son muy variables, muchas observaciones caerán a una distancia considerable de la media de los datos y, por esta razón, tanto la varianza como la desviación estándar tomarán valores relativamente grandes. El rango de los datos es simplemente el valor más grande menos el valor más pequeño. Aunque es mucho más fácil de calcular que la varianza y la desviación estándar, el rango puede ser engañoso,

En muchos casos, un gerente puede desear ir más allá de la mera descripción de una variable y, en su lugar, hacer una inferencia más amplia con respecto a la variable basada en los datos disponibles. Este tema se vuelve relevante cuando los datos disponibles son una muestra de datos extraídos de una población más grande. Por ejemplo, uno podría tener ingresos por hora para una muestra aleatoria de 100 graduados de secundaria en un área metropolitana. Se podrían calcular los ingresos medios por hora de este grupo. La pregunta es, ¿El promedio de esta muestra le ayuda a inferir el promedio de la población de graduados de secundaria en el área metropolitana? Resulta que los métodos de inferencia estadística sí permiten hacer inferencias sobre la población (que es realmente el grupo de interés) sobre la base de la información contenida en la muestra.

Las técnicas de inferencia estadística se pueden dividir en dos categorías amplias: estimación y prueba de hipótesis. Los conceptos de la variable aleatoria y la distribución de probabilidad extraídos de la teoría de la probabilidad sustentan tanto la estimación como la prueba de hipótesis. Con la estimación, uno está interesado en estimar algún parámetro de población (digamos, la media de la población) sobre la base de la información de la muestra de datos. Se podría estimar el parámetro de población de interés usando el análogo del concepto correspondiente para la muestra (conocido como estadística), pero generalmente esto es de interés pasajero. Esto se debe a que una muestra puede sobre representar accidentalmente el extremo superior (o el extremo inferior) de la población debido a la naturaleza aleatoria del muestreo. A su vez, la estadística de la muestra suele sobrestimar o subestimar el parámetro de población. intervalo de confianza) dentro del cual es muy probable (generalmente 90 por ciento, 95 por ciento o 99 por ciento, dependiendo del grado de confianza deseado) que se encuentre el parámetro de población de interés. Siempre que este rango sea razonablemente estrecho, la inferencia será muy informativa. Entonces, volviendo al ejemplo de ganancias por hora anterior, suponga que las ganancias promedio en la muestra son $ 9.25 por hora. No se puede estar muy seguro de que este sea el ingreso promedio de todos los graduados de la escuela secundaria en el área metropolitana.

Al realizar una prueba de hipótesis, se plantea una hipótesis nula de que el parámetro de población en cuestión es igual a algún valor específico frente a una hipótesis alternativa abierta de que el parámetro no es igual al valor especificado bajo la nula (conocida como prueba de dos colas), es mayor que el valor especificado en el nulo (una prueba de una cola), o es menor que el valor especificado en el nulo (también una prueba de una cola). Utilizando información de la muestra de datos, se determina si existe o no suficiente evidencia para rechazar de manera concluyente la hipótesis nula.

Los intervalos de confianza y las pruebas de hipótesis son herramientas poderosas y se pueden aplicar a una variedad de preguntas. El ejemplo anterior mostró cómo se pueden usar estas herramientas para hacer una inferencia sobre la media de una población. También se pueden usar estas herramientas para hacer inferencias sobre proporciones de población, desviaciones estándar de poblaciones, etc.

Otras herramientas útiles en el kit de herramientas de análisis estadístico del gerente incluyen análisis de varianza y análisis de regresión. El análisis de varianza permite determinar si las medias de varias poblaciones (tres o más) difieren o no. El análisis de regresión permite determinar el impacto de cualquier número de variables (llamadas variables independientes) sobre alguna variable de interés (llamada variable dependiente). Los conceptos de intervalo de confianza y prueba de hipótesis también se utilizan en el contexto de estas técnicas.

5/5 - (7 votes)