¿Que es el análisis de regresión?
El análisis de regresión emplea fórmulas algebraicas para estimar el valor de una variable aleatoria continua, llamada variable dependiente, utilizando el valor de otra variable independiente. Los métodos estadísticos se utilizan para determinar la estimación más correcta de esa variable dependiente y si la estimación es válida en absoluto.
Las regresiones pueden usarse para una amplia variedad de propósitos donde la estimación es importante. Por ejemplo, un comercializador puede emplear una regresión para determinar cómo las ventas de productos podrían verse afectadas por las inversiones en publicidad. Un empleador puede realizar un análisis similar para estimar los puntajes de evaluación del trabajo de un empleado en función del desempeño del empleado en una prueba de aptitud. Un biólogo puede incluso usar una regresión para ver cómo los cambios de temperatura pueden afectar la tasa de reproducción de las ranas.
Si bien está estrechamente relacionada, la regresión difiere del análisis de correlación de una manera importante. Cuando se utiliza la regresión para estimar el valor de una variable dependiente, la correlación mide el grado de relación entre dos variables. En otras palabras, el análisis de correlación puede indicar la fuerza de una relación lineal entre variables, pero se deja al análisis de regresión proporcionar predicciones de la variable dependiente basadas en los valores de una variable independiente.
Un análisis de regresión simple es aquel en el que se utiliza una sola variable independiente para determinar una variable dependiente. Se asume que la relación entre las variables es consistente o lineal. La Figura 1 muestra ejemplos de diagramas de dispersión lineales, no lineales y curvilíneos, así como uno en el que no existe una relación consistente entre las variables X e Y.
Formula
La ecuación que representa la regresión lineal simple es
donde Y i = el valor de la variable dependiente en una determinada observación, i;
X i = el valor de la variable independiente en la observación i;
α = el valor de Y cuando X es igual a cero, y se puede considerar como la intersección (a veces se denota como β 0 );
β = pendiente de la recta de regresión;
e i es el error aleatorio en la observación i.
Los valores tanto de la variable independiente X como de la variable dependiente Y son proporcionados por una encuesta o un conjunto de muestras numéricas observadas. Estos conjuntos de números se mantienen como pares ordenados; se indica un rango de valores de Y para cada valor de X. El valor e i representa el error de muestreo asociado con la variable aleatoria dependiente Y.
Se deben satisfacer algunas suposiciones para realizar el análisis de regresión. Primero, si graficamos los valores de X en un diagrama de dispersión, el error de muestreo ei, o la varianza de una media, debe ser razonablemente consistente para todos los valores de X. En otras palabras, para cada valor de X, la variación en los valores de Y debe ser razonablemente consistente. Esta cualidad se llama homocedasticidad.
Figura 1
Ejemplos de diagramas
En segundo lugar, los valores observados de la variable aleatoria y las cantidades de error aleatorio deben no estar correlacionados, una condición que generalmente se satisface mediante el muestreo aleatorio del valor dependiente.
Un análisis de regresión simple usa solo una variable independiente. Sin embargo, hay muchas situaciones en las que una variable dependiente está determinada por 2, 3, 5 o incluso 100 variables independientes. Como resultado, resulta difícil representar las relaciones entre las variables en un modelo visual.
Por ejemplo, una regresión simple con dos variables se puede representar en un gráfico, con una variable medida en el eje X y la otra en el eje Y. Pero agregue una tercera variable, y el gráfico requiere una tercera dimensión, X2. Como resultado, la línea de regresión se convierte en un plano de regresión.
Agregue una cuarta variable y la regresión ya no se podrá representar visualmente. Conceptualmente, tiene cuatro dimensiones, también llamadas hiperplanos o matrices. Lo mismo se aplica a las regresiones con aún más variables; ocho variables requieren ocho dimensiones.
Estas relaciones se pueden expresar en fórmulas matemáticas complejas. Ya no son regresiones simples, sino regresiones múltiples.