class: front <!--- Para correr en ATOM - open terminal, abrir R (simplemente, R y enter) - rmarkdown::render('static/docpres/07_interacciones/7interacciones.Rmd', 'xaringan::moon_reader') About macros.js: permite escalar las imágenes como [scale 50%](path to image), hay si que grabar ese archivo js en el directorio. ---> .pull-left[ # Estadística Multivariada ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 1er Sem 2020 ## [multivariada.netlify.com](https://multivariada.netlify.com) ] .pull-right[ .right[  <br> <br> ## Sesión 5: Regresión múltiple (1) ] ] --- layout: true class: animated, fadeIn --- class: inverse, bottom, right, animated, slideInRight # **Contenidos** ### Repaso regresión simple ### Introducción a regresión múltiple --- class: inverse, bottom, right # Repaso regresión simple --- # Componentes de la ecuación de la recta de regresión `$$\widehat{Y}=b_{0} +b_{1}X$$` Donde - `\(\widehat{Y}\)` es el valor estimado de `\(Y\)` - `\(b_{0}\)` es el intercepto de la recta (el valor de Y cuando X es 0) - `\(b_{1}\)` es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X --- .pull-left[ # Resumiendo: Modelo de regresión (simple)  - Se estima mediante el método de mínimos cuadrados ordinarios (OLS) ] .pull-right[ - Permite estimar el valor de una variable ( `\(\widehat{Y}\)` ) a partir del valor conocido de otra variable ( `\(X\)` ) - La estimación se expresa en el coeficiente de regresión `\(b_{1}\)`, también llamado "beta" o pendiente - *"Por cada unidad que aumenta X, Y aumenta en `\(b_{1}\)` unidades"* ] --- # Descomponiendo Y Conceptualmente: `$$SS_{tot}=SS_{reg} + SS_{error}$$` .center[  ] --- # Varianza explicada II .pull-left[ .center[] ] .pull-right[ - Un porcentaje de la variación de Y puede ser asociado a la variación de X: `\(R^2\)`] --- class: inverse ### Resumen regresión simple ... hasta ahora - Coeficiente de regresión por mínimos cuadrados: permite **predecir** en cuántas unidades aumenta _Y_ por cada punto de aumento en _X_ -- - El valor del **beta de regresión** nos informa sobre una magnitud y sentido de la pendiente, no sobre la bondad (ajuste) del modelo -- - El **ajuste** del modelo a los datos se relaciona con la proporción de residuos generados por el modelo respecto de la varianza total de Y (R2) --- class: roja, bottom, center .pull-right[ # Introducción a regresión múltiple ] --- # Estadística multivariada - Hacia la **explicación** de los fenómenos sociales  --- # Estadística multivariada - Hechos sociales: **multicausales**  --- # Problema de la multicausalidad - posibilidad de predictores correlacionados  --- # Problema de la multicausalidad `\begin{align*} (1) Y(ingreso) &=\beta_0 + \beta_1(educación) \\ (2) Y(ingreso) &=\beta_0 + \beta_1(inteligencia) \\ (3) Y(ingreso) &=\beta_0 + \beta_1(educación) + \beta_2(inteligencia) \\ \end{align*}` .center[ ## ¿Qué sucedería si la educación estuviera relacionada con la inteligencia? -> estaríamos sobreestimando el ingreso al hacer un modelo sumativo "puro" ] --- # Regresión múltiple ### En simple: modelo de regresión con más de un predictor o variable independiente .center[] --- # Agregando predictores al modelo .pull-left[ .center[] `$$\widehat{Ingreso}=b_0+b_1(Educ)$$` ] -- .pull-right[ .center[] `$$\widehat{Ingreso}=b_0+b_1(Educ)+b_2(Int)$$` ] ??? - Tenemos un modelo teórico que relaciona ingreso con nivel educacional: a mayor ingreso, mayor nivel educacional. - Esto puede expresarse en un modelo de regresión - Qué sucede si nos surge la pregunta sobre la posibilidad de que otras variables también tienen que ver con ingreso? - Se puede agregar una tercera variable al modelo, pero: ¿qué consecuencias teóricas y empíricas tiene esto? --- # Agregando predictores al modelo .pull-left-narrow[ .center[] ] .pull-right-wide[ - Teóricamente el modelo asume covariación entre Ingreso y Educación, y entre _Ingreso_ e _Inteligencia_ - Pero ... también existe la posibilidad de covariación entre los predictores _Educación_ e _Inteligencia_ - Para poder sumar el efecto neto de cada predictor se debe **controlar** la covariación entre predictores ] --- class:roja, middle, center # La regresión múltiple no es equivalente a regresiones simples estimadas por separado con distintos predictores --- # Concepto de control ## 1. Control por diseño - Característico de la metodología experimental - El control se logra por diseño mediante **aleatorización** (distribución al azar) de sujetos a diferentes situaciones experimentales, generando **grupos equivalentes** - La aleatorización intenta aislar el **efecto del tratamiento** de todas las otras variables que podrían afectar en la respuesta --- # Concepto de control ## 2. Control estadístico - En datos observacionales no hay (en principio) control por diseño, por lo que se recurre al **control estadístico** -- - Se logra incluyendo predictores que teóricamente podrían dar cuenta o afectar la relación entre X e Y. -- - La inclusión de otros predictores despeja o "controla" la asociación de `\(X_1\)` e `\(Y\)`, aislando el efecto conjunto de `\(X_1\)` y `\(X_2\)` (... y `\(X_n\)`) --- .pull-left-wide[ ## Control estadístico - ¿Qué efecto posee el nivel educacional en ingreso, _controlando por_ inteligencia? ] .pull-right-narrow[  ] **Conceptualmente:** .small[ - aislar el efecto de educación en ingreso, manteniendo la inteligencia _constante_. - estimar el efecto de educación en ingreso independiente del efecto de la inteligencia - estimación del efecto de educación en ingreso _ceteris paribus_ (manteniendo el efecto del resto de los predictores constante) ] --- class: inverse, center, middle, exclude # POR LO TANTO ## Un aspecto **clave** de la regresión múltiple, tanto conceptual como estadísticamente, tiene que ver con el control de la CORRELACION ENTRE PREDICTORES O VARIABLES INDEPENDIENTES (X) --- ### Simulación 1: sin correlación relevante entre predictores .pull-left-narrow[ .center[] ] -- .pull-right_wide[.small[ <!-- --> ] ] --- ### Simulación 1: sin correlación relevante entre predictores .small[ <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.16</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.09)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.09)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">inteligencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.30<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;">0.31<sup style="vertical-align: 0px;">**</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.13</td> <td style="border-top: 1px solid black;">0.08</td> <td style="border-top: 1px solid black;">0.21</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.12</td> <td style="padding-right: 12px; border: none;">0.07</td> <td style="padding-right: 12px; border: none;">0.20</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">0.94</td> <td style="border-bottom: 2px solid black;">0.97</td> <td style="border-bottom: 2px solid black;">0.90</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="5"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] --- ### Simulación 2: con correlación entre predictores .pull-left-narrow[ .center[] ] -- .pull-right-wide[.medium[ <!-- --> ] ] --- ### Simulación 2: con correlación entre predictores .small[ <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.16</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.09)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.09)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.35<sup style="vertical-align: 0px;">**</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.11)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">inteligencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.30<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;">0.18</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.11)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.13</td> <td style="border-top: 1px solid black;">0.08</td> <td style="border-top: 1px solid black;">0.16</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.12</td> <td style="padding-right: 12px; border: none;">0.07</td> <td style="padding-right: 12px; border: none;">0.14</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">0.94</td> <td style="border-bottom: 2px solid black;">0.97</td> <td style="border-bottom: 2px solid black;">0.93</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="5"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] --- ## Comparando .pull-left[ .small[ <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.16</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.09)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.09)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">inteligencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.30<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;">0.31<sup style="vertical-align: 0px;">**</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.13</td> <td style="border-top: 1px solid black;">0.08</td> <td style="border-top: 1px solid black;">0.21</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.12</td> <td style="padding-right: 12px; border: none;">0.07</td> <td style="padding-right: 12px; border: none;">0.20</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">0.94</td> <td style="border-bottom: 2px solid black;">0.97</td> <td style="border-bottom: 2px solid black;">0.90</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="5"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] ] .pull-right[ .small[ <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.16</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.09)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.09)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.35<sup style="vertical-align: 0px;">**</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.11)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">inteligencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.30<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;">0.18</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.11)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.13</td> <td style="border-top: 1px solid black;">0.08</td> <td style="border-top: 1px solid black;">0.16</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.12</td> <td style="padding-right: 12px; border: none;">0.07</td> <td style="padding-right: 12px; border: none;">0.14</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">0.94</td> <td style="border-bottom: 2px solid black;">0.97</td> <td style="border-bottom: 2px solid black;">0.93</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="5"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] ] --- # Estimación de parámetros y control estadístico - Los coeficientes de regresión (X) no alteran su valor en los modelos en ausencia de correlación entre ellos (Ejemplo 1) -- - Si hay correlación entre predictores, el valor de los coeficientes de regresión será distinto en modelos simples y en modelos múltiples -- - Por ello, en regresión múltiple se habla de coeficientes de regresión **parciales** -- - Esta diferencia se relaciona con el concepto de **control estadístico** --- # Estimación de parámetros y control estadístico - Ejemplo 2, modelo 3: El ingreso aumenta en 0.4 puntos por cada nivel adicional de educación, **controlando por experiencia**. O también ... - manteniendo la experiencia _constante_ - _ceteris paribus_ --- class: inverse ## Resumen - Regresión múltiple: más de un predictor / variable independiente en el modelo - Permite - contrastar hipótesis de la **influencia simultánea** de más de una variable - **controlar** por la posible influencia de terceras variables (control estadístico) --- class: front .pull-left[ # Estadística Multivariada ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 1er Sem 2020 ## [multivariada.netlify.com](https://multivariada.netlify.com) ] .pull-right[ .right[ <br>  ] ]