Práctica 7. Inferencia y predictores categóricos

Materiales de la sesión del 03 Jul 2020

Índice

Objetivo de la práctica

Es esta práctica vamos a abordar dos temas:

  1. Predictores categóricos en regresión

  2. Inferencia estadística

Ambos temas corresponden a dos ámbitos independientes en el estudio de la regresión. Sin embargo, la inclusión de predictores categóricos de dos niveles (o variables dicotómicas) nos permitirá una aproximación a inferencia estadística que es directamente vinculable a los conocimientos sobre diferencia de promedios mediante la prueba t.

Predictores categóricos

Hasta ahora hemos trabajado solamente con predictores a los que asumimos un nivel de medición contínua (es decir, al menos intervalar). ¿Qué sucede con predictores donde se asume un distinto nivel de medición, como nominal u ordinal? En general este tipo de predictores requiere una interpretación y tratamiento distinto que los predictores continuos.

Predictores dicotómicos

Las variables dicotómicas son aquellas variables nominales u ordinales que poseen solo dos categorías de respuesta, por ejemplo hombre/mujer, sano/enfermo, deportista/sedentario. La inclusión de estas variables en un modelo de regresión no requiere un tratamiento especial, solo hay que considerar que su interpretación tiene un sentido distinto. A continuación, veremos un ejemplo respecto a cómo predictores categóricos (de dos o más niveles) permiten modelar el Estatus Social Subjetivo

Datos

Primero, se cargará la base de datos

Los datos a utilizar corresponden a la base de datos ELSOC 2018 que incluye una muestra de 3784 mujeres y hombres adultos entre 18 y 75 años.

Variables

  • [ess]: “Estatus Social Subjetivo: Donde se ubicaria ud. en la sociedad chilena” (0 = el nivel mas bajo; 10 = el nivel mas alto)

  • [edcine]: ¿Cuál es su nivel educacional? Indique el tipo de estudio actual (si estudia actualmente) o el último tipo aprobado (si no estudia actualmente) - CINE 2011 (UNESCO).

  • [edad]: ¿Cuáles su edad? (años cumplidos).

Data frame: elsoc_18
ID Name Label Values Value Labels
1 ess Estatus Social Subjetivo 0
1
2
3
4
5
6
7
8
9
10
0 El nivel mas bajo
1
2
3
4
5
6
7
8
9
10 El nivel mas alto
2 sexo Sexo (1=Mujer) 0
1
Hombre
Mujer
3 edad Edad range: 18-90
4 edcine Educación 1
2
3
4
5
Primaria incompleta menos
Primaria y secundaria baja
Secundaria alta
Terciaria ciclo corto
Terciaria y Postgrado

Explorar base de datos

A partir de la siguiente tabla se obtienen estadísticos descriptivos que luego serán relevantes para la interpretación de nuestros modelos.

No Variable Label Stats / Values Freqs (% of Valid) Graph Valid Missing
1 ess [numeric] Estatus Social Subjetivo Mean (sd) : 4.4 (1.6) min < med < max: 0 < 5 < 10 IQR (CV) : 1 (0.4) 11 distinct values 3703 (100%) 0 (0%)
2 sexo [numeric] Sexo (1=Mujer) Min : 0 Mean : 0.4 Max : 1
0:2277(61.5%)
1:1426(38.5%)
3703 (100%) 0 (0%)
3 edad [numeric] Edad Mean (sd) : 47 (15.5) min < med < max: 18 < 47 < 90 IQR (CV) : 25 (0.3) 70 distinct values 3703 (100%) 0 (0%)
4 edcine [numeric] Educación Mean (sd) : 3.2 (1.2) min < med < max: 1 < 3 < 5 IQR (CV) : 1 (0.4)
1:442(11.9%)
2:365(9.9%)
3:1589(42.9%)
4:592(16.0%)
5:715(19.3%)
3703 (100%) 0 (0%)

Generated by summarytools 0.9.6 (R version 4.0.0)
2020-07-08

Relacion entre variables

Visualizar la asociación entre variables puede ser informativo. Sin embargo, en ocasiones es necesario prestar mayor atención al tipo de gráfico que utilizamos para esto. Por ejemplo, veamos un scatter de Estatus social Subjetivo \(Y_\text{estatus}\) con sexo como independiente \(X_\text{sexo}\) para comparar sus distribuciones y sus pendientes

El scatterplot no es muy informativo debido a que nuestra variable independiente solamente posee dos niveles, de modo tal que la distribución de Estatus Social Subjetivo se separa en dos grandes grupos. Por esta razón, una alternativa para visualizar la distirbución es elaborar un gráfico de cajas para ambas categorías:

En este sentido, al tener solamente dos niveles en los valores de la variable X: 0 (Hombre) y 1 (Mujer). Obtenemos solamente dos medias condicionales.

Entonces, si calculamos el promedio simple para Estatus Social Subjetivo por sexo tenemos:

## # A tibble: 2 x 2
##    sexo mean_ess
##   <dbl>    <dbl>
## 1     0     4.34
## 2     1     4.47

Segun esto el promedio para las mujeres es de 4.47 puntos en la escala de Estatus Social Subjetivo, mientras para los hombres es de 4.34.

Realizando ahora la regresión:

  Modelo 1
Predictores β
(Intercept) 4.339 ***
Sexo(1=Mujer) 0.133 *
Observations 3703
R2 / R2 adjusted 0.002 / 0.001
  • p<0.05   ** p<0.01   *** p<0.001

Entonces:

\[\widehat{Y}_\text{estatus} = 4.339 + \beta_1 \times \text{Sexo} + \epsilon \] Tenemos que las mujeres (Sexo = 1) tienen un promedio 0.133 puntos más alto que los hombres (Sexo = 0) en la escala de estatus social subjetivo. En este caso, el grupo de los hombres corresponde a la categoría de referencia.

Por lo tanto, ¿cuál es la predicción de estatus social subjetivo para la variable sexo?

Para el caso de los hombres tenemos:

\[\widehat{Y}_\text{estatus} = 4.339 + 0.133 \times 0 = 4.339\] En cambio, para las mujeres tenemos:

\[\widehat{Y}_\text{estatus} = 4.339 + 0.133 \times 1 = 4.472\]

Entonces cuando calculamos el promedio de Estatus social Subjetivo \(Y_\text{estatus}\) para hombre (\(X_\text{sexo=0}\)) mujer (\(X_\text{sexo=1}\)), podemos observar que son los mismos valores que nos entrega la estimación de la regresión simple empleando Sexo como predictor de Estatus Social Subjetivo. Es decir:

  • Al ingresar un regresor dicotómico en regresión simple lo que se obtiene es una estimación de la diferencia de promedios de ambas categorías en relación a la variable dependiente -en regresión múltiple esta diferencia se ajusta o controla por la presencia de otras variables, por ejemplo:
  Modelo 1 Modelo 2
Predictores β β
(Intercept) 4.339 *** 4.602 ***
Sexo(1=Mujer) 0.133 * 0.126 *
Edad -0.006 ***
Observations 3703 3703
R2 / R2 adjusted 0.002 / 0.001 0.005 / 0.004
  • p<0.05   ** p<0.01   *** p<0.001

\[\widehat{Y}_\text{estatus} = 4.602 + 0.126 \times \text{Sexo} + -0.006 \times \text{Edad} + \epsilon \] Al controlar por la Edad de las personas, las mujeres tienen un promedio 0.126 más alto que el de los hombres en la escala de Estatus Social Subjetivo. Vemos que, en comparación con el Modelo 1, la diferencia en el promedio de estatus subjetivo de mujeres respecto de hombres se ajusta al incorporar la Edad. En este sentido, ¿por qué la diferencia en el promedio de estatus subjetivo entre mujeres y hombres puede verse afectada por la Edad?. Revisemos el promedio de Edad para hombres y mujeres:

## # A tibble: 2 x 2
##    sexo mean_ess
##   <dbl>    <dbl>
## 1     0     47.5
## 2     1     46.3

Esta información nos permite observar que los hombres tienen un promedio de edad de 1.2 años mayor que el de las mujeres. En este sentido, lo que vemos es que la diferencia promedio de estatus subjetivo entre hombres y mujeres disminuye de 0.136 a 0.126, es decir, se ajusta al considerar (controlar por) la edad de las personas.

Predictores con más de una categoría

Una de las características de estatus más importante es el nivel educacional de las personas. En este sentido, el nivel educacional puede considerarse como una variable contínua (p.ej: años de educación) o categórica (nivel/grado educacional), lo cual depende no solo de la distribución empírica de la variable sino que también del criterio de quien investiga.

Para este ejercicio consideraremos la variable educación en base a las categorías de la Clasificación Internacional Normalizada de la Educación (UNESCO). La cual posee 5 niveles:

## 
## Educación (x) <numeric>
## # total N=3703  valid N=2988  mean=3.21  sd=1.21
## 
## Value |                      Label |    N | Raw % | Valid % | Cum. %
## --------------------------------------------------------------------
##     1 |  Primaria incompleta menos |  442 | 11.94 |   11.94 |  11.94
##     2 | Primaria y secundaria baja |  365 |  9.86 |    9.86 |  21.79
##     3 |            Secundaria alta | 1589 | 42.91 |   42.91 |  64.70
##     4 |      Terciaria ciclo corto |  592 | 15.99 |   15.99 |  80.69
##     5 |      Terciaria y Postgrado |  715 | 19.31 |   19.31 | 100.00

Y se distribuye de esta manera:

Para poder incluir esta variable en la regresión como categórica en R la manera más simple es definirla como un factor. Primero necesitamos conocer la estructura de la variable, ya que puede venir previamente definida como factor:

## [1] "numeric"
##  num [1:3703] 2 3 3 4 3 3 3 4 5 2 ...
##  - attr(*, "labels")= Named num [1:5] 1 2 3 4 5
##   ..- attr(*, "names")= chr [1:5] "Primaria incompleta menos" "Primaria y secundaria baja" "Secundaria alta" "Terciaria ciclo corto" ...
##  - attr(*, "label")= chr "Educación"

Vemos que al emplear class, R nos indica que edcine es una variable numérica con 5 valores distintos. Además, al correr str se nos indica que dichos valores numéricos poseen atributos en forma de etiquetas (labels). Entonces, si estimamos la regresión con la variable tal cual como está, obtenemos lo siguiente:

  Modelo 3
Predictores β
(Intercept) 3.329 ***
Educación 0.331 ***
Observations 3703
R2 / R2 adjusted 0.064 / 0.064
  • p<0.05   ** p<0.01   *** p<0.001

El coeficiente de regresión nos indica que por cada nivel adicional de educación, hay un aumento de 0.331 puntos en la escala de estatus social subjetivo. Sin embargo, dada la naturaleza de nuestra variable, decir “por cada nivel educacional” es poco informativo, por lo tanto la manera más adecuada de utilizar nuestra variable en la estimación de una regresión es transformarla en un factor empleando la función as_factor() De la librería sjlabelled .

Nota: en R existe la función as.factor(), sin embargo, en esa ocasión usamos as_factor() debido a que es compatible los vectores numéricos etiquetados y nos permite matener todos los atributos de las variables, tales como las etiquetas de variable y valores.

Teniendo nuestra variable transformada a factor, estimamos nuevamente la regresión:

  Modelo 3 Modelo 4
Predictores β β
(Intercept) 3.329 *** 3.794 ***
Educación 0.331 ***
Educación: Primaria y
secundaria baja
0.151
Educación: Secundaria
alta
0.476 ***
Educación: Terciaria
ciclo corto
0.811 ***
Educación: Terciaria y
Postgrado
1.279 ***
Observations 3703 3703
R2 / R2 adjusted 0.064 / 0.064 0.066 / 0.065
  • p<0.05   ** p<0.01   *** p<0.001

Interpretación

Al igual que en el modelo empleando Educación como variable continua, el modelo con Educación categórica muestra que a medida que aumenta el nivel educacional, el promedio de estatus subjetivo tiende a ser más alto. Por otro lado, en este caso la categoría de referenca es Primaria Incompleta o menos. Entonces:

El promedio en la escala de Estatus Social subjetivo para el grupo con educación Primaria y Secundaria baja es 0.151 puntos más alto con respecto a las personas con educación Primaria Incompleta o menos.

El promedio en la escala de Estatus Social subjetivo para el grupo con educación Secundaria Alta es 0.476 más alto con respecto a las personas con educación Primaria Incompleta o menos.

El promedio en la escala de Estatus Social subjetivo para el grupo con educación Terciaria ciclo corto es 0.811 más alto con respecto a las personas con educación Primaria Incompleta o menos.

El promedio en la escala de Estatus Social subjetivo para el grupo con educación Terciaria y Postgrado es de 1.279 más alto con respecto a las personas con educación Primaria Incompleta o menos.

  • Alternativamente es posible cambiar la categoría de referencia. Por ejemplo, si quisieramos que la referencia fuera el nivel educativo más alto “Terciaria y Postgrado” (5) debemos usar relevel(edcine, ref =5):
## 
## Call:
## lm(formula = ess ~ relevel(edcine, ref = 5), data = elsoc_18)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.0727 -0.7941  0.0548  0.7300  6.2059 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                5.07273    0.05710  88.833  < 2e-16 ***
## relevel(edcine, ref = 5)1 -1.27861    0.09239 -13.839  < 2e-16 ***
## relevel(edcine, ref = 5)2 -1.12752    0.09823 -11.479  < 2e-16 ***
## relevel(edcine, ref = 5)3 -0.80275    0.06876 -11.674  < 2e-16 ***
## relevel(edcine, ref = 5)4 -0.46800    0.08485  -5.516 3.71e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.527 on 3698 degrees of freedom
## Multiple R-squared:  0.06634,    Adjusted R-squared:  0.06533 
## F-statistic: 65.69 on 4 and 3698 DF,  p-value: < 2.2e-16

Variables dummy

La manera tradicional de incluir predictores categóricos de más de dos niveles (variable politómica) es a través de las denominadas variables dummy. Tal como vimos en el ejemplo anterior, se incluyen n-1 categorías en el modelo dado que siempre se mantiene una como categoría de referencia.

Para explorar nuestra base de datos, usaremos la función head() que nos mostrará las primeras 6 filas de nuestra base de datos para observar la variable Educación.

##   ess sexo edad edcine
## 1   9    0   66      2
## 2   5    0   62      3
## 3   5    0   28      3
## 4   5    1   53      4
## 5   5    1   63      3
## 6   5    0   56      3

Para la construcción de las variables dummy, usaremos la función dummy_cols() de la librería fastDummies. En el argumento select_columns, le indicamos cuál es la variable que usaremos para construir las variables dummy:

Revisamos nuestra base de datos:

##   ess sexo edad edcine edcine_1 edcine_2 edcine_3 edcine_4 edcine_5
## 1   9    0   66      2        0        1        0        0        0
## 2   5    0   62      3        0        0        1        0        0
## 3   5    0   28      3        0        0        1        0        0
## 4   5    1   53      4        0        0        0        1        0
## 5   5    1   63      3        0        0        1        0        0
## 6   5    0   56      3        0        0        1        0        0

Tal como se estimó en el modelo anterior, ahora lo que haremos es seleccionar cada dummy para las categorías 2, 3, 4 y 5 de la variable edcine. Esto implica que el nivel 1 (Primaria incompleta o menos) será la categoría de referencia.

  Modelo 4 Modelo 5
Predictores β β
(Intercept) 3.794 *** 3.794 ***
Educación: Primaria y
secundaria baja
0.151
Educación: Secundaria
alta
0.476 ***
Educación: Terciaria
ciclo corto
0.811 ***
Educación: Terciaria y
Postgrado
1.279 ***
edcine 2 0.151
edcine 3 0.476 ***
edcine 4 0.811 ***
edcine 5 1.279 ***
Observations 3703 3703
R2 / R2 adjusted 0.066 / 0.065 0.066 / 0.065
  • p<0.05   ** p<0.01   *** p<0.001

Si observamos la tabla de arriba, vemos que las estimaciones para el modelo 4 y 5 son idénticas. La única diferencia es que en el Modelo 5 empleamos dummies para cada categoría en vez de utilizar la variable como un factor.

Inferencia

Una de las ideas fundamentales de la inferencia es determinar si nuestros análisis estadísticos pueden ser extrapolados a la población que estamos estudiando. En el contexto de regresión, queremos conocer la significación estadística del coeficiente \(\beta\).

Queremos saber :

  1. ¿Es significativo el coeficiente del modelo de regresión?.

  2. Para ello, buscamos determinar la probabilidad de que \(\beta \neq 0\)

  3. El concepto fundamental es el Error.

Conceptos clave:

  1. Dispersión
  2. Curva normal
  3. Error estándar

Ejemplo

Supongamos que nuestra muestra de 3703 casos corresponde a la Población, de modo tal que vamos a extraer una serie de muestras aleatorias de esta “Población” a modo de ilustrar cambios en la dispersión de los datos en la medida que aumenta el tamaño muestral.

  • Recordemos que la fórmula del Error Estándar para una muestra es : \(\frac{s}{\sqrt{N}}\) donde \(s\) es la desviación estándar y \(N\) es el tamaño de la muestra.

  • Bajo el supuesto de que el promedio calculado para la muestra \(\bar{x}\) posee una distribución normal con una \(s = \text{Error Estándar (SE)}\), es posible calcular la probabilidad de error siguiendo dicha distribución. Donde \(\bar{x} \pm 2\text{ SE}\) abarca el 95% de la distribución.

set.seed(123)
elsoc_n30  <- sample_n(tbl = elsoc_18,size = 30 )  %>% mutate(dataset=30 ,mean_ess=mean(ess,na.rm = T))
elsoc_n50  <- sample_n(tbl = elsoc_18,size = 50 )  %>% mutate(dataset=50 ,mean_ess=mean(ess,na.rm = T))
elsoc_n75  <- sample_n(tbl = elsoc_18,size = 75 )  %>% mutate(dataset=75 ,mean_ess=mean(ess,na.rm = T))
elsoc_n100 <- sample_n(tbl = elsoc_18,size = 100)  %>% mutate(dataset=100,mean_ess=mean(ess,na.rm = T))
elsoc_n200 <- sample_n(tbl = elsoc_18,size = 200)  %>% mutate(dataset=200,mean_ess=mean(ess,na.rm = T))
elsoc_n300 <- sample_n(tbl = elsoc_18,size = 300)  %>% mutate(dataset=300 ,mean_ess=mean(ess,na.rm = T))
elsoc_n400 <- sample_n(tbl = elsoc_18,size = 400)  %>% mutate(dataset=400,mean_ess=mean(ess,na.rm = T))
elsoc_n700 <- sample_n(tbl = elsoc_18,size = 700)  %>% mutate(dataset=700,mean_ess=mean(ess,na.rm = T))
elsoc_n800 <- sample_n(tbl = elsoc_18,size = 800)  %>% mutate(dataset=800,mean_ess=mean(ess,na.rm = T))
elsoc_n900 <- sample_n(tbl = elsoc_18,size = 900)  %>% mutate(dataset=900,mean_ess=mean(ess,na.rm = T))
elsoc_n1000<- sample_n(tbl = elsoc_18,size = 1000) %>% mutate(dataset=1000,mean_ess=mean(ess,na.rm = T))
elsoc_n1500<- sample_n(tbl = elsoc_18,size = 1500) %>% mutate(dataset=1500,mean_ess=mean(ess,na.rm = T))
elsoc_n2000<- sample_n(tbl = elsoc_18,size = 2000) %>% mutate(dataset=2000,mean_ess=mean(ess,na.rm = T))
elsoc_n2500<- sample_n(tbl = elsoc_18,size = 2500) %>% mutate(dataset=2500,mean_ess=mean(ess,na.rm = T))
# elsoc      <- elsoc_18 %>% mutate(dataset=3703,mean_ess=mean(ess,na.rm = T))

fullmat<- bind_rows(elsoc_n30 ,elsoc_n50 ,elsoc_n75 ,elsoc_n100,elsoc_n200,elsoc_n300,elsoc_n400,elsoc_n700,elsoc_n800,elsoc_n900,elsoc_n1000,elsoc_n1500,elsoc_n2000,elsoc_n2500)
fullmat <- fullmat %>% mutate(mean_ssta=mean(elsoc_18$ess,na.rm = T))

Luego de obtener las muestras, calculamos la media, desviación estándar y Error estándar:

## # A tibble: 14 x 4
##    dataset  mean    sd     SE
##      <dbl> <dbl> <dbl>  <dbl>
##  1      30  4.07  1.41 0.258 
##  2      50  4.58  1.59 0.225 
##  3      75  4.39  1.60 0.185 
##  4     100  4.4   1.49 0.149 
##  5     200  4.46  1.47 0.104 
##  6     300  4.3   1.55 0.0893
##  7     400  4.36  1.58 0.0789
##  8     700  4.35  1.62 0.0611
##  9     800  4.38  1.54 0.0544
## 10     900  4.36  1.58 0.0525
## 11    1000  4.40  1.57 0.0498
## 12    1500  4.39  1.56 0.0403
## 13    2000  4.42  1.56 0.0349
## 14    2500  4.38  1.58 0.0317
  • Es posible observar que tanto la media como la desviación estándar van cambiando en la medida que aumenta el tamaño de la muestra, pero si observamos el Error Estándar, este va sistemáticamente disminuyendo en la medida que aumenta el tamaño muestral.

Para ilustrar cómo va cambiando la dispersión y la media “muestral” (rojo) con respecto a la “poblacional” (verde), se puede observar el siguiente gráfico:

  • Este ejemplo sirve para ilustrar de qué manera el Error Estándar de la media \(\bar{x}\) nos permite determinar la significancia estadística de un coeficiente de regresión \(\beta\).

  • En regresión nos interesa saber si las diferencias en Y con respecto a los distintos niveles o valores de X son significativas, es decir estadisticamente distintas de 0.

Volviendo nuestro ejemplo inicial: Estatus Social subjetivo según Sexo.

  • Estimamos una regresión para cuatro de las muestras de distinto tamaño usando Sexo como predictor de Estatus subjetivo.
  • Nos interesa saber si el promedio de Mujeres respecto de Hombres es distinto de 0.

  • La estimación de la regresión realiza este procedimiento a través del cálculo de la significación estadística. Los modelos entregan el resultado ya calculado en base al Error Estándar del \(\beta\).

  • Para determinar esto, se realiza una prueba de hipótesis nula. En regresión la hipótesis nula es:

\[ H_0: \beta =0\] En relación a la hipótesis alternativa:

\[ H_1: \beta \neq 0\]

  • Este contraste se basa en el cálculo de un invervalo de confianza para el coeficiente, asumiendo +/- 2 SE (o al 95% de confianza). Entonces, si este intervalo no pasa por cero, entonces rechazamos \(H_0\).

  • Entonces, ¿es estadísticamente significativa la diferencia del promedio de Estatus Subjetivo entre hombres y mujeres?. Revisemos para nuestras muestras de distinto tamaño:

## # A tibble: 4 x 3
##   term  estimate std.error
##   <chr>    <dbl>     <dbl>
## 1 sexo    0.0440    0.314 
## 2 sexo    0.0489    0.0829
## 3 sexo    0.145     0.0715
## 4 sexo    0.196     0.0649
  • Al igual que en ejemplo anterior, el error estándar va sistematicamente disminuyendo en la medida que empleamos una muestra más grande. Ahora, ¿son estas diferencias en el promedio entre mujeres respecto de hombres estadísticamente signifciativas al 95% de confianza?. Calculemos los intervalos de confianza:

  • Para el caso de la muestra de 100 casos tenemos:

## [1] -0.584
## [1] 0.672
  • Para el caso de la muestra de 1500 casos tenemos:
## [1] -0.1169
## [1] 0.2147
  • Para el caso de la muestra de 2000 casos tenemos:
## [1] 0.002
## [1] 0.288
  • Para el caso de la muestra de 2500 casos tenemos:
## [1] 0.0662
## [1] 0.3258
  • Vemos que para las muestras de 100 y 1500, el intervalo inferior cruza el valor 0, por tanto no rechazamos \(H_0\). Lo cual implica que no hay diferencias estadísticamente significativas en el promedio de estatus social subjetivo de mujeres respecto de hombres.

  • Por otro lado, en muestras de 2000 y 2500, el intervalo inferior no cruza el valor 0, por tanto rechazamos \(H_0\). Lo cual implica que la diferencia en el promedio de estatus social subjetivo de mujeres respecto de hombres es estadísticamente signficativa a un 95% de confianza.

Visualmente lo podemos ver en el siguiente gráfico usando la librería coefplot.

  • Cada punto representa el coeficiente de Sexo (Mujer=1) para cada modelo.
  • Las líneas horizontales representan los intervalos de confianza.

De manera resumida en una tabla podemos verlo así:

  n=100 n=1500 n=2000 n=2500
Predictors β SE CI 95% β SE CI 95% β SE CI 95% β SE CI 95%
Sexo(1=Mujer) 0.044 0.314 -0.579 – 0.667 0.049 0.083 -0.114 – 0.212 0.145 0.072 0.004 – 0.285 0.196 0.065 0.069 – 0.323
Observations 100 1500 2000 2500
R2 / R2 adjusted 0.000 / -0.010 0.000 / -0.000 0.002 / 0.002 0.004 / 0.003

Resumen Práctica 7

En esta práctica revisamos los siguientes contenidos:

  • Predictores categóricos
  • Variables dummy
  • Inferencia estadística
  • Inferencia en Regresión

Reporte de progreso

Completar el reporte de progreso correspondiente a esta práctica [https://forms.gle/ACUm93yHPQQpLco4A]

Foro práctica 7