Práctica 9. Regresión Logística 1

Materiales de la sesión del 31 Jul 2020

Índice

Objetivo

La siguiente práctica tiene el objetivo de introducir a los estudiantes en los modelos de regresión logística, que es una técnica de análisis que nos permite tener una variable dependiente como dicotómica. Para ello, utilizaremos la base de datos del Titanic.

Datos

¿Qué es el titanic? El RMS Titanic fue un transatlántico británico, el mayor barco del mundo al finalizar su construcción, que se hundió en la madrugada del 15 de abril de 1912 durante su viaje inaugural desde Southampton a Nueva York. En el hundimiento del Titanic murieron 619 personas de las 1046 que iban a bordo, lo que convierte a esta tragedia en uno de los mayores naufragios de la historia ocurridos en tiempo de paz.

Explorar datos

A partir de la siguiente tabla se obtienen estadísticos descriptivos que luego serán relevantes para la interpretación de nuestros modelos.

No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 pclass [factor] 1. Clase Alta 2. Clase Intermedia 3. Clase Baja
284(27.2%)
261(24.9%)
501(47.9%)
1046 (100%) 0 (0%)
2 survived [factor] 1. No sobrevive 2. Sobrevive
619(59.2%)
427(40.8%)
1046 (100%) 0 (0%)
3 sex [factor] 1. Hombre 2. Mujer
658(62.9%)
388(37.1%)
1046 (100%) 0 (0%)
4 age [numeric] Mean (sd) : 29.9 (14.4) min < med < max: 0.2 < 28 < 80 IQR (CV) : 18 (0.5) 98 distinct values 1046 (100%) 0 (0%)
5 sibsp [numeric] Mean (sd) : 0.5 (0.9) min < med < max: 0 < 0 < 8 IQR (CV) : 1 (1.8)
0:685(65.5%)
1:280(26.8%)
2:36(3.4%)
3:16(1.5%)
4:22(2.1%)
5:6(0.6%)
8:1(0.1%)
1046 (100%) 0 (0%)
6 parch [numeric] Mean (sd) : 0.4 (0.8) min < med < max: 0 < 0 < 6 IQR (CV) : 1 (2)
0:768(73.4%)
1:160(15.3%)
2:97(9.3%)
3:8(0.8%)
4:5(0.5%)
5:6(0.6%)
6:2(0.2%)
1046 (100%) 0 (0%)

Generated by summarytools 0.9.6 (R version 4.0.0)
2020-08-05

Para esta práctica nos centraremos en las variables sex y survived. Como podemos notar la categoría de respuesta de estas variables son 0 y 1, es decir, estamos ante variables dicotómicas.

Con la función ctable del paquete summarytools podemos realizar una tabla de contingencia donde se señala la proporción de sobrevivientes según sexo

Cross-Tabulation, Row Proportions

survived * sex

Data Frame: tt
sex
survived Hombre Mujer Total
No sobrevive 523 ( 84.5% ) 96 ( 15.5% ) 619 ( 100.0% )
Sobrevive 135 ( 31.6% ) 292 ( 68.4% ) 427 ( 100.0% )
Total 658 ( 62.9% ) 388 ( 37.1% ) 1046 ( 100.0% )

Generated by summarytools 0.9.6 (R version 4.0.0)
2020-08-05

La tabla muestra que la mayoría de los tripulantes no sobrevivió (619 no sobreviven, mientras que 427 si sobreviven). A su vez, la mayoría de los no sobrevivientes corresponden a hombres (84.5%), mientras que solo un 15.5% de las mujeres no sobrevive. En relación a sobrevivientes, la mayoría de los sobrevivientes corresponden a mujeres (68,4%), en desmedro de hombres (31.6%).

Una forma gráfica de verlo es por medio del paquete ggmosaic que con su función geom_mosaic permite construir visualizaciones para datos categóricos. El mosaico general corresponde al total de tripulantes del titanic. Como podrán notar, hay más hombres tripulantes que mujeres, por lo que las barras para hombres son mas anchas. Luego, gracias al comando fill del geom_mosaic podemos distinguir en hombres y mujeres la proporción de cuantos sobrevivieron y cuantos no sobrevivieron.

Conceptos centrales

Los dos conceptos centrales en regresión logística son las “chances” (o en inglés, odds) y la razón (o en inglés, ratio).

Probabilidades

Una probabilidad es la posibilidad de ocurrencia de un evento de interés, usando como referencia todos los eventos. Por ejemplo, la probabilidad de “ser sobreviviente en el titanic” se calcula en relación a todos los tripulantes del titanic.

En primera instancia, podríamos decir que del total de pasajeros, un 40.8% de ellos sobrevive, es decir, la probabilidad de sobrevivir es de 0.408

\[Probabilidades_{sobrevivientes} = \frac{427}{1046} = 0.408\] Mientras que un 59.2% de los tripulantes no sobrevive, es decir, la probabilidad de no sobrevivir es de 0.592

\[Probabilidades_{sobrevivientes} = \frac{619}{1046} = 0.592\]

En R se realiza a través de la función prop.table

## 
## No sobrevive    Sobrevive 
##    0.5917782    0.4082218

Odds

Una forma alternativa de representar una probabilidad es un odds que se definen como la división entre el número de ocurrencias (\(\pi\)) y el numero de “no ocurrencias” (\(1-\pi\)).

\[Odd = \frac{\pi}{1-\pi}\]

Si seguimos el ejemplo del Titanic

\[Odds = \frac{Sobrevivientes}{No{Sobrevivientes}}\]

La función addmargins nos entrega las frecuencias marginales y absolutas para columnas (sexo) y filas (sobrevivencia)

##               
##                Hombre Mujer  Sum
##   No sobrevive    523    96  619
##   Sobrevive       135   292  427
##   Sum             658   388 1046

Si hacemos el cálculo de los odds obtenemos 0.68 (427/619), es decir, hay 0.68 sobrevivientes por cada no sobreviviente. Aunque parezca poco “lógico” hablar de 0.68 sobrevivientes, esto indica que la relación entre sobrevivientes y no sobrevivientes no es 1:1 y de hecho existen más chances de morir que de sobrevivir.

Otra forma de leer este dato es decir que por cada 100 no sobrevivientes, hay 68 sobrevivientes.

Podríamos también calcular el odds de sobrevivencia de hombres y mujeres

\[Odds{hombres} = \frac{135}{523} = 0.258\] \[Odds{mujeres} = \frac{292}{96} = 3.04\]

Para los hombres, hay más chances de no sobrevivir que de sobrevivir (odds < 1), mientras que para mujeres hay más chances de sobrevivir que de no sobrevivir (odds > 1)

Propiedades de Odds

  • Odds menores que 1, indican una chance negativa
  • Odds mayores que 1, indican una chance positiva

En R esto podemos realizar este calculo directamente a través de las probabilidades marginales para cada sexo que entrega prop.table.El número 2 indica que las proporciones están calculadas por columna, es decir, las probabilidades indicadas se calculan considerando como total cada sexo.

##               
##                   Hombre     Mujer
##   No sobrevive 0.7948328 0.2474227
##   Sobrevive    0.2051672 0.7525773

Odds Ratio (OR)

Ahora bien, con los datos hasta ahí podriamos llegar a la conclusión de que las mujeres tienen más chances de sobrevivir que los hombres. Pero, ¿cuánto más sobreviven las mujeres que los hombres?

Esta pregunta implica la asociación entre sobrevivencia y sexo y ya no solo hablar de las chances de sobrevivencia de cada sexo por separado. Para hacer esa relación se requiere calcular los odds ratio o razón de chances.

\[Odds Ratio = \frac{Odds_{mujeres}}{Odds_{hombres}} = \frac{3.04}{0.258} = 11.78\]

El resultado que obtenemos se lee de la siguiente manera: las chances de sobrevivir de las mujeres es 11.78 veces más grande que la de los hombres.

En consecuencia, la comparación de los Odds de dos grupos es conocido como Odds Ratio (OR). Formalmente:

\[Odds_{ratio}=\frac{odds_{1}}{odds_{2}}=\frac{\pi_{1}/(1-\pi_{1})}{\pi_{2}/(1-\pi_{2})}\]

Propiedades de Odds Ratio:

  • Cuando X e Y son independientes \(Odds_{ratio}\) ya que \(odds_{1}=odds_{2}\)

  • El rango de posibles valores es: \(0<Odds_{ratio}<\infty\)

    • Cuando los valores van de 0 a 1, \(Odds_{ratio}\) indica que \(odds_{1}<odds_{2}\)

    • Cuando los valores van de 1 a \(\infty\), \(Odds_{ratio}\) indica que \(odds_{1}>odds_{2}\)

  • Es una medida de magnitud de asociación simétrica: un \(Odds_{ratio}=4\) es una asociación positiva proporcional a la asociación negativa \(Odds_{ratio}=1/4=0.25\)

Los \(Odds_{ratio}\) se pueden graficar por medio de la funcion or_plor de finalfit. Para ello solo de debe indicar cuál es la variable predictora (o explanatory en inglés) y la variable dependiente.

Como se puede ver, en el gráfico no solo se indican los \(Odds_{ratio}\) de sobrevivencia de las mujeres por sobre los hombres (11.78), sino que estos se grafican en relacióna qué tan cerca están del 0 (y por tanto, cuánto se aleja del rango de asociación negativa).

Reporte de progreso

Contestar aquí.

Foro práctica 9