TÉCNICAS AVANZADAS DE REGRESIÓN Y SU APLICACIÓN CON R

Profesor:

Luis M. Carrascal

    Profesor de Investigación - CSIC

    Museo Nacional de Ciencias Naturales – Madrid, CSIC

Objetivo: presentar teórica y prácticamente varias técnicas de regresión habitualmente poco conocidas, pero que sin embargo tienen una enorme utilidad en disciplinas tan variadas como ecología, ordenación del territorio, modelos predictivos de distribución de organismos o impactos, sociología, agronomía, etc.

Dirigido a: Personas interesadas en adquirir conocimientos avanzados en modelos de regresión.

Requisitos: Conocimientos bien asentados de los conceptos estadísticos básicos así como interés en aproximarse a un uso más avanzado de R.

 

Programa:

Desarrollo del curso: Se pondrá el énfasis en los aspectos teóricos de los modelos generalizados que permitan una buena praxis en la inferencia estadística orientada a la obtención de patrones y al test de hipótesis utilizando herramientas de regresión. El curso va dirigido a investigadores y personal científico-técnico con cierta experiencia previa con la estadística. Esto es, el curso puede considerarse como “avanzado”.

Todo el desarrollo práctico del curso se efectuará usando el entorno de trabajo R, utilizando más de una decena de paquetes disponibles ampliamente contrastados (nlme, pscl, mgcv, MuMIN, car, MASS, lmtest, momments, sándwich, robust, robustbase, ROCR, boot, cvTools, plsdepot, plsRglm, randomForest, quantreg, lqmm, qgam, etc). No obstante, el curso no es “sobre R”. Los paquetes y el entorno R son la herramienta con la que los asistentes al curso se familiarizarán y acabarán pudiendo utilizar de modo rutinario, pero R no es en sí mismo la meta docente y académica del curso.

No es necesario tener conocimientos previos de R, pero es recomendable tener cierta experiencia previa. Además de la presentación teórica de los aspectos del curso, el profesor irá mostrando el uso de R según se vayan introduciendo las diferentes técnicas de regresión. Previamente al inicio del curso, se enviarán a los alumnos instrucciones y archivos para su instalación.

Los asistentes deberán ir con su propio ordenador portátil. Previamente se les dará unas instrucciones acerca de cómo instalar el entorno de trabajo de R-4.2.0 y los paquetes que serán utilizados durante el curso.

 

 

Duración:

El curso tendrá una duración de 40 horas repartidas en diez días. De 

Martes 21 – Viernes 24 (15-19 h) + Sábado 25 (9:30-13:30 h)

Lunes 27 – Viernes 31 (15-19 h)

 

 

Temario:

Aspectos generales

1)  Distribuciones, transformaciones y funciones de vínculo con las principales familias (Gaussiana, Gamma, Poisson, Binomial negativa, Binomial, multinomial, beta-binomial).

2)  Análisis de supuestos canónicos: exploración de los residuos de los modelos. Linealidad de efectos. Multicolinearidad de variables (índices VIF). Puntos influyentes y perdidos. Sobre-dispersión.

3)  Poder explicativo y predictivo de los modelos: variación explicada, magnitud de efectos parciales, validación cruzada.

4)  Robustez de los resultados: estimas robustas, parametrización por re-muestreo con reemplazo de los datos originales (bootstrapping)

5) Inferencia multi-modelo y criterio de información de Akaike (model averaging, model selection).

 

Técnicas estadísticas

1)  Modelos Generalizados Lineales: gausianos (generales), gamma, de conteos (regresiones de Poisson, Generalized Poisson, Binomial Negativa), variable respuesta binomial (regresiones lógit, logística), modelos beta-binomiales y multinomiales ordinales (proportional odds regression). Diagramas ROC y criterio AUC.

2)  Modelos Generalizados Lineales con distribuciones “aumentadas” de ceros (hurdle regression y zero-inflated).

3)  Cuando las relaciones entre las variables predictoras y la respuesta no son lineales: Modelos Generalizados Aditivos (GAM) con cubic y thin plate splines.

4)  ¿Y si las variables predictoras muestran un elevado grado de asociación?: modelos de regresión PLS (Partial Least Squares) trabajando con distribuciones Gaussianas, Poisson, Binomiales y Multinomiales Ordinales.

5) Modelos de cuantiles: superando el paradigma de regresión a la media, obteniendo patrones en diferentes subconjuntos de datos según la intensidad de la respuesta. Modelos de cuantiles lineales y generalizados aditivos.

6) Prediciendo situaciones complicadas, discerniendo patrones complejos no lineales, con interacciones entre predictores: modelos ‘random forests.

 

 

 

Fecha

  • Martes, 21 Marzo 2023
  • Viernes, 31 Marzo 2023

Horario

Martes 21 – Viernes 24 (15-19 h) + Sábado 25 (9:30-13:30 h)

Lunes 27 – Viernes 31 (15-19 h)

 

Ubicación

Museo Nacional de Ciencias Naturales

Plazas

30 plazas

Es necesario realizar preinscripción enviando los motivos para realizar el curso al correo

mcnc104@mncn.csic.es

Tarifas

340 euros

Amigos del Museo 320 euros

Inscripción