Técnicas de Machine Learning basadas en árboles y su aplicación en Ciencias Naturales con R

Manuel Mendoza García. Científico Titular, Museo Nacional de Ciencias Naturales (CSIC) Imparte:

Técnicas de Machine Learning basadas en árboles y su aplicación en Ciencias Naturales con R

Objetivo del curso: Aprender a utilizar las principales técnicas de Machine Learning o aprendizaje automático, basadas en árboles, comprendiendo en profundidad su funcionamiento.

Requisitos: Conocimientos básicos de R y asistir con un ordenador portátil con los programas R y RStudio ya instalados.

Dirigido a: Investigadores de cualquier rama de las ciencias naturales y cualquier nivel académico. El curso tiene una fuerte componente práctica (≈ 80%), con 40 ejercicios prácticos, la mayoría con datos y problemas reales, que se irán viendo simultáneamente con la teoría

Programa:

INTRODUCCIÓN

1. Aprendizaje automático vs. modelado estadístico

2. Clasificación de los algoritmos de machine learning

- Aprendizaje supervisado y no supervisado

BLOQUE 1. Árboles de regresión y clasificación

1. Interpretación

2. Representación de los hiperplanos

Ejercicio 1. Interpretación de un árbol de clasificación (obtenido con rpart) que permite caracterizar a bóvidos frente a cérvidos a partir de su morfología craneodental. Representación de los hiperplanos.

Ejercicio 2. Interpretación de un árbol de regresión (obtenido con rpart) que permite predecir la masa corporal de las especies a partir de su morfología craneodental. Representación de los hiperplanos.

 

3. Ventajas y limitaciones

4. Desarrollo

- Por particionamiento recursivo

- Optimizados globalmente

 

5. Medidas de pureza como criterio de división para clasificación

- Entropía (ganancia de información)

- Índice Gini (impureza)

 

6. Criterio de división para el desarrollo de árboles de clasificación

- Con predictores categóricos

Ejercicio 3. a) Desarrollo paso a paso de un árbol de clasificación con predictores categóricos, b) programación de un sencillo modelo predictivo de distribución de una especie ficticia, a partir de tan solo dos variables ambientales cualitativas.

- Con predictores numéricos

Ejercicio 4. a) Desarrollo paso a paso de un árbol de clasificación con predictores categóricos y numéricos, b) programación de un sencillo modelo predictivo de distribución de una especie ficticia, a partir de dos variables ambientales cualitativas y una numérica.

 

7. Criterio de división para el desarrollo de árboles de regresión

Ejercicio 5. Programación de un árbol de regresión, usando predictores numéricos y categóricos, para identificar los principales factores de riesgo de captura accidental de la Pardela Cenicienta (Calonectris diomedea) por la flota palangrera.

 

8. Evaluación, validación y determinación de la complejidad óptima de los árboles

- Sesgo vs varianza (inexactitud vs imprecisión)

- Validación cruzada (Cross-validation)

Validación cruzada de K iteraciones (k-folds)

Validación cruzada aleatoria

Validación cruzada dejando uno fuera (leave-one-out)

Ejercicio 6. Evaluación con VC leave-one-out de la capacidad predictiva de un modelo desarrollado para determinar el tipo de ecosistema de la comunidad de mamíferos de Venta Micena (Pleistoceno Inferior) a partir de su estructura trófica.

Validación cruzada con datos estructurados

Validación cruzada por bloques (VCPB) cuando hay autocorrelación espacial

Ejercicio 7. Evaluación con VCPB, cuando puede haber autocorrelación espacial, de la capacidad predictiva de un modelo desarrollado para determinar el tipo básico de organización trófica de una comunidad a partir de su clima. Seis tipos básicos de organización: Boreal, Depauperada, Tropical Húmeda, Semiárida, Tropical Estacional y Templada.

Validación cruzada por bloques (VCPB) cuando hay autocorrelación filogenética

Ejercicio 8. a) Evaluación con VCPB de la capacidad predictiva de un modelo desarrollado para predecir la masa corporal de las especies a partir de su morfología craneodental. Comparación con VC 10-folds, b) Programación de VCPB cuando hay autocorrelación filogenética (a nivel de familia) para identificar la complejidad (cp) óptima con la que entrenar el algoritmo.

 

9. Coste diferencial y datos descompensados (unbalanced data)

- Coste diferencial

- Categorías infra-representadas

- Estrategias para tratar el coste diferencial y las categorías infra-representadas

Modificar el umbral de corte

Ejercicio 9. Predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris), a partir de variables predictoras ambientales, modificando el umbral de corte para penalizar las falsas ausencias.

Matriz de pérdidas (loss matrix)

Vector de ponderación (weights)

Ejercicio 10. Igual que el ejercicio 9 pero penalizando las falsas ausencias con una matriz de pérdidas (loss matrix).

Ejercicio 11. Con los datos del ejercicio 5, convirtiendo el número de pardelas en una categoría binaria (presencia/ausencia) penalizando las falsas ausencias con una matriz de pérdidas (loss matrix).

Ejercicio 12. De 8900 comunidades de zonas frías y templadas, menos de un 10% están depauperadas. Determinar (y predecir) los factores de impacto humano, si los hay, que contribuyen a su depauperación, tratando la presencia de categorías infra-representadas con una matriz de pérdidas.

Replicación y eliminación de muestras

Ejercicio 13. a) Desarrollar un modelo que permita predecir el tipo de organización trófica esperable en un lugar a partir de su clima, remuestreando las categorías de forma equitativa. b) Testado por VCPB insensible a la autocorrelación espacial. Seis tipos básicos de organización: Boreal, Depauperada, Tropical Húmeda, Semiárida, Tropical Estacional y Templada.

 

10. Evaluación con datos artificiales

Ejercicio 14. Desarrollar un modelo que permita predecir la abundancia de una planta con restricciones ambientales, con muestras artificiales cuya relación con la abundancia es artificial y por lo tanto conocida.

Ejercicio 15. Desarrollar un árbol de regresión que permita predecir la abundancia (a) y otro de clasificación que permita predecir la presencia/ausencia (clasificación binaria) de determinada especie (artificial) a partir de datos climáticos reales (13178 celdas de 1º x 1º distribuidas globalmente) cuya relación con la abundancia es artificial y por lo tanto conocida.

BLOQUE 2 Métodos de agregación o empaquetado de árboles

1. Cómo funcionan

2. Bootstrap

Ejercicio 16. Predecir la riqueza de especies invertrívoras a partir del clima, a escala global. a) con árboles de regresión, reduciendo la varianza (imprecisión) mediante promediado, b) programación de un bootstrap.

Ejercicio 17. Testado del bootstrap del ejercicio 16 con VCPB.

Ejercicio 18. Aplicación de un bootstrap con el paquete ipred a los datos del ejercicio 16.

 

3. Random forests (RF)

Ejercicio 19. Predecir la riqueza de especies invertrívoras a partir del clima a escala global (ejercicio 16) con RF para regresión.

- Análisis e interpretación de los resultados del random forest ¿Algoritmo de caja gris?

Importancia de las variables

Dependencia parcial (Partial dependence plots, PDP)

Ventajas y desventajas

PDP con RF para regresión,

Ejercicio 20. Análisis e interpretación (Importancia + PDP) de los resultados del RF del ejercicio 19.

Ejercicio 21. Análisis e interpretación (Importancia + PDP) de los resultados de RF para regresión con diferentes bases de datos artificiales cuya variable objetivo tiene una relación conocida con lo predictores. a) Efecto de un solo predictor, b) efecto de 2 predictores, c) efecto de un predictor, correlacionado con otro, d) como apartado c, pero con ruido.

Ejercicio 22. a) Determinar con RF la abundancia (regresión) de una planta (artificial) con restricciones ambientales, con muestras artificiales (ejercicio 14), b) análisis e interpretación de los resultados (Importancia + PDP).

Ejercicio 23. a) Determinar con RF la abundancia (regresión) de determinada especie (artificial) con datos climáticos reales (ejercicio 15a), b) análisis e interpretación de los resultados (Importancia + PDP).

Ejercicio 24. a) Predecir con RF la presencia o ausencia (clasificación binaria) de determinada especie artificial a partir de datos climáticos reales (ejercicio 15b), b) análisis e interpretación de los resultados (Importancia + PDP).

Ejercicio 25. a) Predecir con RF la presencia o ausencia (clasificación binaria) del avión roquero (Ptynoprogne rupestris, ejercicio 9) con RF para clasificación binaria, b) análisis e interpretación de los resultados (Importancia + PDP).

Ejercicio 26. a) Predecir el tipo de organización trófica (6 categorías, clasificación multiclase) esperable en un lugar a partir de su clima (ejercicio 13) utilizando RF para clasificación múltiple, b) análisis e interpretación de los resultados (Importancia + PDP).

Ejercicio 27. a) Determinar el sitio de localización de la proteína dentro de la célula (clasificación multiclase), en la levadura Saccharomyces cerevisiae, b) análisis e interpretación de los resultados (Importancia + PDP).

 

4. Boosted trees para clasificación y regresión (BT)

- AdaBoost (AdaptativeBoosting)

Ejercicio 28. Aplicación de AdaBoost para clasificación, con un ejemplo ficticio, muy sencillo, que podría ser de un modelo predictivo de distribución de una especie con solo dos variables ambientales predictoras: x1 y x2.

- Gradient Boosting estocástico

- Paquete GBM

- Optimización de los hiperparámetros

Ejercicios 29-30. Continuación ejercicios 22-23 con BT para regresión

Ejercicio 31-32. Continuación ejercicio 24-25 con BT para clasificación binaria

Ejercicios 33-34. Continuación ejercicios 26-27 con BT para clasificación multiclase.

 

5. Extreme gradient boosting (XgBoost)

- Paquete xgboost

- Optimización de los hiperparámetros

Ejercicios 35-36. a) Continuación ejercicios 29-30 con XgBoost para regresión, b) comparación de los resultados obtenidos con árboles, RF, BT y XgBoost.

Ejercicio 37-38. Continuación ejercicio 31-32 con XgBoost clasificación binaria, b) comparación de los resultados obtenidos con árboles, RF, BT y XgBoost.

Ejercicios 39-40. Continuación ejercicios 33-34 con XgBoost para clasificación multiclase, b) comparación de los resultados obtenidos con árboles, RF, BT y XgBoost.

Fecha

  • Lunes, 19 Abril 2021
  • Jueves, 29 Abril 2021

Horario

19-23 / 26-29 de abril de 2021 de 16h a 19h (27 horas)

Ubicación

Salón de Actos del Museo

Plazas

20

Tarifas

230 € (Amigos del Museo 210 €)

Inscripción