Técnicas de Machine Learning basadas en árboles y su aplicación en Ciencias Naturales con R

Título: Técnicas de Machine Learning basadas en árboles y su aplicación en Ciencias Naturales con R (Identificación de patrones a partir de variables potencialmente correlacionadas, mediante Aprendizaje Computacional)

Profesor: Manuel Mendoza García

Científico Titular, Museo Nacional de Ciencias Naturales (CSIC)

Objetivo del curso: Aprender a utilizar las principales técnicas de Aprendizaje Computacional (o aprendizaje automático) basadas en árboles, comprendiendo en profundidad cómo funcionan.

A quién va dirigido: Investigadores de cualquier rama de las ciencias naturales y cualquier nivel académico. El curso tendrá una fuerte componente práctica (≈ 80%), con más de 30 ejemplos prácticos, la mayoría con datos y problemas reales, que se irán viendo simultáneamente con la teoría.

Requisitos: Conocimientos básicos de R y asistir con un ordenador portátil con los programas R y RStudio ya instalados

Programa: Del 7 AL 11 DE SEPTIEMBRE de 16h a 20h. 20 horas de docencia

INTRODUCCIÓN

1. Aprendizaje automático vs. modelado estadístico

2. Clasificación de los algoritmos de aprendizaje computacional

- Aprendizaje supervisado y no supervisado

BLOQUE 1. Árboles de regresión y clasificación

1. Interpretación

2. Representación de los hiperplanos

Ejercicio 1. Interpretación de un árbol de clasificación (obtenido con rpart) que permite caracterizar a bóvidos frente a cérvidos a partir de su morfología craneodental. Representación de los hiperplanos (más detalles en: https://www.researchgate.net/profile/Manuel_Mendoza5/publication/256095740_Decision_trees_a_machine_learning_methodology_for_characterizing_morphological_patterns_resulting_from_ecological_adaptations/links/0c960521ba1008737d000000.pdf)

Ejercicio 2. Interpretación de un árbol de regresión (rpart) que permite predecir la masa corporal de las especies a partir de su morfología craneodental. Representación de los hiperplanos.

3. Ventajas y limitaciones

4. Desarrollo

- Por particionamiento recursivo

- Optimizados globalmente

5. Medidas de pureza como criterio de división para clasificación

- Entropía (desorden)

- Índice Gini (impureza)

6. Criterio de división para el desarrollo de árboles de clasificación

- Con predictores categóricos

Ejercicio 3. Desarrollo paso a paso de un árbol de clasificación con predictores categóricos (programación de un modelo predictivo de distribución de una especie ficticia en función de dos variables ambientales cualitativas).

- Con predictores numéricos

Ejercicio 4. Desarrollo paso a paso de un árbol de clasificación con predictores categóricos y numéricos (programación de un modelo predictivo de distribución de una especie ficticia en función de dos variables ambientales cualitativas y una numérica).

7. Criterio de división para el desarrollo de árboles de regresión

Ejercicio 5. Programación de un árbol de regresión, usando predictores numéricos y categóricos, para identificar los principales factores de riesgo de captura accidental de la Pardela Cenicienta (Calonectris diomedea) por la flota palangrera (más detalles en:https://www.researchgate.net/profile/Jose_Baez4/publication/265384077_Cory's_shearwater_bycatch_in_the_Mediterranean_Spanish_commercial_longline_fishery_Implications_for_management/links/540c9ab50cf2d8daaacae99b.pdf).

8. Evaluación, validación y determinación de la complejidad de los árboles

- Sesgo vs varianza (inexactitud vs imprecisión; inaccuracy vs. imprecision)

- Validación cruzada (Cross-validation)

Validación cruzada de K iteraciones (k-folds)

Validación cruzada aleatoria

Validación cruzada dejando uno fuera (VC leave-one-out)

Ejercicio 6. Evaluación con VC leave-one-out de la capacidad predictiva de un modelo desarrollado para determinar el tipo de ecosistema de la comunidad de mamíferos de Venta Micena (Pleistoceno Inferior) a partir de su estructura trófica. (más detalles en: https://www.researchgate.net/profile/Manuel_Mendoza5/publication/253658988_Ecological_patterns_in_the_trophic-size_structure_of_large_mammal_communities_A_'taxon-free'_characterization/links/0c96051fe16208e236000000/Ecological-patterns-in-the-trophic-size-structure-of-large-mammal-communities-A-taxon-free-characterization.pdf)

Validación cruzada cuando puede haber autocorrelación espacial (VC autcesp)

Ejercicio 7. Evaluación con VC, cuando puede haber autocorrelación espacial, de la capacidad predictiva de un modelo desarrollado para determinar el tipo básico de organización trófica de una comunidad a partir de su clima. Seis tipos básicos de organización: Boreal, Depauperada, Tropical Húmeda, Semiárida, Tropical Estacional y Templada (más detalles en: https://www.nature.com/articles/s41467-019-12995-9).

Validación cruzada con rpart

Ejercicio 8. Determinación de la complejidad óptima, basada en la VC, de un modelo de árbol que permite estimar, a partir de predictores ambientales, la riqueza específica de aves de un lugar.

9. Coste diferencial y datos descompensados (unbalanced data)

Coste diferencial

Categorías infra-representadas

- Estrategias para tratar el coste diferencial y las categorías infra-representadas

Modificar el umbral de corte

Ejercicio 9. Predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris), a partir de variables predictoras ambientales, modificando el umbral de corte para atenuar los efectos de categorías binarias infra-representadas.

Penalizar determinadas clasificaciones

Ejercicio 10. Como ejemplo 9 pero tratando la presencia de categorías binarias infra-representadas con una matriz de pérdidas (loss matrix).

Ejercicio 11. Como ejemplo 5, convirtiendo el número de pardelas en una categoría binaria tratando la presencia de categorías binarias infra-representadas con una matriz de pérdidas (loss matrix).

Ejercicio 12. De 8900 comunidades de zonas frías y templadas, menos de un 10% están depauperadas. Determinar (y predecir) los factores de impacto humano, si los hay, que contribuyen a su depauperación, tratando la presencia de categorías infra-representadas con una matriz de pérdidas (más detalles en: https://www.nature.com/articles/s41467-019-12995-9).

Replicación y eliminación de muestras

Ejercicio 13. Desarrollar un modelo que permita predecir el tipo de organización trófica esperable en un lugar a partir de su clima, tratando la presencia de categorías infra-representadas replicando y/o eliminando muestras. Testado insensible a la autocorrelación espacial. Seis tipos básicos de organización: Boreal, Depauperada, Tropical Húmeda, Semiárida, Tropical Estacional y Templada (más detalles en: https://www.nature.com/articles/s41467-019-12995-9).

10. Evaluación con datos artificiales

Ejercicio 14. Desarrollar un modelo que permita predecir la abundancia de una planta con restricciones ambientales, con muestras artificiales cuya relación con la abundancia es artificial y por lo tanto conocida.

Ejercicio 15. Desarrollar un árbol de regresión que permita predecir la abundancia (a) y otro de clasificación que permita predecir la presencia/ausencia (clasificación binaria) de determinada especie (artificial) a partir de datos climáticos reales (13178 celdas de 1º x 1º distribuidas globalmente) cuya relación con la abundancia es artificial y por lo tanto conocida. Script PDP1.

BLOQUE 2 Métodos de agregación o empaquetado de árboles

1. Cómo funcionan

2. Bootstrap o Bagging (Boostrap aggregating)

Ejercicio 16. Predecir la riqueza de especies invertrívoras a partir del clima, a escala global, con árboles de regresión, reduciendo la varianza (imprecisión) mediante promediado + programación de un bootstrap.

Ejercicio 17. Testado del bootstrap del ejercicio 16 con datos inmunes a la autocorrelación espacial.

Ejercicio 18. Continuación Ejercicio 17, Bootstrap (bagging) con el paquete ipred.

3. Random forests ¿Algoritmo de caja gris?

Ejercicio 19 (Continuación Ejercicio 18). Predecir la riqueza de especies invertrívoras a partir del clima, a escala global, con Random forests (para regresión).

- Importancia de las variables

Regresión

Clasificación

- Dependencia parcial (Partial dependence plots, PDP)

Ventajas y desventajas

PDP Regresión, análisis e interpretación

Ejercicio 20. Análisis e interpretación (Importancia + PDP) de los resultados del RF para regresión del ejercicio 19.

Ejercicio 21 Análisis e interpretación (Importancia + PDP) de los resultados de RF para regresión con diferentes bases de datos artificiales cuya variable objetivo tiene una relación conocida con lo predictores.

21.1 Efecto de un solo predictor

21.2 Efecto de 2 predictores

21.3 Efecto 1 predictor, correlacionado con otro

21.4 Efecto 1 predictor correlacionado con otro, ambos con ruido

Ejercicio 22 (continuación ejercicio 14). Determinar con RF para regresión la abundancia de una planta (artificial) con restricciones ambientales, con muestras artificiales, análisis e interpretación de los resultados (Importancia + PDP).

Ejercicio 23 (Continuación ejercicio 15a). Determinar con RF para regresión la abundancia de determinada especie (artificial) con datos climáticos reales.

Ejercicio 24 (Continuación ejercicio 15b). Determinar con RF para clasificación binaria la presencia/ausencia de determinada especie (artificial) con datos climáticos reales.

Ejercicio 25 (continuación ejercicio 9). Predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris) con RF para clasificación binaria.

Ejercicio 26 (continuación ejercicio 13). Predecir el tipo de organización trófica utilizando RF para clasificación múltiple.

4. Boosted regression and classification trees

- AdaBoost (AdaptativeBoosting)

Ejercicio 27. Aplicación de AdaBoost para clasificación, a un ejemplo muy sencillo (ficticio) que podría ser de un modelo predictivo de distribución de una especie con solo dos variables predictoras: x1 y x2.

- Gradient Boosting estocástico

- Paquete GBM

Ejercicios 28-32. Continuación ejercicios 22-26 con Boosted trees (paquete GBM).

Fecha

Lunes, 07 Septiembre 2020
Viernes, 11 Septiembre 2020

Horario

De 16h a 20h

Ubicación

Salón de actos del Museo

Plazas

20 plazas

Tarifas

170€

Inscripción