AFORO COMPLETO. Curso de Técnicas Avanzadas de Machine Learning y su aplicación (con R) en Investigación Científica

Del 13 al 24 de marzo de 2023 (presencial y remoto)

Profesor: Manuel Mendoza García, Científico Titular

Objetivo del Curso

Aprender a aplicar con R las principales técnicas de Aprendizaje automático basado en árboles en investigación científica, comprendiendo en profundidad cómo funcionan. El curso tiene una fuerte componente práctica (≈ 80%), con 68 ejercicios prácticos, procedentes de investigaciones reales, que se van viendo simultáneamente con la teoría.

A quién va dirigido

Investigadores de cualquier nivel académico.

Requisitos

Conocimientos básicos de R.

Material incluido en el curso

Los códigos (explicados) de los 68 ejercicios del curso.
Guía del curso en Power Point, que incluye la explicación de todos los conceptos fundamentales y la síntesis de los resultados de la mayoría de los ejercicios.

----------------------------------------------------------------------------------------

FECHA

13 al 24 de marzo (2 semanas L-V)

HORARIO

16 a 20:00h (Zona horaria de Madrid)

PLAZAS

15 presenciales y 30 en acceso remoto a través de Zoom.

RESERVA DE PLAZA

mcnc104@mncn.csic.es

CONSULTAS

mmendoza@mncn.csic.es

TARIFAS

320€ (40 horas lectivas)

Los participantes recibirán un certificado a la finalización del curso.

Programa

INTRODUCCIÓN

Aprendizaje automático vs. modelado estadístico

¿Qué se puede hacer con r?

BLOQUE 1 ÁRBOLES DE REGRESIÓN Y CLASIFICACIÓN

1. Interpretación

2. Representación de los hiperplanos

Ejercicio 1.2.1. Identificar los hábitos de alimentación de Prosthennops xiphodonticus, un pecarí (tayassuido) del Mioceno medio en América del Norte (reconstrucción en figura B). Entrenamiento de diferentes algoritmos que reconozcan los patrones morfológicos que caracterizan la mandíbula de distintos grupos tróficos de ungulados actuales. Representación de los hiperplanos.

Ejercicio 1.2.2. a) Interpretación de un árbol de clasificación (obtenido con rpart) que permite caracterizar a bóvidos frente a cérvidos a partir de su morfología craneodental (predictores numéricos). Comparación de dos formatos de árbol, evaluación, b) Representación de los hiperplanos (ajustando la complejidad óptima con cp).

Ejercicio 1.2.3. a) Interpretación de un árbol de regresión (rpart) entrenado para predecir la masa corporal (BM) de especies extintas a partir de su morfología craneodental (predictores numéricos), b) Efecto de la log-transformación. c) determinación de la masa corporal de tres especies extintas: Dinohippus leidyanus, Stenomylus hitchcocki y Aletomeryx scotti.

Ejercicio 1.2.4. a) Entrenar un árbol de clasificación multiclase (con rpart) que caracterice el tipo de estructura trófica de una comunidad a partir de su clima, b) Representar los hiperplanos de las variables que caracterizan fundamentalmente a las comunidades de zonas cálidas.

Ejercicio 1.2.5. Determinar la comestibilidad o potencial toxicidad (clasificación binaria) de una seta de las familias Agaricus y Lepiota a partir de 22 características (predictores cualitativos) mediante árboles de clasificación. Modificar complejidad con parámetro cp (predictores en próxima diapositiva). a) con rpart (iterativo), b) con evtree (optimizado globalmente).

Ejercicio 1.2.6. a) Determinar el sitio de localización de una proteína en la levadura Saccharomyces cerevisiae, entrenando para ello un árbol de clasificación a partir de 8 descriptores (numéricos) del sistema de anotaciones Yeast Protein Database, basados en las secuencias de aminoácidos de la proteína. Script yeast.

Ejercicio 1.2.7. a) Entrenar un árbol de clasificación (con rpart) para que reconozca el tipo de ecosistema de una comunidad a partir de su estructura trófica, b) Aplicar a la comunidad de mamíferos de Venta Micena (VM2, Pleistoceno Inferior), c) Representar los hiperplanos de las variables que afecten a Venta Micena.

Ejercicio 1.2.8. Diagnosticar la enfermedad de Alzheimer entrenando para ello un árbol de clasificación (binaria) a partir de 190 biomarcadores (numéricos) en sangre.

Ejercicio 1.2.9. Entrenar un árbol de regresión (con rpart) para determinar el valor calorífico superior (HHV) de diferentes combustibles de biomasa a partir de su contenido en carbono, hidrógeno, oxígeno, nitrógeno y azufre (con cp=0.001)

Solos Ejercicio 1.2.10. a) Entrenar un árbol de clasificación (con rpart) para caracterizar morfológicamente a partir de ala y pico, a las aves herbívoras acuáticas respecto a las terrestres (nicho trófico), b) inferir el nicho trófico de una especie de museo desconocida (spcmus), c) averiguar en qué nodo cae.

3. Ventajas

4. Limitaciones

5. Desarrollo

Particionamiento recursivo

Optimizados globalmente con algoritmos evolutivos

6. Clasificación: medidas de impureza como criterio de división

Porcentaje de clasificaciones correctas

Entropía (desorden)

Índice Gini (desigualdad)

6.1 Criterio de división para el desarrollo de árboles de clasificación

Con predictores categóricos

Ejercicio 1.6.1. Programar un árbol de clasificación con predictores categóricos.

Solos Ejercicio 1.6.2. a) Calcular la Ganancia de Información (GI) basada en la entropía de la única división posible (cálculos en formato R).

Con predictores numéricos

Ejercicio 1.6.3. Programar un árbol de clasificación con predictores numéricos.

7. Regresión: medidas de pureza como criterio de división

Ejercicio 1.7.1. Programar un árbol de regresión con predictores numéricos y categóricos. Objetivo: Identificar los principales factores de riesgo de captura accidental de la Pardela Cenicienta (Calonectris diomedea) por la flota palangrera.

8. Evaluación de los modelos

8.1 Clasificación

Porcentaje de clasificaciones correctas.

Coeficiente kappa

8.2 Regresión

Varianza de lo observado explicada por lo predicho (R²)

9. Interacciones Complejas

Ejercicio 1.9.1. Comparación entre regresión múltiple y árboles de regresión para determinar la abundancia de una planta con restricciones ambientales (datos artificiales) cuya abundancia tiene una relación sencilla con las variables ambientales (a) o compleja (b).

10. Importancia de las variables con rpart

Ejercicio 1.10.1. Determinar la importancia de la exposición al tabaquismo en la función respiratoria de los niños (volumen espiratorio forzado, FEV) en relación con otros factores como la edad, la altura o el género.

11. Equilibrio Sesgo-varianza

12. Control del tamaño del árbol (complejidad) con rpart

12.1 Factor de coste-complejidad (cp)

12.2 Otros

13. Validación cruzada

Validación cruzada para estimar la capacidad predictiva de los modelos

Validación cruzada para determinar la complejidad óptima de un modelo

13.1 Validación cruzada k-folds (k-folds CV)

13.2 Validación cruzada aleatoria (VCA)

Determinación de la complejidad óptima con rpart

Ejercicio 1.13.1. a) Determinar la complejidad óptima de un árbol de regresión entrenado para estimar la riqueza de especies de aves invernantes a partir de ciertos predictores ambientales (datos reales), con el comando printcp de rpart, basado en el cálculo de 10-folds cross-validation; b) testado de la capacidad predictiva por validación cruzada aleatoria; c) determinar y representar la importancia de las variables.

Ejercicio 1.13.2. a) Determinar la complejidad óptima de un árbol de clasificación entrenado para determinar el tipo de cáncer de 934 líneas celulares a partir del grado de expresión de 9071 genes (archivo: E-MTAB-2770-query-results.tpms.tsv).

Ejercicio 1.13.3. a) Determinar la complejidad óptima de un árbol de clasificación para determinar el sitio de localización de la proteína, dentro de la célula, en la levadura Saccharomyces cerevisiae, usando para ello los 8 descriptores del sistema de anotaciones Yeast Protein Database (YPD), (datos reales), con el comando printcp de rpart, basado en 10-folds cross-validation; b) testado de la capacidad predictiva por validación cruzada aleatoria.

Solos Ejercicio 1.13.4. Predecir el estilo de vida de las aves a partir de la morfología del pico y el ala (10 predictores numéricos); a) Entrenar un árbol de clasificación (multiclase) con rpart e identificar la complejidad (cp) óptima con 10-folds CV (printcp), b) estimar su capacidad predictiva con VCA (50 árboles).

13.3. Validación cruzada dejando uno fuera (leave-one-out cross validation, LOOCV)

Ejercicio 1.13.5. a) Evaluación con LOOCV de la capacidad predictiva de un árbol de clasificación desarrollado para determinar el tipo de ecosistema (clasificación multiclase) que presentaba la comunidad de mamíferos de Venta Micena (Pleistoceno Inferior) a partir de su estructura trófica; b) programación de una LOOCV para identificar la complejidad (cp) óptima.

13.4. Validación cruzada con datos estructurados (VC por bloques, VCPB)

Validación cruzada por bloques cuando hay autocorrelación espacial

Solos Ejercicio 1.13.6. Estimar la riqueza de especies invertrívoras a partir del clima, a escala global. a) Determinar la complejidad óptima de un modelo de árboles de regresión con el comando printcp de rpart, basado en el cálculo de 10-folds VC. b) Determinar la complejidad óptima a partir de la capacidad predictiva sobre un solo bloque, c) determinar la importancia de las variables.

Ejercicio 1.13.7. a) Entrenar un árbol de regresión con el que estimar la riqueza de especies invertívoras a partir del clima, a escala global, estimando previamente la complejidad óptima con un solo bloque y comparar los árboles y su capacidad predictiva con los optimizados con 10-folds CV en el ejercicio anterior; b) analizar el árbol.

Ejercicio 1.13.8. Predecir el tipo básico de estructura trófica (TS1 a TS6) de una comunidad a partir de su clima.

a) Representar antes la distribución geográfica de las 6 categorías

b) Representar cada variable para cada una de las categorías con la densidad kernel.

c) entrenar un algoritmo optimizándolo con 10-folds CV (printcp)

d) evaluar su capacidad predictiva con VCPB insensible a la autocorrelación espacial, utilizando 36 franjas longitudinales de 10º

e) programar una VCPB para identificar la complejidad (cp) óptima

f) representar la distribución geográfica de las predicciones

g) obtener un árbol con todas las muestras y la complejidad óptima

h) analizar el árbol (simplificado si es demasiado complejo)

i) obtener y representar la importancia de las variables.

Solos (a partir de c) Ejercicio 1.13.9. Predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris) a partir de variables predictoras ambientales.

a) Representar antes la distribución geográfica de las muestras y

b) la de cada predictor para cada una de las categorías de la variable objetivo (presencia, ausencia) con la densidad kernel (versión suavizada del histograma);

c) entrenar un árbol e identificar la complejidad (cp) óptima con 10-folds CV,

d) evaluar su capacidad predictiva con VCPB insensible a la autocorrelación espacial, utilizando 8 franjas longitudinales de aproximadamente 1. 5º;

e) programar una VCPB para identificar la complejidad (cp) óptima,

f) representar la distribución geográfica de las predicciones;

g) obtener un árbol con todas las muestras y la complejidad óptima y analizarlo;

h) obtener y representar la importancia de las variables.

Validación cruzada por bloques cuando hay autocorrelación filogenética

Ejercicio 1.13.11. a) Evaluación con VCPB (cuando hay autocorrelación filogenética) de la capacidad predictiva de un modelo desarrollado para predecir la masa corporal de las especies a partir de su morfología craneodental. Comparación con 10-folds VC. b) Programación de VCPB cuando hay autocorrelación filogenética (a nivel de familia) para identificar la complejidad (cp) óptima.

14. Coste diferencial y datos descompensados (unbalanced data)

Coste diferencial

Categorías infra-representadas

- Modificación el umbral de corte

- Ponderación de falsas ausencias o muestras infrarrepresentadas

- Remuestreo

Ejercicio 1.14.1. Predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris) a partir de variables predictoras ambientales. Su hallazgo en determinado lugar implica su presencia, pero no encontrarla no implica su ausencia. Entrenar un árbol de clasificación (optimizado), evaluar la bondad de sus “predicciones” (sobre las muestras de entrenamiento) y representarlas:

a) sin tratar la presencia de categorías infra-representadas,

b) penalizando las falsas ausencias (FA) modificando el umbral de corte

c) con una matriz de pérdidas (loss matrix)

d) con un vector de ponderación y

e) con remuestreo

f) Estimar la capacidad predictiva por VCPB (insensible a la autocorrelación espacial) de un algoritmo que trata la existencia de categorías infra-representadas (y además con coste diferencial) ponderando con el comando weights

g) Estimar la capacidad predictiva por VCPB (insensible a la autocorrelación espacial) de un algoritmo que trata la existencia de categorías infra-representadas (y además con coste diferencial) remuestreando.

Ejercicio 1.14.2. Identificar los principales factores de riesgo de captura accidental de la Pardela Cenicienta (Calonectris diomedea) por la flota palangrera a partir de la presencia o ausencia de capturas accidentales mediante árboles de clasificación (binaria) tratando la presencia de categorías “súper” infra-representadas (las presencias); a) con una matriz de pérdidas (loss matrix), b) con un vector de ponderación (weights). Variable objetivo: Calonectris.

Solos Ejercicio 1.14.3 De 8685 comunidades de zonas continentales no tropicales (celdas 1º x 1º), menos de un 10% están depauperadas. Determinar con un árbol de clasificación los factores de impacto que contribuyen a su depauperación, a) sin tratar la presencia de categorías infra-representadas, b) modificando el umbral de corte, c) con vector de ponderación, d) testando la verdadera capacidad predictiva con VC aleatoria con vector de ponderación (weights).

Ejercicio 1.4.4. Determinar la familia a partir de la morfología craneodental con árbol de clasificación estimando la capacidad predictiva con LOOCV; a) sin remuestrear; b) remuestrear para que todas las familias pesen lo mismo en el entrenamiento y testar la verdadera capacidad predictiva con LOOCV; c) determinar la familia de 3 especies extintas: Dinohippus leidyanus (équido), Stenomylus hitchcocki (camélido) y Aletomeryx scotti (Dromomerycid).

BLOQUE 2 MÉTODOS DE AGREGACIÓN DE ÁRBOLES

1. Bootstrap o Bagging (Bootstrap aggregating)

Ejercicio 2.1.1. a) Predecir la riqueza de especies invertrívoras (IFd) a partir del clima con árboles de regresión reduciendo la varianza (error por imprecisión) mediante promediado; b) programación de un bootstrap; c) Testado del bootstrap con un bloque; d) bootstrap con el paquete ipred.

2. Random forests

Hiperparámetros con el paquete randomForest

- Número de árboles (ntree)

- Número de predictores disponibles para cada división (mtry).

- Número mínimo de observaciones de los nodos terminales

- Máximo número de nodos en cada árbol (maxnodes).

Ejercicio 2.2.1. Predecir la riqueza de especies invertrívoras a partir del clima, a escala global, con random forests para regresión (paquete randomForest), b) optimizar los hiperparámetros, c) testar datos inmunes a la autocorrelación espacial.

Ejercicio 2.2.2. Programar de un Random forests (con los datos del ejercicio anterior).

2.1 Regresión (Random forests)

Ejercicio 2.2.3. Estimar con random forests para regresión la riqueza de especies de aves invernantes. Análisis de los resultados de un random forests con el paquete randomforest.

Solos Ejercicio 2.2.4 Estimar el tamaño del rango (RngSz) de las aves a partir de la morfología del pico y el ala (regresión). a) con árboles de regresión, estimando la capacidad predictiva con VC aleatoria (200 árboles), b) RF con ntree=200, c) ¿Cuál es la diferencia?

Datos desequilibrados con paquete randomForest

2.2 Clasificación binaria (Random forests)

Ejercicio 2.2.5. Predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris) mediante random forests para clasificación binaria a partir de variables predictoras ambientales; a) directo; b) equilibrado con sampsize para que las presencias pesen tanto como las ausencias (testado con VCPB). Comparar con árboles de clasificación.

2.3 Clasificación multiclase (Random forests)

Ejercicio 2.2.6. a) Determinar el tipo de ecosistema de la comunidad de mamíferos de Venta Micena a partir de su estructura trófica mediante random forests para clasificación multiclase, b) Evaluación de la capacidad predictiva del random forests con leave-one-out, c) ponderando la categoría OSv para que sea considerada.

Ejercicio 1.13.2. a) Entrenar un algoritmo de random forests para diagnosticar el tipo de cáncer a partir del grado de expresión de ciertos genes (archivo: E-MTAB-2770-query-results.tpms.tsv).

Ejercicio 2.2.6. a) Predecir el tipo de organización trófica esperable en un lugar a partir de su clima mediante random forests para clasificación multiclase; Comparar resultados con árboles, b) Evaluación de la capacidad predictiva del random forests con VCPB cuando puede haber autocorrelación espacial.

Solos Ejercicio 2.2.7. a) Predecir el tipo de estructura trófica esperable en un lugar a partir de su clima mediante RF para clasificación multiclase

b) porcentaje de votos y predicción OOB para el elemento 18º

c) evolución del error para TS4 y valor final

d) evaluación de su capacidad predictiva

e) evaluación de su capacidad predictiva con VCPB cuando puede haber autocorrelación espacial (buscar el mapa en el bloque 1)

f) comparar resultados con árboles.

3. Boosted trees para regresión y clasificación

Desventajas

Ventajas

3.1 AdaBoost (AdaptativeBoosting)

Ejercicio 2.3.1. Programar un AdaBoost para clasificación, con un ejemplo muy sencillo (ficticio): modelo predictivo de distribución de una especie con 10 muestras y 2 variables predictoras. a) Elección y desarrollo de los clasificadores débiles (weak learners); b) Obtención del peso de cada clasificador (at); c) Predicción (H)

3.2 Gradient descent Boosting (GB)

Tasa de aprendizaje o factor de contracción (learning rate)

Gradient Boosting estocástico

Paquete GBM (gradient boosting machine)

Hiperparámetros

- shrinkage (learning rate o tasa de aprendizaje, 0 - 1)

- n.trees (nº de árboles o iteraciones)

- interaction.depth (profundidad de los árboles)

- n.minobsinnode (nº mínimo de muestras en los nodos terminales)

- bag.fraction (ratio de muestras para entrenar los algoritmos)

Regresión (gradient boosting)

Ejercicio 2.3.2. Estimar con gradient boosting para regresión la riqueza de especies de aves invernantes a partir de predictores ambientales.

Solos (el a) Ejercicio 2.3.3. a) Estimar con GBM la masa corporal de las aves a partir de la morfología del ala, b) estimar la masa corporal de Accipiter brachyurus, Cincloramphus cruralis y Tigriornis leucolopha (datos reales, pero no de una investigación real).

Clasificación binaria (gradient boosting)

Ejercicio 2.3.4. Predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris) mediante gradient boosting para clasificación binaria, a partir de variables predictoras ambientales, evaluándolo con VCPB, cuando puede haber autocorrelación espacial, remuestreando para que las presencias pesen tanto como las ausencias.

Clasificación multiclase (gradient boosting)

Ejercicio 2.3.5. Determinar el tipo de ecosistema de la comunidad de mamíferos de Venta Micena a partir de su estructura trófica mediante gradient boosting para clasificación multiclase

Ejercicio 2.3.6. Determinar el comportamiento migratorio de Accipiter brachyurus, A. brevipes y A. Butler a partir de la morfología del pico y el ala con: a) árboles de clasificación, b) RF y c) GBM y comparar sus respectivas capacidades predictivas (datos reales, pero no de una investigación real).

4. Xgboost (eXtreme Gradient Boosting)

Regularización

- alfa (regularización de lazo)

- lambda (regularización de cresta)

- gamma (multiplicador lagrangiano)

Hiperparámetros del paquete xgboost

- eta

- nrounds

- max_depth

- subsample

- colsample_bytree

- early_stopping_rounds

Optimización de los hiperparámetros

4.1 XgBoost con predictores cuantitativos

Regresión (Xgboost)

Ejercicio 2.4.1. a) Estimar la riqueza de especies de aves invernantes con XgBoost a partir de predictores ambientales (regresión). b) Comparar resultados con árboles de regresión, random forests y gradient boosting.

Solos Ejercicio 2.4.2. a) Estimar la masa corporal de Accipiter brachyurus, Cincloramphus cruralis y Tigriornis leucolopha con un algoritmo de XgBoost entrenado para predecir la masa de las aves a partir de la morfología del ala (datos reales, pero no de una investigación real).

Clasificación binaria (Xgboost)

Datos desequilibrados con paquete XgBoost

Ejercicio 2.4.3. a) Predecir con XgBoost la presencia o ausencia (clasificación binaria) del avión roquero (Ptynoprogne rupestris) a partir de variables predictoras ambientales. a) Evaluándolo con VCPB, cuando existe el riesgo de autocorrelación espacial; b) ponderando, simultáneamente, las presencias para que pesen tanto como las ausencias; c) Comparar resultados con árboles de regresión, random forests y gradient boosting.

Clasificación multiclase (Xgboost)

Ejercicio 2.4.4. a) Determinar el tipo de ecosistema (clasificación multiclase) de la comunidad de mamíferos de Venta Micena a partir de su estructura trófica mediante XgBoost.

Solos Ejercicio 2.4.5. Determinar el comportamiento migratorio de Accipiter brachyurus, A. brevipes y A. Butler (testspcs) a partir de la morfología del pico y el ala (clasificación multiclase) con XgBoost y comparar su capacidad predictiva con CT, RF y GBM.

Solos: Ejercicio 2.4.6. Determinar el sitio de localización de la proteína (clasificación multiclase), dentro de la célula de la levadura Saccharomyces cerevisiae, a partir de 8 descriptores del sistema de anotaciones Yeast Protein Database.

Comparar la capacidad predictiva (Kappa), optimizando directamente, de:
CT optimizado con 10-folds CV, testada con VCA con 200 árboles
RF
GBM
XgBoost
¿Cuál son las diferencias entre una VCA con 200 árboles, un bootstrap de 200 árboles, un RF de 200 árboles, un GBM con 200 iteraciones (árboles) y un XgBoost, ¿también con 200 iteraciones?

4.2 XgBoost con predictores cualitativos (One-hot-encoding)

Ejercicio 2.4.7. a) Determinar con XgBoost la comestibilidad o potencial toxicidad de una seta de las familias Agaricus y Lepiota (clasificación binaria) a partir de 22 características (predictores cualitativos convertidos en numéricas (binomiales) mediante One-hot-encoding, b) Aplicar a nuevos datos.

Solos: Ejercicio 2.4.8. Comparación de la capacidad de CT (a), RF (b) y XgBoost (c) para predecir (sobre muestras test) la depauperación de comunidades de zonas frías y templadas, a partir de factores de impacto humano, modificando el umbral de corte para compensar la infrarrepresentación de las depauperadas.

5. Importancia de las variables

5.1 Árboles de decisión

Con el paquete rpart

5.2 Random forests

Con el paquete randomForest

- Incremento relativo del error por permutación

- Incremento de la pureza de los nodos

Con el paquete iml

- FeatureImp

5.3 Boosted trees

Con paquete gbm

- Influencia relativa

- Test de permutación

5.4 XgBoost

Con el paquete XgBoost

- Gain

- Cover

- Frequency

Con paquete XgBoost

Ejercicio 2.5.1. a) Entrenar un árbol de clasificación con el que identificar el tipo de cáncer (I, II o III) a partir del grado de expresión de 46 genes, seleccionando previamente aquellos que son más importantes con RF, b) comparar con los más importantes de acuerdo a rpart (también basado en Gini) y c) comparar la capacidad predictiva (VC) de ambos métodos (archivo: E-MTAB-2770).

Ejercicio 2.5.2. Representa la contribución de las variables predictoras al estimar la riqueza de especies de aves invernantes, a) con RT, b) RF, c) GBM, d) XgBoost.

Solos Ejercicio 2.5.3. a) Entrenar un RF que permita identificar el tipo hábitat de las aves a partir de la morfología de su pico y su ala y testar su capacidad predictiva.

b) Determinar la importancia de las variables con el paquete randomforest y seleccionar las 2 más importantes por su capacidad predictiva, c) Determinar la importancia de las variables con el paquete iml, d) Determinar la importancia de las variables con el paquete vip.

6. Efecto de las variables predictoras

6.1 Gráficos de dependencia parcial (Partial dependence plots, PDP)

Ventajas

Desventajas

Ejercicio 2.6.1. Análisis e interpretación de los resultados (Importancia, PDP e interacciones) de un RF para regresión, de una base de datos artificial (1000 muestras y 3 predictores: a, b y c) cuya variable objetivo (y) tiene una relación sencilla conocida: a) con un solo predictor, b) con 2 predictores no correlacionados, c) con 1 predictor, que está correlacionado con otro.

Ejercicio 2.6.2. a) Determinar con un árbol de regresión y RF la abundancia de una planta (ficticia) con restricciones ambientales, con muestras y variables artificiales, NO CORRELACIONADAS, b) Importancia y efecto de los predictores (PDPs).

6.2 Curvas de expectativas condicionales individuales (ICE)

Ventajas

Desventajas

6.3 Gráficos de efectos locales acumulados (ALE) alternativa a los PDP

7. Interacciones entre variables

7.1. Representación visual mediante PDPs combinados

7.2 Estadístico H

Ventajas

Desventajas

Ejercicio 2.7.1. Caracterizar mediante RT y RF el nicho climático óptimo de un género de planta tropical, a partir de la distribución global de su abundancia (artificial). Datos climáticos reales (CORRELACIONADOS), 13178 celdas de 1º x 1º distribuidas globalmente).

Random forests ¿caja gris? (Importancia y efecto de las variables predictoras)

Árboles de decisión vs. Random forests ¿caja blanca y caja gris?

Ejercicio 2.7.2 Análisis e interpretación (imp., PDP e interacciones) del algoritmo de RF entrenado para determinar el tipo de ecosistema de una comunidad de mamíferos a partir de su estructura trófica. a) con Paquete Randomforest, b) Con Paquete PDP, c) con paquete Iml.

Solos Ejercicio 2.7.3. Análisis e interpretación (importancia, PDP e interacciones) de un algoritmo de RF entrenado para determinar cómo influyen la morfología del pico y el ala en la probabilidad de que estén adaptadas a distintos hábitats. a) con paquete Randomforest, b) con paquete PDP, c) con paquete Iml.

Gradient boosting (Importancia y efecto de las variables predictoras)

Ejercicio 2.7.4. Caracterizar mediante RF y GB las condiciones que llevan a la depauperación de las comunidades de zonas frías y templadas, a partir de factores de impacto humano mediante la importancia de las variables, PDP e interacciones entre ellos.

XgBoost (Importancia y efecto de las variables predictoras)

Regresión

Ejercicio 2.7.5. Análisis e interpretación (Importancia, PDP e interacciones) de algoritmos de RF y XgBoost, entrenado para predecir la abundancia del avión roquero (Ptynoprogne rupestris) a partir de variables predictoras ambientales. a) Importancia de las variables; b) Efecto de las variables; c) interacciones entre variables.

Clasificación binaria

Solos Ejercicio 2.7.6. a) Utilizar el paquete pdp para analizar con PDP cómo afectan los dos genes más importantes, identificados por el algoritmo de RF a la probabilidad de que un cáncer sea del tipo I , II o III. b) PDP suavizado del 2º gen más importante sobre el tipo III, c) efecto combinado de ambos genes sobre el tipo II, d) PDPs de los 4 genes más importantes para los 3 tipos de cáncer con un loop anidado, e) interacciones entre los genes (paquete iml), f) interacciones entre el gen más importante y los otros 3.

Clasificación multiclase

Ejercicio 2.7.7. Analizar con PDP, paquetes DALEX y DALEXtra (clasificación multiclase), cómo afecta el grado de expresión de los dos genes más importantes identificados por el algoritmo XgBoost sobre la probabilidad de tener un cáncer tipo I

Solos Ejercicio 2.7.8. a) Averiguar la variable más importante de un algoritmo de RF entrenado para predecir la riqueza de especies invertívoras a partir del clima, de acuerdo con IncNodePurity y %IncMSE, b) analizar con PDPs suavizados su efecto sobre la riqueza de especies, de forma independiente y combinada (2D y 3D), c) comprobar con ICE si el efecto medio (PDP) se corresponde con un único patrón, d) analizar su efecto sobre la riqueza con ALE, e) Averiguar sus interacciones fundamentales.

Solos Ejercicio 2.7.9. a) Entrenar un algoritmo de RF y dos de XgBoost (sin optimizar y optimizado) para predecir la riqueza de especies invertívoras a partir del clima, y comparar su capacidad predictiva sobre otro 10% de las muestras, b) obtener la variable más importante de acuerdo con cada uno de los 3 índices: Gain, Cover (nº de muestras implicadas en sus divisiones) y frequency, c) analizar con PDPs sus respectivos efectos sobre la riqueza de especies con el paquete DALEX.

Ejercicio 2.7.10. Predecir la distribución de la riqueza de especies invertrívoras en 2070 a partir de un escenario de cambio climático RCP 8.5 (datos reales).

Fecha

Lunes, 13 Marzo 2023

Horario

Del 13 al 24 de marzo (2 semanas L-V) (40 horas lectivas)

De 16:00h a 20:00h (Zona horaria de Madrid)

Ubicación

Presenciales desde la Sala de Juntas del Museo

Alumnos en remoto por ZOOM

Plazas

15 presenciales y 30 en acceso remoto a través de Zoom.

Reserva de plazas en el correo

mcnc104@mncn.csic.es

Se agradece la difusión de esta página en cualquier institución científica en la que pueda interesar

Tarifas

320€

Amigos del Museo 300€

Inscripción