Programa
- Programa Big Data (2021 – Verano)
Notas de clase y presentaciones
Aprendizaje Estadistico (Sesion 1)
- Introducción aprendizaje estadístico (Junio 2021)
- Machine Learning & Economics (Junio 2021)
- Lecturas
Principales tecnicas (Sesion 2 – 4)
- Métodos lineales de regresión y clasificación (Junio 2021)
- Métodos no lineales de regresión y clasificación (Junio 2021)
- Validación y Selección de Modelos (Junio 2021)
- Predicting Annual Length-Of-Stay and its Impact on Health Costs
- Lecturas
- Lectura: Three learning principles from Learning From Data (2012) , Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin .
- Machine Learning Based Program to Prevent Hospitalizations and Reduce Costs in the Colombian Statutory Health Care System
Analisis No Supervisado (Sesion 5 – 6)
- Principales Tecnicas de Analisis No Supervisado (Junio 2021)
- Aplicacion: SARLAFT (Junio 2021)
- Aplicacion: Prediccion del Crimen (Junio 2021)
- Lecturas
Mineria de Texto (Sesion 7)
- Fundamentos NLP (Julio 2021)
- Lecturas
Intoroduccion a la Mineria de Redes (Sesion 8-9)
- Introducción a la Teoría de Redes (Julio 2021)
- Analisis de Enlaces (Julio 2021)
- Lecturas
Guía Trabajo Final
Una forma de evaluar el valor y riesgo de una propuesta de investigacion es seguir el Catecismo de Heilmeier
Un buen articulo en minería de datos debe tener un estructura como esta:
- Introducción: el problema y su relevancia, revisión de la literatura y contribución especifica del artículo en el contexto de esta literatura.
- Descripción de los datos.
- El modelo (si lo hay) y ojala algún resultado teórico.
- El algoritmo utilizado.
- Aplicación a por lo menos dos cosas: (1) Datos sintéticos y (2) Una base de datos del mundo real.
- Conclusiones
Un excelente ejemplo es: Uplift Modeling with Multiple Treatments and General Response Types
El estándar de edición de las publicaciones académicas es Latex. Para instalar este sistema de edición recomiendo:
- Descargar Latex de https://www.latex-project.org/
- Descargar un editor de Latex. Texstudio es muy bueno: https://www.texstudio.org/
- Este template puede ser bueno para comenzar a modificar: KDD Template Example
Textos
- Introduction to Statistical Learning with Applications in R. Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
Lecturas Adicionales
- McKinsey Global Institute: The age of analytics executive summary
- The data revolution and economic analysis
- Big Data: New Trick for Econometrics
- Statistical Learning Theory: Models. Concepts, and Results
- Top 10 algorithms in data mining
- The Markov Chain Montecarlo Revolution
- Support Vector Classification with Input Data Uncertainty
- Testing Rating Accuracy (véase también: http://www.hmeasure.net/)
Presentaciones adicionales
- Learning curves (Andrew Ng)
- Deciding what to do next revisited (Andrew Ng)
- Error metrics for skew classes (Andrew Ng)
- Trading off precision and recall (Andrew Ng)