Statistique en grande dimension
6 ECTS | Enseignant : Stéphane Boucheron | Validation : CC + examen
Horaires hebdomadaires : 2h CM, 1h TD | Durée : 10 semaines
Mutualisé avec : M2 MIDS
Site web : http://stephane-v-boucheron.fr/courses/mmd/
Moodle : https://moodle.u-paris.fr/enrol/index.php?id=7947
Titre complet : Algorithmique des données massives
Usage des méthodes randomisées en traitement des données massives et en traitement des flots de données (streaming). Familiarisation avec Spark. Articulation estimation/optimisation.
Objectifs
- Maîtriser les méthodes randomisées pour le traitement des données massives
- Se familiariser avec le traitement des flots de données (streaming)
- Utiliser Spark pour les applications pratiques
- Comprendre l’articulation entre estimation et optimisation
Programme
1. Plus proches voisins en grande dimension
- Locally sensitive hashing et au-delà
- Applications aux données textuelles (Spark ML Feature Extraction)
2. Compressed sensing
- Reconstruction parfaite des signaux parcimonieux par pénalisation ℓ1
- Algorithmes (LASSO, AMMD, Coordinate descent, …)
3. Données de streaming
- Échantillonnages
- Comptage approximatif (Hyperloglog, Spark SQL)
4. Estimation robuste
- Enjeux
- Median of Means
- Relaxation SDP
Modalités
Cours en présentiel avec site web et Moodle dédiés.
Bibliographie
- Arnold, T. & Tilton, L. (2015). Humanities data in R: exploring networks, geospatial data, images, and text. Berlin : Springer.
- Bandeira, A. S. (2015). Ten lectures and forty-two open problems in the mathematics of data science. Lecture Notes.
- Blum, A., Hopcroft, J., & Kannan, R. (2016). Foundations of data science. Vorabversion eines Lehrbuchs.
- Boucheron, S., Lugosi, G., & Massart, P. (2013). Concentration inequalities: A nonasymptotic theory of independence. Oxford : Oxford University Press.
- Chambers, B. & Zaharia, M. (2018). Spark: the definitive guide: big data processing made simple. Sebastopol : O’Reilly Media, Inc.
- Foucart, S. & Rauhut, H. (2013). A mathematical introduction to compressive sensing. Boston : Birkhäuser.
- Leskovec, J., Rajaraman, A., & Ullman, J. D. (2014). Mining of massive datasets. Cambridge : Cambridge University Press.
- Lugosi, G. (2017). Lectures on Combinatorial Statistics. St. Flour.
- Moitra, A. (2018). Algorithmic aspects of machine learning. Cambridge : Cambridge University Press.
- Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science. Cambridge : Cambridge University Press.