Insegnamento:

FUNDAMENTALS OF DATA SCIENCE AND LABORATORY (obiettivi)

Codice

1047264

Lingua

ENG

Tipo di attestato

Attestato di profitto

Crediti

Settore scientifico disciplinare

INF/01

Ore Aula

Ore Laboratorio

Ore Studio

Attività formativa

Attività formative caratterizzanti

Canale Unico

Docente	GALASSO FABIO (programma) The course is an introduction to the basic toolkit of data analysis and machine learning using the Python programming language. Covered topics include: basics of digital image processing (8 hours); regression (6 hours); classification with discriminative and generative models (16 hours); optimization (8 hours); bias/variance (6 hours); regularization (5 hours); clustering (3 hours); dimensionality reduction (3 hours); introduction to neural networks (5 hours). The lab part of the course introduces: the basics of Python (5 hours); Numpy (5 hours); data structures and Pandas (5 hours); plotting (5 hours); Scikit-learn (5 hours); and sample programming of machine learning models from the course (5 hours). - Bertsimas, O'Hair, Pulleyblank. The Analytics Edge. From the editor or on Amazon. - Christopher M. Bishop, 2006. Pattern Recognition and Machine Learning - Richard Szeliski, 2010. Computer Vision: Algorithms and Applications (available at: http://szeliski.org/Book)
Date di inizio e termine delle attività didattiche	-
Date degli appelli	Date degli appelli d'esame
Modalità di erogazione	Tradizionale
Modalità di frequenza	Non obbligatoria
Metodi di valutazione	Prova scritta Valutazione di un progetto

Docente	PANNONE DANIELE (programma) Parte I Introduzione al linguaggio Python. Tipi di dato base (liste,tuple, numeri, stringhe). Input dall'utente. Conversione di tipi. Iterazioni su liste. Espressioni booleane e condizionali. Operatori logici. Definizione e utilizzo di funzioni. Slicing di liste, list comprehension e funzione zip(). Introduzione ai notebook Jupyter. Parte II Introduzione a Numpy. Differenze tra array Numpy e liste standard. Creazione e inizializzazione di array. Definizione del tipo di array e attributi. Accesso alle posizioni degli array, array slicing. Array multidimensionali e relativo accesso/slicing. Operazioni su array: reshape, concatenation, splitting. Vettorizzazione e ufuncs. Ufuncs come funzioni o operatori. Specifica dell'output delle ufuncs. Aggregazione con reduce(). Funzioni di aggregazione: max, min, mean, etc. Broadcasting. Comparazioni, array booleani, maschere. Fancy indexing. Structured arrays. Parte III Introduzione a Pandas. Introduzione agli oggetti di Pandas: Series, Dataframes e Index. Selezione dei dati e indexing. Operazioni in Pandas: ufuncs in Series e Dataframes. Hierarchical indexing. Multiindex e slicing con multiindex. Unire datasets: concat, append, merge. Join uno a uno, uno a molti, molti a molti. Specifica della chiave di merging. Parte IV Introduzione al Machine Learning. Differenza tra apprendimento supervisionato, non supervisionato e semi-supervisionato. Differenza tra classificazione e regressione. Introduzione a Scikit-Learn e come utilizzarlo. Iperparametri e validazione del modello. Cross validation. Leave one out validation. Overfitting. Introduzione ai classificatori noti: Naïve Bayes, Linear Regression, Support Vector Machine. Python Data Science Handbook, Jake VanderPlas
Date di inizio e termine delle attività didattiche	-
Modalità di erogazione	A distanza
Modalità di frequenza	Non obbligatoria
Metodi di valutazione	Prova scritta