Vai al Contenuto Vai alla navigazione del sito

ANALISI ESPLORATIVA DEI DATI (010EC)

A.A. 2021 / 2022

Periodo 
Primo semestre
Crediti 
9
Durata 
60
Tipo attività formativa 
Caratterizzante
Percorso 
[PDS0-2016 - Ord. 2016] comune
Syllabus 
Lingua insegnamento 

Italiano

Obiettivi formativi 

Il corso illustra gli argomenti classici della statistica descrittiva per l’analisi di uno e due fenomeni mediante la trattazione delle proprietà formali di ogni classe di indici statistici e mediante l’utilizzo di strumenti software. In particolare lo studente avrà acquisito conoscenze e strumenti della statistica descrittiva per la rappresentazione e sintesi di insiemi di dati.

Contenuti 

1) Concetti introduttivi Statistica e ricerca empirica. Il metodo statistico nelle scienze sperimentali e osservazionali. Popolazione e campione. Statistica descrittiva e inferenziale. Rilevazioni: caratteri e scale di misura; spoglio dei dati e costruzione di tavole statistiche.

2) Metodi per la descrizione e la sintesi di insiemi di dati statistici Distribuzioni di frequenza e tabelle statistiche. Tecniche di rappresentazione grafica. Il Diagramma ramo-foglie. L'istogramma e il diagramma di frequenze cumulate. Indici di tendenza centrale. Medie analitiche, schema delle medie potenziate, proprietà della media aritmetica. Medie di posizione, moda, mediana. I percentili. Il grafico dei quantili e la funzione cumulata empirica. Indici di variabilità : scarto interquartile, scostamento semplice medio dalla media e dalla mediana, varianza, scarto quadratico medio. Indici relativi di variabilità relativi. I numeri indici(cenni). La concentrazione: definizione, la curva di Lorenz. I momenti, centrali e dall'origine. Misure di eterogeneità (Indice di Gini e indice di entropia). Il diagramma a scatola (box-plot). La simmetria e cenni sulla curtosi. Confronti fra due o più distribuzioni: il diagramma quantile-quantile. La trasformazione di variabili: trasformazioni lineari, la standardizzazione. Modelli teorici per distribuzioni di frequenza. Modelli per distribuzioni discrete e continue. Il modello gaussiano. Uso di grafici quantile-quantile per valutare la conformità dei dati ad un modello teorico.

3) L'analisi delle relazioni fra due variabili statistiche Tabelle di frequenza congiunta. Distribuzioni marginali e condizionate. Media e varianza marginale in funzione delle medie e delle varianze condizionate. Il concetto di indipendenza: probabilistica, in media, in distribuzione. L'analisi della dipendenza con variabile dipendente quantitativa. Box-plot multipli. Il rapporto di correlazione: eta2. Diagrammi di dispersione. Covarianza e correlazione. La funzione di regressione. La funzione di regressione lineare. Il criterio dei minimi quadrati. Indici per la misura dell'adattamento: il coefficiente di determinazione. Metodi diagnostici: analisi dei residui. Funzioni di regressione non lineari e trasformazione delle variabili. Il coefficiente di correlazione semplice. Correlazione spuria e coefficiente di correlazione parziale cenni all'analisi di regressione multipla.

4) Analisi esplorativa di dati statistici attraverso R. Introduzione al linguaggio R. L’uso di R per rappresentazioni grafiche. Box-plot, istogrammi, q-q-plot. Calcolo dei principali indici statistici e uso di funzioni R. Analisi di regressione lineare con R.

Metodi didattici 

Lezioni frontali teorico pratiche ed esercizi con supporto informatico utilizzando il linguaggio di programmazione R

Programma esteso 

1) Concetti introduttivi Statistica e ricerca empirica. Il metodo statistico nelle scienze sperimentali e osservazionali. Popolazione e campione. Statistica descrittiva e inferenziale.Rilevazioni:caratteri e scale di misura;spoglio dei dati e costruzione di tavole statistiche.

2) Metodi per la descrizione e la sintesi di insiemi di dati statistici Distribuzioni di frequenza e tabelle statistiche. Tecniche di rappresentazione grafica. Il Diagramma ramo-foglie. L'istogramma e il diagramma di frequenze cumulate. Indici di tendenza centrale. Medie analitiche,schema delle medie potenziate, proprietà della media aritmetica. Medie di posizione, moda, mediana. I percentili. Il grafico dei quantili e la funzione cumulata empirica. Altri tipi di media. Indici di variabilità : scarto interquartile,scostamento semplice medio dalla media e dalla mediana, varianza, scarto medio assoluto, scarto quadratico medio. Indici relativi di variabilità relativi.I numeri indici(cenni). La concentrazione: definizione, la curva di Lorenz. I momenti, centrali e dall'origine.Misure di eterogeneità (Indice di Gini e indice di entropia). Il diagramma a scatola (box-plot). La simmetria e cenni sulla curtosi. Confronti fra due o più distribuzioni: il diagramma quantile-quantile. La trasformazione di variabili: trasformazioni lineari, la standardizzazione, la trasformazione logaritmica. Modelli teorici per distribuzioni di frequenza. Modelli per distribuzioni discrete e continue. Il modello gaussiano. Uso di grafici quantile-quantile per valutare la conformità dei dati ad un modello teorico.

3) L'analisi delle relazioni fra due variabili statistiche Tabelle di frequenza congiunta. Distribuzioni marginali e condizionate. Media e varianza marginale in funzione delle medie e delle varianze condizionate. Il concetto di indipendenza: probabilistica, in media, in distribuzione. L'analisi della dipendenza con variabile dipendente quantitativa. Box-plot multipli. Il rapporto di correlazione: eta2. Diagrammi di dispersione. Covarianza e correlazione. La funzione di regressione. La funzione di regressione lineare. Il criterio dei minimi quadrati. Indici per la misura dell'adattamento: il coefficiente di determinazione. Metodi diagnostici: analisi dei residui. Funzioni di regressione non lineari e trasformazione delle variabili. Il coefficiente di correlazione semplice. Correlazione spuria e coefficiente di correlazione parziale cenni all'analisi di regressione multipla.

4) Analisi esplorativa di dati statistici attraverso R. Introduzione al linguaggio R. L’uso di R per rappresentazioni grafiche. Box-plot, istogrammi, q-q-plot. Calcolo dei principali indici statistici e uso di funzioni R. Analisi di regressione lineare con R.

Modalità di verifica dell'apprendimento 

L’esame consiste di una prova scritta e una prova orale entrambe le prove vertono su tutto il programma del corso.
In particolare la prova scritta, volta a verificare la capacità di applicare la conoscenza acquisita durante il corso, consiste nella risoluzione di esercizi di statistica univariata, bivariata e sulla variabile casuale normale, sono inoltre presenti due domande dei tipo vero o falso che riguardano l’utilizzo del linguaggio di programmazione R. La prova orale, volta a verificare la conoscenza e la comprensione degli argomenti trattati, consiste nella discussione della prova scritta e in domande di tipo teorico comprese le dimostrazioni presentate a lezione.
Si è ammessi a sostenere la prova orale solo se si è superata la prova scritta.
Per sostenere la prova scritta è obbligatorio effettuare l’iscrizione on-line. Le liste sono chiuse quattro giorni prima della data dell’esame.
Eventuali cambiamenti alle modalità qui descritte, che si rendessero necessari per garantire l'applicazione dei protocolli di sicurezza legati all'emergenza COVID19, saranno comunicati nel sito web di Dipartimento, del Corso di Studio e dell'insegnamento. In questo caso l'esame sarà orale volto a verificare la conoscenza acquisita durante il corso e la comprensione degli argomenti trattati con domande teoriche ed esercizi di statistica univariata, bivariata, sulla variabile casuale normale e una domanda dei tipo vero o falso che riguarda l’utilizzo del linguaggio di programmazione R.

Testi di riferimento 

-Posa D., DE Iaco S., Palma M. (2008) Fondamenti di Statistica Descrittiva (seconda Edizione), Giappichelli
- Pauli F., Torelli N., Trevisani M. (2008) Statistica esercizi ed esempi, Pearson Education, Italia.
- Torelli N., Trevisani M. Introduzione all’Analisi Esplorativa dei Dati mediante R (area DOWNLOAD)
• Appunti dalle lezioni e materiale didattico integrativo fornito dal docente.


Torna all'elenco insegnamenti