Vai al Contenuto Vai alla navigazione del sito

ANALISI ESPLORATIVA DEI DATI (010EC)

A.A. 2018 / 2019

Periodo 
Secondo semestre
Crediti 
9
Durata 
60
Tipo attività formativa 
Caratterizzante
Percorso 
[PDS0-2016 - Ord. 2016] comune
Syllabus 
Lingua insegnamento 

Italiano

Obiettivi formativi 

Il corso illustra gli argomenti classici della statistica descrittiva per l’analisi di uno e due fenomeni mediante la trattazione delle proprietà formali di ogni classe di indici statistici e mediante l’utilizzo di strumenti software. In particolare lo studente avrà acquisito conoscenze e strumenti della statistica descrittiva per la rappresentazione e sintesi di insiemi di dati.

Contenuti 

1) Concetti introduttivi Statistica e ricerca empirica. Il metodo statistico nelle scienze sperimentali e osservazionali. Popolazione e campione. Statistica descrittiva e inferenziale. Rilevazioni: caratteri e scale di misura; spoglio dei dati e costruzione di tavole statistiche.

2) Metodi per la descrizione e la sintesi di insiemi di dati statistici Distribuzioni di frequenza e tabelle statistiche. Tecniche di rappresentazione grafica. Il Diagramma ramo-foglie. L'istogramma e il diagramma di frequenze cumulate. Indici di tendenza centrale. Medie analitiche, schema delle medie potenziate, proprietà della media aritmetica. Medie di posizione, moda, mediana. I percentili. Il grafico dei quantili e la funzione cumulata empirica. Indici di variabilità : scarto interquartile, scostamento semplice medio dalla media e dalla mediana, varianza, scarto quadratico medio. Indici relativi di variabilità relativi. I numeri indici(cenni). La concentrazione: definizione, la curva di Lorenz. I momenti, centrali e dall'origine. Misure di eterogeneità (Indice di Gini e indice di entropia). Il diagramma a scatola (box-plot). La simmetria e cenni sulla curtosi. Confronti fra due o più distribuzioni: il diagramma quantile-quantile. La trasformazione di variabili: trasformazioni lineari, la standardizzazione. Modelli teorici per distribuzioni di frequenza. Modelli per distribuzioni discrete e continue. Il modello gaussiano. Uso di grafici quantile-quantile per valutare la conformità dei dati ad un modello teorico.

3) L'analisi delle relazioni fra due variabili statistiche Tabelle di frequenza congiunta. Distribuzioni marginali e condizionate. Media e varianza marginale in funzione delle medie e delle varianze condizionate. Il concetto di indipendenza: probabilistica, in media, in distribuzione. L'analisi della dipendenza con variabile dipendente quantitativa. Box-plot multipli. Il rapporto di correlazione: eta2. Diagrammi di dispersione. Covarianza e correlazione. La funzione di regressione. La funzione di regressione lineare. Il criterio dei minimi quadrati. Indici per la misura dell'adattamento: il coefficiente di determinazione. Metodi diagnostici: analisi dei residui. Funzioni di regressione non lineari e trasformazione delle variabili. Il coefficiente di correlazione semplice. Correlazione spuria e coefficiente di correlazione parziale cenni all'analisi di regressione multipla.

4) Analisi esplorativa di dati statistici attraverso R. Introduzione al linguaggio R. L’uso di R per rappresentazioni grafiche. Box-plot, istogrammi, q-q-plot. Calcolo dei principali indici statistici e uso di funzioni R. Analisi di regressione lineare con R.

Metodi didattici 

Lezioni frontali teorico pratiche ed esercizi con supporto informatico utilizzando il linguaggio di programmazione R

Programma esteso 

1) Concetti introduttivi Statistica e ricerca empirica. Il metodo statistico nelle scienze sperimentali e osservazionali. Popolazione e campione. Statistica descrittiva e inferenziale.Rilevazioni:caratteri e scale di misura;spoglio dei dati e costruzione di tavole statistiche.

2) Metodi per la descrizione e la sintesi di insiemi di dati statistici Distribuzioni di frequenza e tabelle statistiche. Tecniche di rappresentazione grafica. Il Diagramma ramo-foglie. L'istogramma e il diagramma di frequenze cumulate. Indici di tendenza centrale. Medie analitiche,schema delle medie potenziate, proprietà della media aritmetica. Medie di posizione, moda, mediana. I percentili. Il grafico dei quantili e la funzione cumulata empirica. Altri tipi di media. Indici di variabilità : scarto interquartile,scostamento semplice medio dalla media e dalla mediana, varianza, scarto medio assoluto, scarto quadratico medio. Indici relativi di variabilità relativi.I numeri indici(cenni). La concentrazione: definizione, la curva di Lorenz. I momenti, centrali e dall'origine.Misure di eterogeneità (Indice di Gini e indice di entropia). Il diagramma a scatola (box-plot). La simmetria e cenni sulla curtosi. Confronti fra due o più distribuzioni: il diagramma quantile-quantile. La trasformazione di variabili: trasformazioni lineari, la standardizzazione, la trasformazione logaritmica. Modelli teorici per distribuzioni di frequenza. Modelli per distribuzioni discrete e continue. Il modello gaussiano. Uso di grafici quantile-quantile per valutare la conformità dei dati ad un modello teorico.

3) L'analisi delle relazioni fra due variabili statistiche Tabelle di frequenza congiunta. Distribuzioni marginali e condizionate. Media e varianza marginale in funzione delle medie e delle varianze condizionate. Il concetto di indipendenza: probabilistica, in media, in distribuzione. L'analisi della dipendenza con variabile dipendente quantitativa. Box-plot multipli. Il rapporto di correlazione: eta2. Diagrammi di dispersione. Covarianza e correlazione. La funzione di regressione. La funzione di regressione lineare. Il criterio dei minimi quadrati. Indici per la misura dell'adattamento: il coefficiente di determinazione. Metodi diagnostici: analisi dei residui. Funzioni di regressione non lineari e trasformazione delle variabili. Il coefficiente di correlazione semplice. Correlazione spuria e coefficiente di correlazione parziale cenni all'analisi di regressione multipla.

4) Analisi esplorativa di dati statistici attraverso R. Introduzione al linguaggio R. L’uso di R per rappresentazioni grafiche. Box-plot, istogrammi, q-q-plot. Calcolo dei principali indici statistici e uso di funzioni R. Analisi di regressione lineare con R.

Modalità di verifica dell'apprendimento 

L’esame consiste di una prova scritta e una prova orale entrambe le prove vertono su tutto il programma del corso.
In particolare la prova scritta, volta a verificare la capacità di applicare la conoscenza acquisita durante il corso, consiste nella risoluzione di esercizi di statistica univariata, bivariata e sulla variabile casuale normale, sono inoltre presenti due domande dei tipo vero o falso che riguardano l’utilizzo del linguaggio di programmazione R. La prova orale, volta a verificare la conoscenza e la comprensione degli argomenti trattati, consiste nella discussione della prova scritta e in domande di tipo teorico comprese le dimostrazioni presentate a lezione.
Si è ammessi a sostenere la prova orale solo se si è superata la prova scritta.
Per sostenere la prova scritta è obbligatorio effettuare l’iscrizione on-line. Le liste sono chiuse quattro giorni prima della data dell’esame.

Testi di riferimento 

-Posa D., DE Iaco S., Palma M. (2008) Fondamenti di Statistica Descrittiva (seconda Edizione), Giappichelli
- Pauli F., Torelli N., Trevisani M. (2008) Statistica esercizi ed esempi, Pearson Education, Italia.
- Torelli N., Trevisani M. Introduzione all’Analisi Esplorativa dei Dati mediante R (area DOWNLOAD)
• Appunti dalle lezioni e materiale didattico integrativo fornito dal docente.


Torna all'elenco insegnamenti