Pierluigi RITROVATO | COMPUTATIONAL GENOMICS

cod. 0622900022

COMPUTATIONAL GENOMICS

	0622900022
	DIPARTIMENTO DI INGEGNERIA DELL'INFORMAZIONE ED ELETTRICA E MATEMATICA APPLICATA
	CORSO DI LAUREA MAGISTRALE
	DIGITAL HEALTH AND BIOINFORMATIC ENGINEERING
	2019/2020

PERCORSO COMUNE

	OBBLIGATORIO
	ANNO CORSO 1
	ANNO ORDINAMENTO 2018
	SECONDO SEMESTRE

MODULI

SSD	CFU	ORE	ATTIVITÀ	TIPO DI ATTIVITÁ FORMATIVA
ING-INF/05	4	32	LEZIONE	CARATTERIZZANTE
ING-INF/05	3	24	ESERCITAZIONE	CARATTERIZZANTE
ING-INF/05	2	16	LABORATORIO	CARATTERIZZANTE

DOCENTI

	PIERLUIGI RITROVATO T Curriculum
	GIORGIO GIURATO Curriculum

	Obiettivi
	Con questo corso, gli studenti saranno introdotti alle tecnologie, alle metodologie e agli strumenti per analizzare i risultati prodotti dalle infrastrutture di Next Generation Sequencing. L'obiettivo principale del corso è quello di consentire agli studenti di conoscere quali sono gli aspetti teorici alla base dei principali algoritmi per l'analisi delle sequenze del genoma e come applicarli per risolvere le nuove sfide per la gestione e l'analisi dei multi-genoma. CONOSCENZA E CAPACITÀ DI COMPRENSIONE Durante il corso, gli studenti acquisiranno conoscenze sulle risorse biologiche e bioinformatiche e su come utilizzarle, su come funzionano le macchine di NGS e su come elaborare i loro risultati, quali sono le metodologie e le tecniche sotto il profilo software ed architetturale alla base dei principali algoritmi per l'analisi dei dati genomici, come utilizzare questi algoritmi per le applicazioni NGS (intero genoma, exoma, trascrittoma, ecc.) e relativa analisi. CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE Gli studenti avranno l'opportunità di applicare direttamente tutte le conoscenze e le competenze acquisite grazie allo sviluppo di un progetto di lavoro su casi reali. In particolare i progetti riguarderanno lo sviluppo di pipelines per l’analisi di dati provenienti dalle linee cellulari tumorali utilizzando le risorse disponibili nel dipartimento, nel laboratorio di Medicina Molecolare e Genomica presso il DIPMED e nel costituendo Centro di Ricerca sul Genoma per la Salute nel campus di Baronissi.

Con questo corso, gli studenti saranno introdotti alle tecnologie, alle metodologie e agli strumenti per analizzare i risultati prodotti dalle infrastrutture di Next Generation Sequencing. L'obiettivo principale del corso è quello di consentire agli studenti di conoscere quali sono gli aspetti teorici alla base dei principali algoritmi per l'analisi delle sequenze del genoma e come applicarli per risolvere le nuove sfide per la gestione e l'analisi dei multi-genoma.

CONOSCENZA E CAPACITÀ DI COMPRENSIONE
Durante il corso, gli studenti acquisiranno conoscenze sulle risorse biologiche e bioinformatiche e su come utilizzarle, su come funzionano le macchine di NGS e su come elaborare i loro risultati, quali sono le metodologie e le tecniche sotto il profilo software ed architetturale alla base dei principali algoritmi per l'analisi dei dati genomici, come utilizzare questi algoritmi per le applicazioni NGS (intero genoma, exoma, trascrittoma, ecc.) e relativa analisi.

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE
Gli studenti avranno l'opportunità di applicare direttamente tutte le conoscenze e le competenze acquisite grazie allo sviluppo di un progetto di lavoro su casi reali. In particolare i progetti riguarderanno lo sviluppo di pipelines per l’analisi di dati provenienti dalle linee cellulari tumorali utilizzando le risorse disponibili nel dipartimento, nel laboratorio di Medicina Molecolare e Genomica presso il DIPMED e nel costituendo Centro di Ricerca sul Genoma per la Salute nel campus di Baronissi.

	Prerequisiti
	Sebbene non formalmente prevista, per garantire il raggiungimento degli obiettivi del corso, è fortemente consigliato l’aver almeno seguito i corsi di [0622900007] Elements Of Biology and [0622900008] elements of medical genetics and genomics.

	Contenuti
	•Unit 1: Introduction to Bioinformatics environment (Th:2h, Lab:8h) oIntroduction to Linux Operating System oIntroduction to Python oIntroduction to R •Biological and Bioinformatics databases and resources -2 (Th:4h Ex:2h ) oGenome sequences databases (Ensembl, GeneBank) oProtein sequences databases (UniProt, SwissProt) oBioinformatics resources (UCSC Genome Browser, Galaxy) oGene Ontology databases oBioinformatics frameworks and tools for databases, ontology and resource usage •Sequence Alignment-3 (Th:4h Ex:2h) oIntroduction to Sequence Alignment oDynamic programming to compare DNA sequences oApplication of Combinatorial Algorithms to analyze DNA Sequences oCommon tools and framework for sequence alignment •Genome Sequencing -4 (Th:10h Ex:8h) oIntroduction to Genome Sequencing oNext Generation Sequencing technologies oBioinformatics Algorithms (Algorithmic Warm-up and Randomized Algorithms) oApplication of Graph Algorithms to assemble genome and variant analysis oApplication of Euler's Theorem to Assemble Genomes •Next Generation Sequencing applications -5 (Th:6h Ex: 4h) oWhole Genome Sequencing oExome Sequencing oTranscriptomics oDe Novo Sequencing oMetagenomics oTools, environments and pipelines for NGS applications •Next Generation Sequence Analysis -6 (Th:4h Ex: 2h Lab: 16h) oIntroduction to Next Generation Sequencing data format oread-to-reference alignment algorithms oBioinformatics methods involved in the analysis of large-scale datasets oFunctional Analysis - Gene Ontology Enrichment Analysis oGenomic Data Science and Clustering oBioinformatics Application Challenges for project work Bioinfoirmatics Application Challenges (BAC) Al fine di applicare direttamente le conoscenze e le competenze acquisite durante il corso, gli studenti saranno organizzati in gruppi per lo sviluppo di una pipeline di bioinformatica utilizzando i dati di sequenziamento da linee cellulari tumorali che comprenda: Caso di studio 1: f.Controllo di qualità delle reads g.Allineamento delle reads rispetto al genoma di riferimento h.Identificazione delle varianti i.Annotazioni delle varianti j.Analisi funzionale dei geni considerando le varianti Caso di studio 2: f.Controllo di qualità delle reads g.Allineamento delle reads rispetto al genoma di riferimento h.Quantificazione dell’espressione dei geni i.Identificazione dell’espressione differenziale dei geni j.Analisi funzionale TOTAL (LECTURE 30h / EXERCISE/PRACTICE 18h / LABORATORY 24h)

Contenuti

•Unit 1: Introduction to Bioinformatics environment (Th:2h, Lab:8h)
oIntroduction to Linux Operating System
oIntroduction to Python
oIntroduction to R
•Biological and Bioinformatics databases and resources -2 (Th:4h Ex:2h )
oGenome sequences databases (Ensembl, GeneBank)
oProtein sequences databases (UniProt, SwissProt)
oBioinformatics resources (UCSC Genome Browser, Galaxy)
oGene Ontology databases
oBioinformatics frameworks and tools for databases, ontology and resource usage
•Sequence Alignment-3 (Th:4h Ex:2h)
oIntroduction to Sequence Alignment
oDynamic programming to compare DNA sequences
oApplication of Combinatorial Algorithms to analyze DNA Sequences
oCommon tools and framework for sequence alignment
•Genome Sequencing -4 (Th:10h Ex:8h)
oIntroduction to Genome Sequencing
oNext Generation Sequencing technologies
oBioinformatics Algorithms (Algorithmic Warm-up and Randomized Algorithms)
oApplication of Graph Algorithms to assemble genome and variant analysis
oApplication of Euler's Theorem to Assemble Genomes
•Next Generation Sequencing applications -5 (Th:6h Ex: 4h)
oWhole Genome Sequencing
oExome Sequencing
oTranscriptomics
oDe Novo Sequencing
oMetagenomics
oTools, environments and pipelines for NGS applications
•Next Generation Sequence Analysis -6 (Th:4h Ex: 2h Lab: 16h)
oIntroduction to Next Generation Sequencing data format
oread-to-reference alignment algorithms
oBioinformatics methods involved in the analysis of large-scale datasets
oFunctional Analysis - Gene Ontology Enrichment Analysis
oGenomic Data Science and Clustering
oBioinformatics Application Challenges for project work

Bioinfoirmatics Application Challenges (BAC)
Al fine di applicare direttamente le conoscenze e le competenze acquisite durante il corso, gli studenti saranno organizzati in gruppi per lo sviluppo di una pipeline di bioinformatica utilizzando i dati di sequenziamento da linee cellulari tumorali che comprenda:

Caso di studio 1:
f.Controllo di qualità delle reads
g.Allineamento delle reads rispetto al genoma di riferimento
h.Identificazione delle varianti
i.Annotazioni delle varianti
j.Analisi funzionale dei geni considerando le varianti
Caso di studio 2:
f.Controllo di qualità delle reads
g.Allineamento delle reads rispetto al genoma di riferimento
h.Quantificazione dell’espressione dei geni
i.Identificazione dell’espressione differenziale dei geni
j.Analisi funzionale

TOTAL (LECTURE 30h / EXERCISE/PRACTICE 18h / LABORATORY 24h)

	Metodi Didattici
	l'insegnamento (72h di lezioni, esercitazioni e attività di laboratorio) è caratterizzato da un setting dinamico, che comprende l'analisi di casi di studio con la partecipazione attiva degli studenti che eseguiranno approfondimenti specifici sull'uso delle tecnologie NGS e degli strumenti e degli schemi di analisi del genoma durante l'implementazione del project work. In particolare, le attività didattiche includeranno lezioni (30 ore), esercitazioni (18 ore) e laboratorio (24 ore) che include anche lo sviluppo del project work. Per lo sviluppo del progetto gli studenti applicheranno le loro conoscenze al fine di scegliere autonomamente le tecnologie più appropriate (strutture, strumenti, ecc.) per risolvere problemi specifici nei domini applicativi previsti (BAC). le attività didattiche saranno supportate dall'uso della piattaforma di e-learning DIEM (http://elearning.diem.unisa.it) per facilitare e stimolare la discussione e il dibattito tra gli studenti, nonché per la notifica e la distribuzione di materiale didattico.

Metodi Didattici

l'insegnamento (72h di lezioni, esercitazioni e attività di laboratorio) è caratterizzato da un setting dinamico, che comprende l'analisi di casi di studio con la partecipazione attiva degli studenti che eseguiranno approfondimenti specifici sull'uso delle tecnologie NGS e degli strumenti e degli schemi di analisi del genoma durante l'implementazione del project work. In particolare, le attività didattiche includeranno lezioni (30 ore), esercitazioni (18 ore) e laboratorio (24 ore) che include anche lo sviluppo del project work. Per lo sviluppo del progetto gli studenti applicheranno le loro conoscenze al fine di scegliere autonomamente le tecnologie più appropriate (strutture, strumenti, ecc.) per risolvere problemi specifici nei domini applicativi previsti (BAC). le attività didattiche saranno supportate dall'uso della piattaforma di e-learning DIEM (http://elearning.diem.unisa.it) per facilitare e stimolare la discussione e il dibattito tra gli studenti, nonché per la notifica e la distribuzione di materiale didattico.

	Verifica dell'apprendimento
	L'esame finale è finalizzato a valutare le conoscenze e la comprensione complessiva dei concetti presentati nel corso, la capacità di applicare tali conoscenze per sviluppare applicazioni specifiche e la capacità di comunicare e presentare il lavoro svolto (abilità comunicative). L'esame consiste in una parte pratica e una prova orale (colloquio). La parte pratica consiste nello sviluppo di un progetto di lavoro da svolgere in gruppi (2-4 studenti) su uno dei due BAC proposti. La prova orale consiste nella presentazione di ciò che è stato raggiunto durante lo sviluppo del lavoro del progetto. Ogni membro del gruppo espone il proprio contributo per la realizzazione del progetto insieme a una discussione sugli strumenti bioinformatici e sulla architettura della pipeline realizzata unitamente ai risultati ottenuti. Nella valutazione finale, espressa con un punteggio di 30/30, la parte pratica peserà per il 65% e l'esame orale per il 35%. La lode (30/30 cum laude) sarà assegnata agli studenti che dimostreranno una piena padronanza di tutti i principali aspetti metodologici e tecnologici affrontati nel corso e come questi possono essere utilizzati per la creazione di applicazioni e soluzioni in diversi domini applicativi insieme con le implicazioni derivanti dal loro uso.

Verifica dell'apprendimento

L'esame finale è finalizzato a valutare le conoscenze e la comprensione complessiva dei concetti presentati nel corso, la capacità di applicare tali conoscenze per sviluppare applicazioni specifiche e la capacità di comunicare e presentare il lavoro svolto (abilità comunicative). L'esame consiste in una parte pratica e una prova orale (colloquio). La parte pratica consiste nello sviluppo di un progetto di lavoro da svolgere in gruppi (2-4 studenti) su uno dei due BAC proposti. La prova orale consiste nella presentazione di ciò che è stato raggiunto durante lo sviluppo del lavoro del progetto. Ogni membro del gruppo espone il proprio contributo per la realizzazione del progetto insieme a una discussione sugli strumenti bioinformatici e sulla architettura della pipeline realizzata unitamente ai risultati ottenuti.
Nella valutazione finale, espressa con un punteggio di 30/30, la parte pratica peserà per il 65% e l'esame orale per il 35%. La lode (30/30 cum laude) sarà assegnata agli studenti che dimostreranno una piena padronanza di tutti i principali aspetti metodologici e tecnologici affrontati nel corso e come questi possono essere utilizzati per la creazione di applicazioni e soluzioni in diversi domini applicativi insieme con le implicazioni derivanti dal loro uso.

	Testi
	COURSE BOOKS COMPUTATIONAL METHODS FOR NEXT GENERATION SEQUENCING DATA ANALYSIS (MANDOIU I AND ZELIKOVSKY A) (2016) BIOINFORMATICS ALGORITHMS - AN ACTIVE LEARNING APPROACH (3RD EDITION - 2018) PHILLIP COMPEAU & PAVEL PEVZNER SUGGESTED BOOKS AND LEARNING MATERIAL HTTPS://EN.WIKIBOOKS.ORG/WIKI/NEXT_GENERATION_SEQUENCING_%28NGS%29 NEXT-GENERATION SEQUENCING DATA ANALYSIS (XINKUN WANG) (2014) BIOINFORMATICS: A PRACTICAL HANDBOOK OF NEXT GENERATION SEQUENCING AND ITS APPLICATIONS BY LLOYD LOW, MARTTI TAMMI 2017

Testi

COURSE BOOKS
COMPUTATIONAL METHODS FOR NEXT GENERATION SEQUENCING DATA ANALYSIS (MANDOIU I AND ZELIKOVSKY A) (2016)
BIOINFORMATICS ALGORITHMS - AN ACTIVE LEARNING APPROACH (3RD EDITION - 2018) PHILLIP COMPEAU & PAVEL PEVZNER

SUGGESTED BOOKS AND LEARNING MATERIAL
HTTPS://EN.WIKIBOOKS.ORG/WIKI/NEXT_GENERATION_SEQUENCING_%28NGS%29
NEXT-GENERATION SEQUENCING DATA ANALYSIS (XINKUN WANG) (2014)
BIOINFORMATICS: A PRACTICAL HANDBOOK OF NEXT GENERATION SEQUENCING AND ITS APPLICATIONS BY LLOYD LOW, MARTTI TAMMI 2017

	Altre Informazioni
	L'insegnamento sarà erogato in lingua inglese.

BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2021-02-19]

Pierluigi RITROVATO | COMPUTATIONAL GENOMICS