NATURAL LANGUAGE PROCESSING AND LARGE LANGUAGE MODELS

ANTONIO GRECO NATURAL LANGUAGE PROCESSING AND LARGE LANGUAGE MODELS

0622700126
DIPARTIMENTO DI INGEGNERIA DELL'INFORMAZIONE ED ELETTRICA E MATEMATICA APPLICATA
CORSO DI LAUREA MAGISTRALE
INGEGNERIA INFORMATICA
2024/2025



ANNO CORSO 2
ANNO ORDINAMENTO 2022
PRIMO SEMESTRE
CFUOREATTIVITÀ
324LEZIONE
324LABORATORIO
Obiettivi
L'INSEGNAMENTO FORNISCE LE CONOSCENZE TEORICHE, METODOLOGICHE, TECNOLOGICHE E PROGETTUALI RELATIVE ALLA COMPRENSIONE AUTOMATICA DEL LINGUAGGIO E DEL TESTO, INQUADRANDO NEL FRAMEWORK GENERALE PER LA REALIZZAZIONE DI SISTEMI DI NATURAL LANGUAGE PROCESSING GLI INNOVATIVI PARADIGMI INTRODOTTI DAI LARGE LANGUAGE MODELS E LE INNUMEREVOLI APPLICAZIONI MODERNE DI TALI TECNOLOGIE.

CONOSCENZA E CAPACITÀ DI COMPRENSIONE
CONCETTI DI BASE SUI SISTEMI DI NATURAL LANGUAGE PROCESSING. MODELLI DI LINGUAGGIO STANDARD. LARGE LANGUAGE MODELS BASATI SU TRANSFORMERS. APPLICAZIONI DI NATURAL LANGUAGE PROCESSING CON LARGE LANGUAGE MODELS. PROMPT ENGINEERING. FINE TUNING DI LARGE LANGUAGE MODELS.

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE
PROGETTAZIONE E REALIZZAZIONE DI UN SISTEMA DI NATURAL LANGUAGE PROCESSING BASATO SU LARGE LANGUAGE MODELS, INTEGRANDO IN MANIERA EFFICACE LE TECNOLOGIE E GLI STRUMENTI ESISTENTI E CONFIGURANDO IN MANIERA OTTIMALE I PARAMETRI DI FUNZIONAMENTO
Prerequisiti
ESAME PROPEDEUTICO: MACHINE LEARNING
Contenuti
UNITÀ DIDATTICA 1: FONDAMENTI DI ELABORAZIONE DEL LINGUAGGIO NATURALE
(ORE LEZIONE/ESERCITAZIONE/LABORATORIO 10/6/0)
- 1 (2 ORE LEZIONE): CONCETTI DI BASE, TASK, EVOLUZIONE ED APPLICAZIONI DELL'ELABORAZIONE DEL LINGUAGGIO NATURALE
- 2 (2 ORE LEZIONE): RAPPRESENTARE UN TESTO, TOKENIZZAZIONE, STEMMING, LEMMATIZZAZIONE, BAG OF WORDS, N-GRAMMI, MISURE DI SIMILARITÀ, WORD EMBEDDINGS
- 3 (2 ORE LEZIONE): VETTORI TF-IDF, CLASSIFICAZIONE E CLUSTERING DI TESTI, WORD EMBEDDINGS
- 4 (2 ORE LEZIONE): RETI NEURALI ED ANALISI DEL TESTO, APPLICAZIONE DI CNN, RETI RICORRENTI E LSTM
- 5 (2 ORE ESERCITAZIONE): REALIZZARE UN CLASSIFICATORE DI TESTI
- 6 (2 ORE LEZIONE): ESTRAZIONE DI INFORMAZIONI DAL TESTO, NAMED ENTITY RECOGNITION E QUESTION ANSWERING
- 7 (4 ORE ESERCITAZIONE): REALIZZAZIONE DI UN SEMPLICE CHATBOT IN PYTHON E SPACY/RASA
CONOSCENZE E CAPACITÀ DI COMPRENSIONE: CONOSCENZA DEI CONCETTI E DELLE TECNICHE DI BASE PER L'ELABORAZIONE DEL LINGUAGGIO NATURALE.
CONOSCENZE E CAPACITÀ DI COMPRENSIONE APPLICATE: APPLICARE I CONCETTI E LE TECNICHE DI BASE ALLA REALIZZAZIONE DI SEMPLICI TOOL DI CLASSIFICAZIONE E ANALISI DEL TESTO.

UNITÀ DIDATTICA 2: TRANSFORMERS
(ORE LEZIONE/ESERCITAZIONE/LABORATORIO 6/10/0)
- 1 (2 ORE LEZIONE): SELF ATTENTION, MULTI-HEAD ATTENTION, POSITIONAL ENCODING, MASKING
- 2 (2 ORE LEZIONE): ENCODER E DECODER DI UN TRANSFORMER
- 3 (2 ORE ESERCITAZIONE): INTRODUZIONE A HUGGINGFACE
- 4 (2 ORE ESERCITAZIONE): ENCODER-DECODER O SEQ2SEQ MODELS (TRANSLATION E SUMMARIZATION)
- 5 (2 ORE ESERCITAZIONE): ENCODER-ONLY MODELS (SENTENCE CLASSIFICATION E NAMED ENTITY RECOGNITION)
- 6 (2 ORE ESERCITAZIONE): DECODER-ONLY MODELS (TEXT GENERATION)
- 7 (2 ORE LEZIONE): DEFINIZIONE E ADDESTRAMENTO DI UN LARGE LANGUAGE MODEL
- 8 (2 ORE ESERCITAZIONE): ADDESTRARE UN LARGE LANGUAGE MODEL
CONOSCENZE E CAPACITÀ DI COMPRENSIONE: CONOSCENZA DEI CONCETTI DI BASE ED AVANZATI SUI TRANSFORMERS.
CONOSCENZE E CAPACITÀ DI COMPRENSIONE APPLICATE: CAPACITA' DI PROGETTARE E REALIZZARE TRANSFORMERS CON DIVERSE ARCHITETTURE ADATTE A RISOLVERE SPECIFICI PROBLEMI REALI.

UNITÀ DIDATTICA 3: PROMPT ENGINEERING
(ORE LEZIONE/ESERCITAZIONE/LABORATORIO 2/4/0)
- 1 (2 ORE LEZIONE): ZERO-SHOT, FEW-SHOT E CHAIN-OF-THOUGHT PROMPTING, SELF CONSISTENCY, GENERATED KNOWLEDGE, PROMPT CHAINING, REACT, RETRIEVAL AUGMENTED GENERATION (RAG)
- 2 (2 ORE ESERCITAZIONE): APPLICAZIONE DELLE TECNICHE DI BASE DI PROMPTING
- 3 (2 ORE ESERCITAZIONE): ESERCITAZIONE SU RAG E LANGCHAIN
CONOSCENZE E CAPACITÀ DI COMPRENSIONE: CONOSCENZA DELLE TECNICHE DI BASE ED AVANZATE DI PROMPT ENGINEERING.
CONOSCENZE E CAPACITÀ DI COMPRENSIONE APPLICATE: APPLICAZIONE DELLE METODOLOGIE E DEI TOOL DI PROMPT ENGINEERING PER RISOLVERE PROBLEMI REALI DI DIVERSA COMPLESSITA'.

UNITA' DIDATTICA 4: FINE TUNING DI LLM
(ORE LEZIONE/ESERCITAZIONE/LABORATORIO 4/4/2)
- 1 (2 ORE LEZIONE): FEATURE-BASED FINE TUNING, UPDATING THE OUTPUT LAYERS, UPDATING ALL LAYERS, PARAMETER EFFICIENT FINE TUNING (PEFT) E LOW RANK ADAPTATION (LORA)
- 2 (2 ORE ESERCITAZIONE): ESERCITAZIONE SU FINE TUNING DI LLM
- 3 (2 ORE LEZIONE): REINFORCEMENT LEARNING WITH HUMAN FEEDBACK (RLHF)
- 4 (2 ORE ESERCITAZIONE): ESERCITAZIONE SU RLHF
- 5 (2 ORE LABORATORIO): PROGETTO FINALE
CONOSCENZE E CAPACITÀ DI COMPRENSIONE: CONOSCENZA DELLE TECNICHE DI BASE ED AVANZATE DI FINE TUNING DEI LARGE LANGUAGE MODELS.
CONOSCENZE E CAPACITÀ DI COMPRENSIONE APPLICATE: APPLICAZIONE DELLE METODOLOGIE DI FINE TUNING PER ADATTARE I LARGE LANGUAGE MODELS A SPECIFICHE APPLICAZIONI DI INTERESSE.

TOTALE ORE LEZIONE/ESERCITAZIONE/LABORATORIO 22/24/2
Metodi Didattici
IL CORSO COMPRENDE LEZIONI FRONTALI ED ESERCITAZIONI IN CLASSE. LE LEZIONI FRONTALI FORNIRANNO AGLI STUDENTI LE CONOSCENZE FONDAMENTALI SULLE PRINCIPALI TECNICHE DI BASE E AVANZATE PER LA RAPPRESENTAZIONE, L'ANALISI E LA CLASSIFICAZIONE DI TESTO IN LINGUAGGIO NATURALE CON LARGE LANGUAGE MODELS. LE ESERCITAZIONI SVILUPPERANNO LA CAPACITÀ DI APPLICARE QUESTE TECNICHE ALLA REALIZZAZIONE DI STRUMENTI DI CLASSIFICAZIONE E ANALISI DEL TESTO E DI QUESTION ANSWERING. LA PARTECIPAZIONE ALLE LEZIONI FRONTALI È OBBLIGATORIA E PER ACCEDERE ALL’ESAME È RICHIESTA UNA FREQUENZA MINIMA DEL 70%. LA PRESENZA SARÀ MONITORATA TRAMITE IL SISTEMA AUTOMATICO EASYBADGE FORNITO DALL’ATENEO.
Verifica dell'apprendimento
L’ESAME CONSISTE NELLA REALIZZAZIONE DI UN PROGETTO DI GRUPPO E IN UNA PROVA ORALE. IL PROGETTO RICHIEDE AGLI STUDENTI DI APPLICARE CRITICAMENTE LE METODOLOGIE APPRESE DURANTE IL CORSO A UN CASO PRATICO. LA PROVA ORALE VALUTERÀ LE COMPETENZE TEORICHE ACQUISITE DURANTE IL CORSO, LA CAPACITÀ DI ARGOMENTARE LE SCELTE PROGETTUALI EFFETTUATE NEL PROJECT WORK E DI RISPONDERE A DOMANDE SU ARGOMENTI SPECIFICI TRATTATI NELLE LEZIONI FRONTALI. IL VOTO FINALE SARÀ DETERMINATO DALLA MEDIA DEI VOTI OTTENUTI NELLE DUE PROVE.
Testi
TESTO DI RIFERIMENTO:
H. LANE, C. HOWARD, H. M. HAPKE: NATURAL LANGUAGE PROCESSING IN ACTION - UNDERSTANDING, ANALYZING AND GENERATING TEXT WITH PYTHON, MANNING.

MATERIALE DIDATTICO INTEGRATIVO SARÀ DISPONIBILE NELLA SEZIONE DEDICATA DELL'INSEGNAMENTO ALL'INTERNO DELLA PIATTAFORMA E-LEARNING DI ATENEO (HTTPS://ELEARNING.UNISA.IT) ACCESSIBILE AGLI STUDENTI DEL CORSO TRAMITE LE CREDENZIALI UNICHE DI ATENEO
Orari Lezioni

  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-11-29]