Vai al contenuto principale
Tipologia
Tesi sperimentale
Argomento
Sviluppo di un Large Language Model Multilingua per il Dominio Legale
Disponibile dal
01/11/2023
Altre informazioni

Introduzione: L'obiettivo di questa tesi è sviluppare un Large Language Model (LLM) multilingua specifico per il dominio legale. Questo modello sarà progettato per essere utilizzato in diversi downstream tasks, tra cui classificazione, ranking e textual similarity, al fine di migliorare l'efficienza e l'accuratezza delle attività legate al settore giuridico. I testi legali costituiscono una risorsa fondamentale per questa iniziativa e saranno reperiti sul portale EUR-Lex. Questo portale offre un vasto corpus di testi legali nelle 24 lingue ufficiali dell'Unione Europea, offrendo così una base di dati ricca e diversificata per l'addestramento del modello.

Obiettivi: 1. **Raccolta di Dati**: Raccogliere una vasta quantità di testi di natura legale dal portale EUR-Lex, garantendo una rappresentazione equilibrata delle diverse lingue ufficiali dell'Unione Europea. 2. **Pre-processing dei Dati**: Effettuare un pre-processing dei dati per rendere i testi pronti per l'addestramento del modello. Questo potrebbe includere la rimozione di metadati, la standardizzazione dei formati, la pulizia dei testi e l’analisi di categorie. 3. **Allineamento delle Lingue**: Sviluppare metodi per trovare corrispondenze tra i paragrafi nelle diverse lingue, al fine di creare un corpus multilingua coerente e allineato. 4. **Addestramento del Large Language Model**: Utilizzare i dati preparati per addestrare un Large Language Model specifico per il dominio legale. Si potranno esplorare diverse architetture, tra cui Sentence-Transformers. 5. **Valutazione e Testing**: Testare il modello addestrato su diversi downstream tasks, come classificazione di documenti legali, ranking di rilevanza e valutazione della similarità tra testi. Valutare le prestazioni del modello in ciascuna di queste attività. 6. **Analisi e Conclusioni**: Analizzare i risultati ottenuti e trarre conclusioni sull'efficacia del modello multilingua specifico per il dominio legale. Discutere le implicazioni e le applicazioni potenziali di un tale modello nel settore legale. 

Rivolgersi a:

Docente
Luigi Di Caro
Email
luigi.dicaro@unito.it
Ultimo aggiornamento: 01/11/2023 11:51
Location: http://informatica.unito.it/robots.html
Non cliccare qui!