Investigazione su Allucinazioni, Token Anomali e Allineamento nei Large Language Models (LLMs)

Tipologia

Tesi sperimentale

Disponibile dal

01/11/2023

Altre informazioni

Contesto La recente ricerca di Rumbelow e Watkins (2023) ha rivelato delle anomalie intriganti nel comportamento dei modelli GPT. Hanno scoperto un insieme di "token anomali" che, quando utilizzati come input, generano output peculiari e inaspettati da questi modelli. Inoltre, hanno sviluppato un nuovo metodo di interpretabilità per i modelli di linguaggio. Queste scoperte hanno potenziali implicazioni per l'allineamento AI (AI-alignment), poiché rivelano modalità di fallimento precedentemente non documentate e nuove strategie per estrarre conoscenza e generare input avversari.

Il problema L'esistenza di questi token anomali e il loro comportamento sollevano diverse domande. Perché questi token causano un comportamento così insolito? Come possono essere sfruttate queste anomalie per scopi come la generazione di input avversari o la ricerca automatica di sollecitazioni? Come potrebbero queste scoperte informare le strategie per allineare i sistemi AI con i valori e gli obiettivi umani? Questo progetto di ricerca mira a indagare queste domande e ad approfondire la nostra comprensione di come questi "token anomali" influenzino l'allineamento AI.

Obiettivi 1. Investigare le proprietà delle allucinazioni e dei token anomali nei modelli di linguaggio e il loro impatto sull'allineamento AI. 2. Sviluppare e affinare metodi per la generazione di sollecitazioni che possono trovare in modo affidabile sollecitazioni che portano a un completamento target. 3. Esplorare potenziali strategie per mitigare l'impatto dei token anomali sulle prestazioni dei modelli di linguaggio. 4. Contribuire alla comprensione più ampia dell'allineamento AI e delle sfide che presenta.

Metodologia Analisi dei Token Anomali, sviluppo di metodi per la generazione di sollecitazioni che possono elicere in modo affidabile un completamento target, creazione di strategie di mitigazione sulle prestazioni dei modelli di linguaggio (durante il fine-tuning e/o durante l’inferenza). Analisi di aspetti di AI-alignment.

Stato

Disponibile

Descrizione

Rivolgersi a:

Docente

Luigi Di Caro

Email

luigi.dicaro@unito.it