fotofotofotofotofoto



immagine esempio

15 Dicembre 2021, 14.30 - Per il ciclo di seminari generali dell'IAC: Mario Santoro (IAC)

2021-12-15

A conclusione della serie dei seminari generali dell'IAC per l'anno 2021, la presentazione di una delle attività scientifiche di un nuovo ricercatore dell'istituto

Il Topic Modeling (TM) è un modello statistico ampiamente utilizzato per dedurre l'organizzazione tematica di documenti testuali. Quando sono disponibili informazioni covariate a livello di documento, il cosiddetto Structural Topic Modelling (STM) è l'approccio attualmente utilizzato per incorporare queste informazioni nell'algoritmo di estrazione degli argomenti. Di solito, gli algoritmi di TM si basano sugli unigrammi (parole singole) come unità di generazione del testo di base, mentre la qualità e l'intelligibilità dei topic a cui si fa rifermento nel testo sarebbero favorite dall'utilizzo di frasemi (es. elementi multi-termine gergali). In questo talk proponiamo i risultati delle nostre ricerche, tra cui il primo algoritmo iterativo per estendere STM con n-grammi e il test della nostra soluzione su dati testuali raccolti da quattro noti marketplace ToR di droghe. Per far ciò utilizziamo un processo di selezione di n-grammi guidato da STM, in modo che le frasi specifiche per argomento possano essere identificate indipendentemente dalla loro rilevanza globale nel corpus. I nostri esperimenti mostrano che l'arricchimento del dizionario con n-grammi selezionati migliora l'usabilità di STM, consentendo la scoperta di informazioni chiave nascoste in un set di dati apparentemente "monotematico".

LINK: https://youtu.be/iBUBPYwHiWU