Sono l’ultima frontiera dell’IA generativa, la tecnologia non è ancora consolidata, ma già lasciano intravedere enormi potenzialità: sono i large multimodal model (LMM), in grado di combinare le capacità della comprensione del linguaggio, della computer vision e del riconoscimento dell’audio in un unico modello. La artificial general intelligence (AGI) sta facendo un altro, forse decisivo, passo in avanti.
nuove frontiere
Modelli multimodali: cosa fare con l’IA che fonde linguaggio e immagini
I modelli multimodali combinano linguaggio, visione e audio per offrire un’IA generativa avanzata. Possono fornire informazioni, assistenza e avere molteplici applicazioni, ma richiedono dati culturalmente diversificati e devono affrontare rischi di privacy e bias culturali. Lo stato dell’arte e i possibili sviluppi
Fondazione Bruno Kessler, Trento

Continua a leggere questo articolo
Argomenti
Canali