Verso un’intelligenza artificiale generativa multimodale

Gartner crede che le soluzioni di IA generativa multimodali passeranno da rappresentare l’1% del 2023 al 40% del 2027.

Le soluzioni di intelligenza artificiale generativa saranno sempre più multimodali e se nel 2023 rappresentavano l’1% del totale, entro il 2027 il dato dovrebbe schizzare al 40% di tutte le soluzioni IA.

Questo è il pronostico avanzato dalla società di consulenza Gartner, che si aspetta che questa tecnologia, che interessa testo, immagini, audio e video, avrà un impatto rivoluzionario sulle applicazioni aziendali.

L’IA generativa multimodale migliorerà l’interazione con le persone e offrirà un’opportunità di differenziazione grazie a funzioni altrimenti impossibile.

“Nel mondo reale, le persone trovano e acquisiscono informazioni con una combinazione di diverse modalità, quali audio, visiva e sensoriale”, commenta Erick Brethenoux, vicepresidente analista senior di Gartner.

“L’IA generativa multimodale è importante perché i dati sono tipicamente multimodali”, specifica.

“Quando combiniamo o assembliamo modelli di una sola modalità per supportare applicazioni di IA generativa multimodale, spesso si produce una latenza e risultati meno precisi, il che si traduce in un’esperienza di minore qualità”, spiega.

“Man mano che il mercato dell’IA generativa evolve verso modelli addestrati nativamente in più di una modalità, questo aiuta a captare relazioni tra diversi flussi di dati e ha il potenziale di scalare i vantaggi che l’IA generativa ha su dati e applicazioni”, continua Brethenoux.

“Si permette poi che l’IA aiuti le persone a realizzare più compiti, indipendentemente da contesto in cui si trovino”, sottolinea l’esperto.

Gartner ritiene che l’IA multimodale, proprio come i grandi modelli di linguaggio in open source, farà notare i propri effetti sulle imprese nei prossimi anni.