danieleproietto92
- 15 mag
- Tempo di lettura: 2 min

I/O 2024: l’annuale keynote di Google, ha spazio solo per l’AI.

Google negli ultimi anni è stata presa alla sprovvista dai nuovi passi avanti dell’AI ad opera di aziende come Microsoft e OpenAI. Ha sentito così l’esigenza di battere un colpo e ha trasformato l’annuale keynote in uno show incentrato esclusivamente sulla sua intelligenza artificiale.

Sono state molte le novità annunciate, incentrate sull’utilizzo dell’AI nella vita di tutti i giorni e in ambito lavorativo. Vediamo gli annunci più importanti:

Gemini Flash e nuova versione di Gemini 1.5 Pro.

Iniziamo con la presentazione del nuovo modello Gemini 1.5 Pro che viene migliorato. Adesso il modello riesce ad essere ancora più preciso nell’analisi ed entro la fine dell’anno verrà aggiornato per gestire 2 milioni di token, rispetto al milione odierno.

Gemini Flash, invece, è la risposta a Phi-3 Mini (ne abbiamo parlato qui): un modello più leggero e meno costoso. Viene alimentato grazie ad un processo a distillazione, ovvero le informazioni essenziali vengono riprese da Gemini 1.5 Pro.

L’AI per i contenuti multimediali.

Sora (OpenAI) e Stable Diffusion (Stability AI) hanno dei nuovi concorrenti. Google ha annunciato VEO: un modello che riesce a produrre, a partire da un prompt testuale, video di circa un minuto in HD. Veo simula scene con una fisica più realistica e sarà possibile specificare particolari riprese video, come timelapse e panning.

Imagen 3 sarà il concorrente di Stable Diffusion (Stability AI) e Midjourney con DALL-E (Open AI). Google promette immagini fotorealistiche con meno artefatti rispetto ai suoi avversari e con una comprensione molto più precisa di prompt testuali anche complessi.

Anche la musica non è esente. Google ha presentato Music AI che consente la creazione di musica da prompt testuali.

Project Astra e Gemini Live.

Project Astra è uno degli annunci più interessanti. La demo ha mostrato l’applicazione di Gemini alla fotocamera dello smartphone. In pratica Gemini sarà in grado di analizzare e tenere traccia delle immagini in live video e di parlare contemporaneamente all’utente. In questo caso sarà possibile interagire con un assistente vocale che vedrà quello che vedremo anche noi in tempo reale, con tutti i cambiamenti che ne conseguono.

Gemini Live sarà, invece, lo strumento col quale ci si potrà interfacciare con Gemini attraverso la voce, con un approccio più umano e che probabilmente troverà spazio sugli smartphone.

Anche il sistema operativo Android, l’OS mobile più utilizzato al mondo, avrà un’integrazione profonda con Gemini e l’AI. Gli smartphone Android saranno in grado di utilizzare le ultime novità di Gemini per aiutare sempre di più l’utente, come ad esempio ascoltare una telefonata sconosciuta e metterci in guardia di un potenziale spam o phishing in corso.

Questi sono solamente una parte dei numerosi annunci. Vedremo nei prossimi mesi se effettivamente l’AI di Google aiuterà l’utenza Android e a quale prezzo (vedi privacy) e come si posizioneranno gli strumenti di Gemini nell’eterna lotta tra le AI delle aziende. Vedremo soprattutto se Google rispetterà la mission che si è data durante questa presentazione: rendere l’AI più accessibile e utile per tutti.