
Gemini Robotics: l'AI incontra il mondo reale

Con i modelli di intelligenza artificiale Gemini Robotics e Gemini Robotics-ER basati su Gemini 2.0, Google DeepMind mira a far progredire la robotica: Il modello di base gestisce compiti fisici, mentre ER risolve problemi complessi in ambienti dinamici.
Google DeepMind vuole creare robot che agiscano e pensino in modo indipendente. Per raggiungere questo obiettivo, l'azienda ha presentato una nuova pietra miliare nella combinazione di intelligenza artificiale (AI) e robotica : i modelli Gemini Robotics e Gemini Robotics-ER (Embodied Reasoning) basati su Gemini 2.0. Entrambi i modelli mirano a rendere i sistemi di AI capaci di agire non solo nel mondo digitale ma anche in quello fisico. Entrambi i modelli mirano a rendere i sistemi di intelligenza artificiale capaci di agire non solo nel mondo digitale, ma anche in quello fisico.
Mentre Gemini Robotics si concentra sulle basi dell'interazione fisica, Gemini Robotics-ER integra queste capacità con il ragionamento logico per problemi complessi. L'attenzione è rivolta allo sviluppo di robot in grado di svolgere compiti autonomi in ambienti dinamici, dalla logistica di magazzino all'assistenza quotidiana.
Tre innovazioni fondamentali stanno guidando lo sviluppo
I progressi di Gemini Robotics si basano su tre pilastri tecnologici:
1. universalità
La capacità di applicare i modelli di IA in modo universale a diversi robot e compiti, senza alcuna personalizzazione. Ad esempio, la stessa IA può controllare sia un braccio robotico nella produzione che un dispositivo mobile nella logistica. L'IA può anche affrontare e padroneggiare situazioni che non sono mai state trattate durante la formazione.
2. interattività
Come Gemini 2.0, Gemini Robotics è intuitivo e interattivo. L'intelligenza artificiale comprende diverse lingue e il linguaggio quotidiano e può rispondere a istruzioni complesse. Poiché monitora continuamente l'ambiente circostante, riconosce i cambiamenti e può reagire ad essi in modo dinamico.
3. destrezza
Il sistema aiuta a manipolare con precisione gli oggetti in spazi 3D. Può afferrare oggetti fragili, piegare la carta o impilare scatole senza alcuna programmazione preliminare.
Capacità migliorate grazie al ragionamento incarnato
Gemini Robotics-ER si basa sui tre fondamenti e integra la capacità di ragionamento logico in tempo reale. L'obiettivo è quello di migliorare in particolare il pensiero spaziale. Il modello è progettato per consentire ai robot di risolvere problemi complessi in ambienti imprevedibili, ad esempio pianificando catene di azioni, stabilendo priorità o riconoscendo relazioni di causa-effetto. Grazie a Gemini, i robot possono anche apprendere abilità completamente nuove attraverso il pensiero spaziale in combinazione con la capacità di programmazione - in altre parole, possono agire in modo intuitivo.

Fonte: Google DeepMind
Se la soluzione a un problema non può essere trovata da sola, il modello può anche seguire una dimostrazione umana per imparare contestualmente.
A lungo termine, i nuovi modelli di intelligenza artificiale saranno utilizzati nell'industria, nei soccorsi in caso di calamità e nell'assistenza quotidiana. Gemini Robotics è destinato ad automatizzare compiti fisici ripetitivi, mentre Gemini Robotics-ER agisce come risolutore di problemi in contesti imprevedibili.


La mia musa ispiratrice si trova ovunque. Quando non la trovo, mi lascio ispirare dai miei sogni. La vita può essere vissuta anche sognando a occhi aperti.