Wszyscy znamy modele językowe Gemini, w wersjach Pro, Flash czy Lite. Dzisiaj firma Google przedstawiła wersję Gemini o nazwie Robotics, która może działać bezpośrednio na urządzeniach robotycznych. Nowy model charakteryzuje się ogólnym zastosowaniem i szybką adaptacją do różnych zadań.
Gemini Robotics On-Device - najbardziej zaawansowany model VLA zoptymalizowany do pracy bezpośrednio na urządzeniach bez konieczności łączenia się do chmury.
Twórcy udostępnili również Gemini Robotics SDK (zestaw narzędzi programistycznych), który pomaga programistom łatwo testować Gemini Robotics On-Device w ich zadaniach i środowiskach, sprawdzać model w symulatorze fizyki MuJoCo oraz szybko adaptować go do nowych zastosowań przy użyciu zaledwie 50-100 demonstracji.
Gemini Robotics On-Device to podstawowy model robotyczny dla robotów dwuramiennych, zaprojektowany tak, aby wymagał minimalnych zasobów obliczeniowych. Bazuje na możliwościach uogólniania zadań i zręczności modelu Gemini Robotics i charakteryzuje się następującymi cechami:
- Został zaprojektowany do szybkich eksperymentów z precyzyjną manipulacją
- Można go dostosować do nowych zadań poprzez dostrajanie w celu poprawy wydajności
- Jest zoptymalizowany do lokalnej pracy z szybkim przetwarzaniem danych
Chociaż wiele zadań będzie działać od razu po instalacji, programiści mogą również dostosować model, aby osiągnąć lepszą wydajność dla swoich aplikacji. Model szybko adaptuje się do nowych zadań przy użyciu zaledwie 50-100 demonstracji, co pokazuje, jak dobrze ten lokalny model może uogólnić swoją podstawową wiedzę na nowe zadania.
To, jak, budujemy Terminatora?
Źródło:
https://deepmind.google/discover/blog/gemini-...on-device-brings-ai-to-local-robotic-devices/
Co myślą o tym użytkownicy hacker news?
https://news.ycombinator.com/item?id=44366409
- Użytkownicy wyrażają optymizm wobec robotyki humanoidalnej, ale martwią się o niezawodność urządzeń. Jeden z komentujących zwraca uwagę na to, jak cudowne są biologiczne kończyny - potrafią stale wchodzić w interakcje ze światem, zużywać się naturalnie, ale jednocześnie samodzielnie się regenerować.
- Komentujący są podekscytowani lub nieco przestraszeni możliwościami, jakie niesie bliska przyszłość. Jeden z użytkowników zauważa, że początkowo zakładał, iż roboty będą bardzo wyspecjalizowane (jak roboty sprzątające), ale teraz wydaje się, że będą bardzo uniwersalne.
- Szczególnie ekscytujący jest moment, gdy dwa roboty będą mogły naprawiać się nawzajem.
- Jeden z użytkowników, który przez ostatnie miesiące badał VLA (Vision-Language-Action), jest przekonany, że będą one przełomowe - mogą być "momentem ChatGPT dla robotyki". Wyjaśnia, że multimodalne LLM-y już mają wbudowane rozumienie obrazów i tekstu, więc VLA to po prostu zwykłe MMLLM-y dostrojone do wydawania konkretnych sekwencji instrukcji dla robotów.
- Użytkownik ten widzi potencjał zastosowania tej metody w różnych dziedzinach - od inteligentnych kosiarek po pojazdy autonomiczne, a nawet do odśnieżania podjazdu podczas, kiedy właściciel smacznie śpi.
Gemini Robotics On-Device - najbardziej zaawansowany model VLA zoptymalizowany do pracy bezpośrednio na urządzeniach bez konieczności łączenia się do chmury.
Twórcy udostępnili również Gemini Robotics SDK (zestaw narzędzi programistycznych), który pomaga programistom łatwo testować Gemini Robotics On-Device w ich zadaniach i środowiskach, sprawdzać model w symulatorze fizyki MuJoCo oraz szybko adaptować go do nowych zastosowań przy użyciu zaledwie 50-100 demonstracji.
Gemini Robotics On-Device to podstawowy model robotyczny dla robotów dwuramiennych, zaprojektowany tak, aby wymagał minimalnych zasobów obliczeniowych. Bazuje na możliwościach uogólniania zadań i zręczności modelu Gemini Robotics i charakteryzuje się następującymi cechami:
- Został zaprojektowany do szybkich eksperymentów z precyzyjną manipulacją
- Można go dostosować do nowych zadań poprzez dostrajanie w celu poprawy wydajności
- Jest zoptymalizowany do lokalnej pracy z szybkim przetwarzaniem danych
Chociaż wiele zadań będzie działać od razu po instalacji, programiści mogą również dostosować model, aby osiągnąć lepszą wydajność dla swoich aplikacji. Model szybko adaptuje się do nowych zadań przy użyciu zaledwie 50-100 demonstracji, co pokazuje, jak dobrze ten lokalny model może uogólnić swoją podstawową wiedzę na nowe zadania.
To, jak, budujemy Terminatora?
Źródło:
https://deepmind.google/discover/blog/gemini-...on-device-brings-ai-to-local-robotic-devices/
Co myślą o tym użytkownicy hacker news?
https://news.ycombinator.com/item?id=44366409
- Użytkownicy wyrażają optymizm wobec robotyki humanoidalnej, ale martwią się o niezawodność urządzeń. Jeden z komentujących zwraca uwagę na to, jak cudowne są biologiczne kończyny - potrafią stale wchodzić w interakcje ze światem, zużywać się naturalnie, ale jednocześnie samodzielnie się regenerować.
- Komentujący są podekscytowani lub nieco przestraszeni możliwościami, jakie niesie bliska przyszłość. Jeden z użytkowników zauważa, że początkowo zakładał, iż roboty będą bardzo wyspecjalizowane (jak roboty sprzątające), ale teraz wydaje się, że będą bardzo uniwersalne.
- Szczególnie ekscytujący jest moment, gdy dwa roboty będą mogły naprawiać się nawzajem.
- Jeden z użytkowników, który przez ostatnie miesiące badał VLA (Vision-Language-Action), jest przekonany, że będą one przełomowe - mogą być "momentem ChatGPT dla robotyki". Wyjaśnia, że multimodalne LLM-y już mają wbudowane rozumienie obrazów i tekstu, więc VLA to po prostu zwykłe MMLLM-y dostrojone do wydawania konkretnych sekwencji instrukcji dla robotów.
- Użytkownik ten widzi potencjał zastosowania tej metody w różnych dziedzinach - od inteligentnych kosiarek po pojazdy autonomiczne, a nawet do odśnieżania podjazdu podczas, kiedy właściciel smacznie śpi.