Google’ın yapay zekalı robotları sinema izleyerek yapacaklarını öğreniyor; tıpkı biz insanlarda olduğu benzeri…

Google DeepMind’ın robotlardan sorumlu ekibi, robotlara video izleyerek öğrenmeyi öğretiyor. Ekip, Google’ın Gemini 1.5 Pro üretken yapay zeka modeliyle çalışan RT-2 robotlarının nasıl dolaşılacağını öğrenmek ve hatta varış noktasındaki istekleri yerine getirmek için görüntülerden nasıl bilgi alabildiğini gösteren yeni bir makale yayınladı.
Gemini 1.5 Pro modelinin uzun içerik penceresi sayesinde bir robotun yeni bir stajyer benzeri eğitilmesi mümkün oluyor. Bu pencere, yapay zekanın bol ölçüde bilgiyi aynı anda işlemesine fırsat tanıyor. Araştırmacılar, ev ya da ofis gibi belirlenmiş bir alanın video tipini çektikten sonra, robot görüntüyü izliyor ve çevre hakkında bilgi ediniyor.
Video cinslerindeki detaylar, robotun hem kelamlı hem de görsel çıktıları kullanarak öğrendiği bilgilere dayanarak misyonları tamamlamasını sağlıyor. Bu çalışmanın, robotların etraflarıyla insan davranışına benzeyenbir şekilde nasıl etkileşime girebileceğini göstermenin etkileyici bir yolu olduğu rahatlıkla söylenebilir.
A limited context length makes it a challenge for many AI models to recall environments. 🌐
Powered with 1.5 Pro’s 1 million token context length, our robots can use human instructions, video tours, and common sense reasoning to successfully find their way around a space. pic.twitter.com/eIQbtjHCbW
— Google DeepMind (@GoogleDeepMind) July 11, 2024
Ayrıca Google DeepMind’ın paylaştığı gösterimler, az rastlanan tesadüfler değil. Gemini takviyeli robotlar, pratik testlerde yaklaşık 850 metrekarelik bir alanda çalıştı ve 50’den fazla farklı kullanıcı talimatını yüzde 90 muvaffakiyet oranıyla muvaffakiyetle takip etti. Bu yüksek seviyedeki doğruluk, yapay zeka dayanaklı robotların meskenlerinde ev işlerinde ya da işyerinde kolay ve hatta daha karmaşık vazifelerde yardımcı olmaları için pek çok olasılığın önünü açıyor.
Gemini 1.5 Pro modelinin en dikkat alımlı istikametlerinden biri, çok adımlı misyonları tamamlama yeteneği olabilir. DeepMind’ın araştırması, robotların buzdolabına giderek, içindekileri görsel olarak işleyerek ve akabinde geri dönüp soruyu yanıtlayarak belli bir içeceğin mevcut olup olmadığı sorulara nasıl cevap vereceklerini çözebileceğini de buldu. Bütün bir eylem dizisini planlama ve gerçekleştirme, çoğu robot için mevcut tek adımlı emir standardının ötesine geçen bir anlayış ve uygulama seviyesi sergiliyor.
Ancak bu robotun yakın vakitte satışa sunulmasını beklemeyin. Öncelikle, her bir talimatın işlenmesi 30 saniye kadar sürüyor ve bu da günlük kullanımların büyük bir çoğunluğunda eylemi kendinizin yapmanızın çok daha süratli olacağı manasına geliyor. Yapay zeka modeli epeyce gelişmiş olsa da, gerçek dünyadaki konutların ve ofislerin kaosunda bir robotun gezinmesi, denetimli bir ortamda gezinmekten çok daha zor olacaktır.
Yine de Gemini 1.5 Pro yapay zeka modellerinin robot teknolojisine entegre edilmesi, bu alanda büyük bir atılımı özetliyor. Gemini ya da rakipleri aynıi modellerle donatılmış robotlar sağlık, nakliye ve hatta temizlik vazifelerinin geleceğini değiştirebilir.