Google DeepMind’ın oyun oynayan yapay zekası, kodu daha hızlı hale getirmenin başka bir yolunu buldu
DeepMind, AlphaDev’in keşfini AlphaGo’nun 2016’da büyük usta Lee Sedol’a karşı oynadığı Go maçındaki tuhaf ama kazanan hamlelerinden biriyle karşılaştırıyor. “Bütün uzmanlar bu hamleye baktı ve ‘Bu yapılacak doğru şey değil’ dedi. Bu kötü bir hareket’” diyor Mankowitz. “Ama aslında doğru hamleydi ve AlphaGo sadece oyunu kazanmakla kalmadı, aynı zamanda profesyonel Go oyuncularının kullanmaya başladığı stratejileri de etkiledi.”
Sanders etkilendi, ancak sonuçların aşırıya kaçmaması gerektiğini düşünüyor. “Makine öğrenimi tekniklerinin programlamada giderek daha fazla ezber bozduğuna katılıyorum ve herkes yapay zekaların yakında yeni, daha iyi algoritmalar icat edebileceğini bekliyor” diyor. “Ama henüz tam olarak orada değiliz.”
Öncelikle Sanders, AlphaDev’in montajda mevcut olan talimatların yalnızca bir alt kümesini kullandığına dikkat çekiyor. Mevcut birçok sıralama algoritması, AlphaDev’in denemediği talimatları kullanıyor, diyor. Bu, AlphaDev’i en iyi rakip yaklaşımlarla karşılaştırmayı zorlaştırır.
AlphaDev’in sınırları olduğu doğru. Ürettiği en uzun algoritma, beş öğeye kadar bir listeyi sıralamak için 130 talimat uzunluğundaydı. AlphaDev, her adımda 297 olası montaj talimatı arasından seçim yaptı (çok daha fazlası arasından). Mankowitz, “297 talimatın ve 130’dan fazla talimattan oluşan montaj oyunlarının ötesinde, öğrenme yavaşladı” diyor.
Bunun nedeni, 297 talimatla (veya oyun hamlesiyle) bile, AlphaDev’in oluşturabileceği olası algoritma sayısının satrançtaki olası oyun sayısından daha fazla olmasıdır (10120) ve evrendeki atom sayısı (yaklaşık 1080).
Ekip, daha uzun algoritmalar için AlphaDev’i derleme yerine C++ yönergeleriyle çalışacak şekilde uyarlamayı planlıyor. Daha az hassas kontrol ile AlphaDev belirli kısayolları kaçırabilir, ancak yaklaşım daha geniş bir algoritma yelpazesine uygulanabilir.
Sanders ayrıca, özellikle daha uzun algoritmalar için, insan yapımı en iyi yaklaşımlarla daha kapsamlı bir karşılaştırma görmek istiyor. DeepMind bunun planının bir parçası olduğunu söylüyor. Mankowitz, AlphaDev’i insan yapımı en iyi yöntemlerle birleştirmek ve yapay zekanın sıfırdan başlamak yerine insan sezgisi üzerine inşa etmesini sağlamak istiyor.
Ne de olsa, bulunabilecek daha fazla hızlandırma olabilir. Mankowitz, “Bir insanın bunu yapması için, bu programları gözden geçirmek ve iyileştirmeleri belirlemek için önemli bir uzmanlık ve çok fazla saat (belki günler, belki haftalar) gerekir” diyor. “Sonuç olarak, daha önce denenmedi.”