Cognition AI tarafından geliştirilen ve “Devin” adı verilen dünyanın ilk yapay zeka yazılım mühendisi, kendisine verilen görevlerin yüzde 85’inde başarısız olarak beklenilen performansı gösteremedi.
Devin’in Gelişimi ve Beklentiler
2024 yılı başlarında tanıtılan Devin, yazılım mühendislerine destek sağlamak amacıyla tasarlanmış bir otomasyon aracıdır. Başlangıçta büyük umutlarla piyasaya sürülen Devin, özellikle uygulama geliştirme, hata giderme ve API entegrasyonu gibi görevlerde otonom şekilde çalışabileceği vaadiyle dikkat çekti. 2024 Aralık ayında aylık 500 dolarlık abonelik ücretiyle kullanıma sunulmuştu.
Devin, Slack üzerinden komut alıp, Docker tabanlı bir ortamda çalışarak çeşitli yazılım mühendisliği araçlarını kullanabiliyor. Ayrıca, kişisel asistan işlevi görerek yemek siparişi verme gibi görevleri yerine getirebileceği iddia ediliyordu. Ancak yapılan son testler, bu iddiaların gerçeği yansıtmadığını ortaya koydu.
Testler ve Hayal Kırıklığı
Answer.AI adlı araştırma laboratuvarından üç veri bilimcisi, Devin ile 20 farklı görev üzerinde testler gerçekleştirdi. Ancak, bu görevlerin yalnızca üçü başarıyla tamamlandı. Devin, basit görevlerde başarılı olsa da, karmaşık işlemlerde ciddi hatalar yaptı. Örneğin, Railway platformuna uygulama dağıtımı gibi bir görevde, platformun böyle bir özelliği desteklemediğini fark edemedi ve yanlış çözümler sundu.
Araştırmacılar, Devin’in bazı görevlerde umut verici sonuçlar verdiğini kabul etseler de, aracın güvenilir olmaktan uzakolduğunu ve belirli görevlerin başarısızlığını tahmin etmenin mümkün olmadığını vurguladı.
Cognition AI’nin Temel Engelleri
Devin, karmaşık sorunları çözmede büyük zorluklar yaşadı. Temel engelleri fark edemediği ve uygulanabilir olmayan çözümleri zorlamaya devam ettiği belirtiliyor. Devin’in karşılaştığı teknik çıkmazlar, yazılım mühendisliğinde önemli bir yardım aracı olarak kabul edilmesine engel oldu.
Sonuçlar ve Gelecek Beklentisi
Devin’in performansının oldukça hayal kırıklığı yaratmasının ardından, Cognition AI’nin bu yapay zeka yazılım mühendisinin gelişimi üzerinde çalışmaya devam edeceği tahmin ediliyor. Ancak, ilk testlerin ortaya koyduğu sonuçlar, teknolojinin daha yolun başında olduğunu gösteriyor.