Yapay Zeka Verileri Tükendiğinde Ne Yapacağız?

Düşük kaliteli dil verilerinin bile 2030 ve 2050 arasında tükenmesi bekleniyor

13.11.2023 - 15:40
| Son Güncelleme: 13.11.2023 - 15:40
| Yeni Günaydın

Yapay Zeka Verileri Tükendiğinde Ne Yapacağız?

Yapay zeka, popülaritesinin zirvesine ulaşırken araştırmacılar endüstrinin güçlü sistemleri çalıştırmak için ihtiyaç duyduğu kaliteli eğitim verilerinin tükendiğini belirterek uyarıyor.

Bu durum, söz konusu teknolojik sistemlerin ve özellikle de ChatGPT gibi büyük dil modellerinin (LLM) gelişimini yavaşlatabilir. Hatta yapay zeka devriminin gidişatını bile değiştirebilir.

Avustralya'daki Macquarie Üniversitesi'nde öğretim üyesi Rita Matulionyte, The Conversation'da yayımlanan yazısında hızla tükenen veri sorununa ışık tuttu.

"İnternette bu kadar çok veri olduğu göz önüne alındığında bu eksiklik neden sorun olsun ki?" diyen akademisyen, kaliteli verilerin yapay zeka sistemlerinin eğitimi için zorunluluk olduğunu vurguladı.

Akademisyen ayrıca, veri tükenme riskini gidermenin bir yolu olup olmadığını da sorguladı.

Yapay zeka için yüksek kaliteli veriler neden önemli?

Doğru ve işe yarar çıktılar üreten yapay zeka algoritmalarını eğitmek için çok fazla veriye ihtiyaç var. Örneğin ChatGPT, 570 gigabaytlık metin verisi veya yaklaşık 300 milyar kelimeyle eğitildi.

Benzer şekilde, DALL-E, Stable Diffusion ve Midjourney gibi birçok görüntü üretme uygulamasının arkasındaki algoritmaların eğitiminde de, 5,8 milyar görüntü-metin çiftinden oluşan LIAON-5B veri kümesi kullanıldı.

Matulionyte, "Bir algoritma yetersiz miktarda veriyle eğitilirse hatalı veya düşük kaliteli çıktılar üretir" diyor.

Eğitim verilerinin kalitesi de önemli. Sosyal medya gönderileri veya bulanık fotoğraflar gibi düşük kaliteli verilere ulaşmak kolay ama yüksek performanslı yapay zeka modellerini eğitmek için bunlar yeterli değil.

Bunun yanı sıra eğitim için sosyal medya platformlarından alınacak metinler yanlış bilgi veya cinsiyetçi, ırkçı ifadeler içerebilir. Örneğin Microsoft, kendi yapay zeka botunu Twitter içeriğini kullanarak eğitmeye çalıştığında ırkçı ve kadın düşmanı çıktılar ürettiği görülmüştü.

Akademisyen "Yapay zeka geliştiricilerinin kitaplar, makaleler, Wikipedia yazıları ve belirli filtrelenmiş internet içerikleri gibi yüksek kaliteli şeyleri aramasının nedeni bu" ifadelerini kullanıyor.

2026'ya kadar bitebilir

Akademisyene göre yapay zeka endüstrisi, sistemlerini giderek daha büyük veri kümeleri üzerinde eğitiyor. Bu sayede ChatGPT veya DALL-E 3 gibi yüksek performanslı modellere sahibiz.

Ancak araştırmalar, çevrimiçi veri stoklarının, yapay zeka sistemlerinden çok daha yavaş büyüdüğünü gösteriyor.

"Geçen yıl yayımlanan bir makalede bir grup araştırmacı, yapay zeka eğitimindeki mevcut eğilimlerin devam etmesi halinde 2026'dan önce yüksek kaliteli metin verilerinin tükeneceğini öngördü" diyen Matulionyte, sözlerini şöyle sürdürüyor:

Ayrıca düşük kaliteli dil verilerinin bile 2030 ve 2050 arasında, düşük kaliteli görüntü verilerinin de 2030'la 2060 arasında tükeneceğini tahmin ediyorlar.

O zaman ne yapacağız?

Öte yandan bu veri eksikliği riskini gidermenin birkaç yolu olabilir.

Akademisyene göre bu, algoritmaları geliştirerek halihazırda sahip olduğumuz verileri daha verimli kullanmamız için bir fırsat:

Gelecek yıllarda muhtemelen daha az veri ve daha az hesaplama gücü kullanarak yüksek performanslı yapay zeka sistemlerini eğitebilecekler. Bu aynı zamanda yapay zekanın karbon ayak izinin azaltılmasına da yardımcı olacaktır.

Diğer bir seçenek de sistemleri eğitmek için sentetik veriler oluşturmak amacıyla yine yapay zekayı kullanmak.

Matulionyte "Başka bir deyişle ihtiyaç duydukları verileri kendi yapay zeka modellerine uyacak şekilde düzenleyerek kolayca oluşturabilirler" diyor ve ekliyor:

Pek çok proje halihazırda çoğunlukla Mostly AI gibi veri üreten hizmetlerden elde edilen sentetik içerikleri kullanıyor. Bu gelecekte daha yaygın hale gelecektir.

İLGİLİ HABERLER

Yapay Zekada 3 Görselden Biri Çocuk İstismarı!

İnternet İzleme Vakfı (IWF), yapay zeka teknolojisinin çocuk cinsel istismarı nitelikli materyal üretiminde kullanımı üzerine bir rapor yayımladı.

Erdoğan: 'Yapay Zeka Kadınlara Ayrımcılık Yapıyor'

Cumhurbaşkanı Recep Tayyip Erdoğan, Haliç Üniversitesi'nde "Uluslararası Kadın ve Adalet Zirvesi"nde konuştu.

Yapay Zeka İş Dünyasında Devrim Yaratıyor!

Hangi meslekler güvende? Hangileri yok olacak?

Yapay Zeka İnsan Hayatını Tehdit Edebilir!

Araştırma, bulguların yapay zeka sistemlerinin robotlarda nasıl kullanıldığının tamamıyla yeniden düşünülmesi gerektiğine işaret ettiğini savunuyor.

En Popüler 10 Yapay Zeka Aracı Belli Oldu!

OpenAI şirketinin sahibi olduğu ChatGPT, aldığı 2,3 milyar web sitesi ziyareti ile diğer üretken yapay zekalar arasında açık ara ilk sırada yer aldı.

Yapay Zekaya Bu Soruları Asla Sormayın!

Alman araştırmacılar chatbot'ların tıbbi tavsiye verirken ciddi hatalar yapabileceğini ortaya çıkardı.

Hacklenen Robot Süpürgeler Küfretmeye Başladı!

Şikayet edilen seri, Türkiye'de de satılıyor

Yapay Zeka ile Binlerce Yeni Virüs Keşfedildi!

Avustralyalı ve Çinli bilim insanlarının ortak çalışması sonucunda, yapay zeka teknolojisiyle yaklaşık 162 bin yeni virüs türü saptandı.

Yapay Zeka Bizim İçin Fırsat mı Tehdit mi ?

Yapay zeka, teknolojik gelişmelerin etkisiyle değişen dünyada adından sıkça söz ettiriyor. Kimileri bu teknolojiden endişe duyarken, kimileri sunduğu fırsatlardan büyük fayda görüyor.