Yapay Zeka Tehlike Altındaki Dilleri Nasıl Koruyabilir?

Facebook ve Instagram paylaşımlarını daha az konuşulan küresel dillerde görmek yakında çok daha kolay olacak.

  • | Son Güncelleme:
  • | Yeni Günaydın

Facebook ve Instagram paylaşımlarını daha az konuşulan küresel dillerde görmek yakında çok daha kolay olacak; ancak uzmanlar, Meta'nın bu aracı geliştirmek için anadili İngilizce olan kişilerle konuşması gerektiğini söylüyor.

Whatsapp, Facebook ve Instagram sahibi Meta'nın "No Language Left Behind" (NLLB) projesi kapsamında çok yakında sosyal medya platformlarındaki paylaşımları dünya çapında daha az konuşulan 200 dilde görmek mümkün olacak.

Meta AI, söz konusu projeye ilişkin bu ay yayınladığı bir makalede orijinal teknolojilerini ölçeklendirdiklerini duyurdu.

Proje; İskoç Galcesi, Galiçyaca, İrlandaca, Lingurca, Boşnakça, İzlandaca ve Galce gibi "düşük kaynaklı" diller de dahil tehlike altında olan toplam 200 dili içeriyor.

Meta'ya göre "düşük kaynaklı dil," kullanılabilecek veride bir milyondan az cümle bulunması anlamına geliyor.

Uzmanlar ise Meta'nın bu hizmeti geliştirmek için anadili İngilizce olanlar ve dil uzmanlarına danışması gerektiğini çünkü aracın hala geliştirilmeye ihtiyaç duyduğunu söylüyor.

Proje nasıl işliyor

Meta, yapay zekasını (artificial intelligence-AI), makine öğrenimini programlayabilen çeşitli diller için gerçek konuşma veya yazı metinlerinden oluşan bir koleksiyona sahip açık kaynaklı bir platform olan Opus havuzundaki verilerle eğitiyor.

Veri setine katkıda bulunanlar, bilgisayarlara insan dilini tercüme etme ve anlama yeteneği kazandıran yapay zeka araştırmalarının alt kümesi olan doğal dil işleme (NLP) uzmanları olurken, Meta, veri tabanlarında Wikipedia gibi kaynaklardan çıkarılan verilerin bir kombinasyonunu da kullandıklarını belirtti.

Bu veriler, Meta'nın çoklu dil modeli (MLM) olarak adlandırdığı ve yapay zekanın "İngilizce verilere dayanmadan herhangi bir dil çifti arasında" çeviri yapabildiği bir model oluşturmak için kullanılıyor.

NLLB ekibi, çevirilerinin kalitesini, yine açık kaynak kodlu olarak oluşturdukları insan çevirisi cümlelerden oluşan bir ölçütle değerlendiriyor. Bu liste, insanların yazılıma metin çevirirken filtrelemeyi öğretebileceği "kötü niyetli" kelime veya ifadelerin bir listesini içeriyor.

Son makalelerine göre, NLLB ekibi, 2020'de piyasaya sürülen ilk modellerine kıyasla çevirilerin doğruluğunu yüzde 44 oranında arttırdı.

Meta, teknoloji tam olarak uygulandığında Facebook, Instagram ve diğer platformlarda her gün 25 milyardan fazla çeviri yapılacağını tahmin ediyor.

'İnsanlarla konuşun'

İskoç Galcesi konusunda uzman olan Edinburgh Üniversitesi'nde Gal etnolojisi ve dilbilimi profesörü olan William Lamb, "iyi niyetli olmasına" rağmen Meta'nın İskoç Galcesi çevirilerinin kullanılan kitle kaynaklı veriler nedeniyle "henüz çok iyi olmadığını" belirtti.

İskoç Galcesi, NLLB projesinde Meta tarafından belirlenen "düşük kaynaklı" diller arasında yer alıyor.

İskoçya'da 2022 nüfus sayımınına göre, nüfusun yaklaşık yüzde 2,5'i, yani yaklaşık 130.000 kişi, 13. yüzyıldan kalma Kelt dilini belli ölçüde biliyor. Azınlık dili olduğu Kanada'nın doğusunda da yaklaşık 2.000 kişi Galce konuşuyor.

UNESCO, çok az kişinin düzenli olarak konuşması nedeniyle bu dili yok olma tehlikesiyle karşı karşıya olarak sınıflandırıyor.

Lamb, "Çeviriyi gerçekten geliştirmek istiyorlarsa yapmaları gereken şey insanlarla, hala dili yaşayan ve nefes alan anadili Galce olan kişilerle konuşmak," dedi.

Lamb ayrıca, bunu söylemenin yapmaktan daha kolay olduğunu da sözlerine ekledi. Anadili Galce olanların çoğu 70'li yaşlarında ve bilgisayar kullanmıyor. Lamb'a göre, gençler de "Galce'yi alışkanlık olarak büyükanne ve büyükbabalarının kullandığı şekilde kullanmıyor."

Meta'nın, bu dilde yüksek kaliteli, çevrimiçi içerik oluşturarak dili korumak için çalışan BBC ile bir lisans anlaşması yapması da bir seçenek gibi görünüyor.

'Uzmanlara bırakılması gerekiyor'

İspanya'daki Santiago de Compostela Üniversitesi'nde yapay zeka profesörü olan Alberto Bugarin-Diz, Lamb gibi dilbilimcilerin ellerindeki veri setlerini iyileştirmek için büyük teknoloji şirketleriyle birlikte çalışması gerektiğini düşünüyor.

Bugarin-Diz, "Bunun, metinleri gözden geçirebilecek, düzeltebilecek ve kullanabileceğimiz meta verilerle güncelleyebilecek uzmanlar tarafından yapılması gerekiyor," dedi.

"Beşeri bilimlerden ve mühendisler gibi teknik bir geçmişten gelen insanların birlikte çalışması gerekiyor," diye ekledi.

Bugarin-Diz ayrıca, Wikipedia'yı kullanmanın Meta için bir avantaj olduğunu çünkü verilerin "insan hayatının neredeyse her yönünü" yansıtacağını, yani dilin kalitesinin daha resmi metinler kullanmaktan çok daha iyi olabileceğini de söyledi.

Öte yandan Profesör, Meta ve diğer yapay zeka şirketlerinin internette kaliteli veri aramak için zaman ayırmalarını ve ardından fikri mülkiyet yasalarını ihlal etmeden bu verileri kullanmak için gerekli yasal gereklilikleri yerine getirmelerini öneriyor.

Bu arada Lamb, Meta veri setinde bazı değişiklikler yapmadığı sürece verilerdeki hatalar nedeniyle insanlara dil çeviri aracını kullanmayı önermediğini söyledi.

"Çeviri yeteneklerinin, araçların gerçekten yararlı olduğu noktada olduğunu söyleyemem," diyen Lamb'ın aksine Bugarin-Diz farklı bir duruş sergiliyor.

Aracı kimse kullanmazsa, Meta'nın çevirileri geliştirmek için zaman ve kaynak harcamaya "istekli olmayacağına" inananan Bugarin-Diz, diğer yapay zeka araçları gibi, teknolojiyi kullanmadan önce zayıf yönlerini bilmek gerektiğini düşünüyor.

YORUMLAR

Bu habere henüz yorum yapılmamış.İlk yorum yapan sen ol...

Yorum Yap

Bu Alan Boş Bırakılamaz
Bu Alan Boş Bırakılamaz
Yorum Yapma Şartlarını Kabul Etmediniz