Mozilla, “Common Voice” projesi kapsamında 180 lisanda, toplam 30 bin saatlik bilgiyi kullanıma açtı.

Mozilla, 2017 yılında “Common Voice” ismini verdiği bir proje başlatmıştı. Bu proje kapsamında dünyanın dört bir yanından gönüllülerin ses kayıtları toplanmıştı. Projenin amaçladığı ise global olarak kullanılabilecek, ses tanıma yapay zekâ araçlarının eğitilmesini sağlayacak eğitim setleri oluşturmaktı. Proje kapsamında bugüne kadar 180 lisanda 30 bin saatlik konuşma verisi toplanmıştı.
Mozilla bu datayı kimin kullandığına dair çok fazla bilgiye sahip değil, zati ses evrakları da kamuya açık kaynak pozisyonunda bulunuyor. Öte yandan firmadan gelen açıklamalara göre bu bilgileri kullananlar arasında büyük teknoloji firmaları, küçük bağımsız geliştiriciler ve farklı projelerde çalışan ekipler yer alıyor.
Her yerde Mozilla’nın topladığı sesler kullanılıyor

Mozilla’nın Common Voice projesinde topladığı örnekler her projede aynı oranda kullanılmıyor. Örneğin farklı lisanlarda tüzel danışmanlık veren modeller yahut müşteri temsilcisi sohbet botları için data setinin daha küçük modülleri tercih ediliyor. Data setinin şimdiye kadar milyonlarca defa indirildiği belirtiliyor.
Common Voice, farklı kültürlerden ve bölgelerden iştirakçilerin da dahil olmasıyla birlikte büyümeye de devam ediyor. Projeye yapay zekânın gelişmesini isteyen teknoloji meraklıları dışında, kendi lisanlarının yahut kültürlerinin de korunmasını isteyen gruplar büyük ilgi gösteriyor. Örneğin kaybolmaya yüz tutmuş lisanlardan olan Gallerce’nin kayıtlarının tutulması için bu proje Galler tarafından da teşvik ediliyor.
Mozilla ayrıyeten Afrika lisanları için de bir proje geliştiriyor.