Sitemize üye olarak beğendiğiniz içerikleri favorilerinize ekleyebilir, kendi ürettiğiniz ya da internet üzerinde beğendiğiniz içerikleri sitemizin ziyaretçilerine içerik gönder seçeneği ile sunabilirsiniz.
Zaten bir üyeliğiniz mevcut mu ? Giriş yapın
Sitemize üye olarak beğendiğiniz içerikleri favorilerinize ekleyebilir, kendi ürettiğiniz ya da internet üzerinde beğendiğiniz içerikleri sitemizin ziyaretçilerine içerik gönder seçeneği ile sunabilirsiniz.
Üyelerimize Özel Tüm Opsiyonlardan Kayıt Olarak Faydalanabilirsiniz
Meta’nın ilk Quest VR Kulaklığı Artık Herhangi Bir Özellik Güncellemesi Almayacak
Hatta konuşmacının ‘duygu ve akustik ortamını’ koruyabilir.
Ars Technica’nın bildirdiğine göre Microsoft, metinden konuşmaya AI alanındaki en son araştırmasını, birinin sesini yalnızca üç saniyelik bir ses örneğinden simüle edebilen VALL-E adlı bir modelle sergiledi. Konuşma sadece tınıyla değil, aynı zamanda konuşmacının duygusal tonuyla ve hatta bir odanın akustiğiyle de eşleşebilir. Bir gün özelleştirilmiş veya üst düzey metin okuma uygulamaları için kullanılabilir, ancak derin sahteler gibi kötüye kullanım riskleri taşır.
VALL-E, Microsoft’un “nöral codec dili modeli” olarak adlandırdığı şeydir. Metin girişinden ses ve hedef konuşmacıdan kısa örnekler üreten Meta’nın yapay zeka destekli sıkıştırma sinir ağı Encodec’inden türetilmiştir.
Bir makalede araştırmacılar, VALL-E’yi Meta’nın LibriLight ses kitaplığındaki 7.000’den fazla konuşmacıdan 60.000 saatlik İngilizce konuşma konusunda nasıl eğittiklerini anlatıyor. Taklit etmeye çalıştığı ses, eğitim verilerindeki bir sesle yakın eşleşmelidir. Durum buysa, istenen metin girişini söylerken hedef konuşmacının sesinin nasıl olacağını anlamak için eğitim verilerini kullanır.
Ekip bunun tam olarak ne kadar iyi çalıştığını VALL-E Github sayfasında gösteriyor. Yapay zekanın “konuşmasını” istedikleri her ifade için, konuşmacının taklit etmesi için üç saniyelik bir istemi, aynı konuşmacının karşılaştırma için başka bir cümleyi söylediği bir “temel gerçeği”, geleneksel metinden konuşmaya sahipler.
Sonuçlar karışık, bazıları kulağa makine benzeri geliyor ve diğerleri şaşırtıcı derecede gerçekçi. Orijinal örneklerin duygusal tonunu koruması, işe yarayanları satan şeydir. Aynı zamanda akustik ortama sadık bir şekilde uyar, bu nedenle konuşmacı sesini bir yankı salonunda kaydettiyse, VALL-E çıkışı da aynı yerden geliyormuş gibi ses çıkarır.
Modeli iyileştirmek için Microsoft, “prozodi, konuşma stili ve konuşmacı benzerliği perspektiflerinde model performansını iyileştirmek için” eğitim verilerini ölçeklendirmeyi planlıyor. Ayrıca net olmayan veya gözden kaçan sözcükleri azaltmanın yollarını da araştırıyor.
Microsoft, muhtemelen yapay zekanın doğasında bulunan ve sözcükleri birinin ağzına sokan riskler nedeniyle kodu açık kaynak yapmamayı seçti. Daha fazla geliştirme konusunda “Microsoft AI İlkelerini” takip edeceğini de sözlerine ekledi. Şirket, sonuç belgesinin “Daha geniş etkiler” bölümünde “VALL-E, konuşmacı kimliğini koruyan konuşmayı sentezleyebildiğinden, modelin yanlış kullanımında ses tanımlama veya kimliğe bürünme gibi potansiyel riskler taşıyabilir” diye yazdı.
Yorum Yaz