5
2
1
0
0
Yeni sistemle yarım saatlik bir veri ile yaklaşık 100.000 kelimeyi öğrenebilen sistem, insan sesinden ayırt edilemeyecek kalitede konuşmalar yapabiliyor.

Çinli arama devi Baidu bu yılın başlangıcında ‘DeepVoice’ adı verilen yeni bir sistemi uygulamaya koymuştu. Popüler bir yapay zeka tekniği olan derin öğrenmeyi kullanan sistem, yazılı metinleri konuşmaya çeviren bir sistem oluşturmayı hedefliyordu. Sistemin ilk versiyonu neredeyse gerçek bir insan konuşmasından farksız kısa cümleler oluşturabiliyordu. Bu sistem bir anda bir sesi öğrenebiliyor, her bir sesi ustaca çıkarabilmek için saatlerle ifade edilen veri yığınına ihtiyaç duyuyordu.

Mayıs ayında tanıtılan DeepVoice 2, yarım saatlik bir veri ile ses taklidi yapabilecek aşamaya erişerek, yüzlerce farklı aksanı öğrenebilir hale gelmişti. Baidu bugün DeepVoice’un üçüncü ve son versiyonunu uygulamaya sokuyor. Firmanın söylediğine göre bu versiyon sadece yarım saatlik veri yığını ile 10.000 farklı sesi öğrenebiliyor. Baidu yaptığı açıklamada “geniş aralıkta sesi, etkin şekilde üretebilme imkanının, bir çok kullanım imkanını da beraberinde getiriyor. Örneğin, bir sesli kitap ya da video oyunundaki her bir karakter, daha zengin bir kullanıcı deneyimi sağlamak için kendi özgün sesiyle kullanılabilir” diyor.

Badiu’nun yapmaya çalıştığı şey, çeşitli aksan ya da karakterler arasındaki nüans farklarına hakim olabilecek bir sistem ortaya koymak. “Bu çalışma, sistemin uygulanabilirliği ihtimalini ortaya koyma yolunda gerçekleştirilmiş bir ilk örnek olma özelliği taşıyor. Bizim sistemimiz, daha önce yayınlanan metin-konuşma tabanlı modellerde başarılamayan bir ölçü ve etkinlikte eğitimi hayata aktarıyor. Büyük oranda yüksek kalitede veri setlerini ek makine öğrenimi mühendisliği yöntemleri kullanarak yakın bir gelecekte bu kaliteyi daha da arttırabileceğimize inanıyoruz”

Kaynak : https://www.theverge.com/2017/10/24/16526370/baidu-deepvoice-3-ai-text-to-speech-voice
5
2
1
0
0
Emoji İle Tepki Ver
5
2
1
0
0