Wav2vec büyük miktarda etiketlenmemiş ses verisi üzerinden eğitilmiştir. Akustik modellemeyi geliştirmek için kullanılmaktadır. Günümüzde ham ses kayıtlarının gösterimlerini öğrenerek denetimsiz konuşma için ön eğitim araştırmaları yapılmaktadır.

Yeni bir teknoloji olan wav2vec  ham ses kayıtlarını girdi olarak alan ve konuşma sistemine bir gösterim oluşturcak şekilde kodlayan evrişimli bir ağdır.

Bu teknolojide frame odaklı sınırlandırmanın ötesine geçilerek güçlü denetimli ASR sistemlerini geliştirmek için öğrenilmiş gösterimler kullanılmaktadır. Wav2vec, önceki çalışmalarda kullanılan tekrarlayan modellerle karşılaştırıldığında modern donanımlara çok daha kolay uyum sağlayabilen bir mimari alt yapıya sahiptir.

wav2vec ilk temsili
wav2vec konuşma tanıma

WSJ literatürü ile kıyaslandığında deneysel sonuçlar göstermektedir ki  yaklaşık 1000 saatlik etiketsiz konuşmadan elde edilen ön eğitimli gösterimler, karakter temelli bir ASR sistemini önemli ölçüde iyileştirebilmektedir. Ve alanındaki en iyi karakter temelli sonuç olan Derin Konuşma 2 (Deep Speech 2)’den daha iyi performans göstermiş olup WER skorunu %3.10’dan % 2.433’e iyileştirmiştir.

TIMIT’de ön eğitim, ilgili alanda bilinen en iyi sonucu eşleştirmemizi sağlar. Yalnızca sekiz saatlik kopyası alınmış ses verileri içeren düşük kaynaklı bir simülasyonda Wav2vec, sadece etiketli verilere dayanan bir temel modele kıyaslandığında WER’i % 36’ya kadar azaltmaktadır.

Steffen Schneider wav2vec ve ses tanımlama konusunda dünyada en çok çalışma üreten bilim insanlarından biridir. Blog yazıları takip edilebilir.

Geliştirilen bu modelde, ham ses sinyalini girdi olarak alınır ve daha sonra iki ağ olarak uygulanır. Kodlayıcı ağı ses sinyalini gizli bir alana gömer ve bağlam ağı, bağlamsal temsiller elde etmek için kodlayıcının birden fazla zaman adımını birleştirir. Daha sonra her iki ağ da nesnel fonksiyonları hesaplamak için kullanılır.

wav2vec nedir
wav2vec nedir aşamaları nelerdir

Daha büyük verilerle çalışırken, kodlayıcıda iki ek doğrusal transformasyon, artırılmış kapasite ve çekirdek boyutlarını artırılmış 12 katmanlı  çok da geniş bağlama sahip bir ağ içeren bir model varyantı kullanılır.

Wav2Vec Sürecinin Aşamaları

Deşifrasyon aşamasında ise akustik modelden kaynaklanan emisyonların şifresini çözmek için bir sözlük ve aynı zamanda sadece WSJ dil modelleme verilerine özel olarak eğitilmiş farklı bir modelleme dili kullanılmaktadır.

4 gram KenLM dil modeli, kelime temelli evrişimsel dil modeli ve karakter temelli evrişimsel dil modeli dikkate alınmıştır.

Van den Oord ve ark. (2018) ‘ den farklı olarak , önceden eğitimli temsiller, doğrudan aşağı yönde konuşma tanıma adımlarında değerlendirilmiştir. Konuşma tanıma performansı ise WSJ karşılaştırmalarına göre değerlendirerek ölçülmekte ve çeşitli düşük kaynak kurguları simüle edilmektedir. Ayrıca TIMIT  tanıma görevinde değerlendirmekte ve çeşitli modelleme seçenekleri de dışarı çıkarılmaktadır.

wav2vec ses işleme
wav2vec ses algoritması

Ön eğitimli gösterimler, performans seviyesini log-mel filtre bankası karakteristikleri konusunda özel olarak hazırlanmış karakter temelli taban çizgisi üzerine çıkarabilecek bir şekilde artırabilir. Bu, etiketlenmemiş ses verileri üzerinde ön eğitimin, en iyi karakter tabanlı yaklaşım olan Deep Speech 2’yi geliştirebildiği gözler önüne serilmiştir.

Bu metodu daha iyi anlamak için, farklı miktarlarda etiketlenmiş eğitim verisi ile akustik modeller üzerine çalışılmaktadır ve önceden hazırlanmış gösterimler ile (log-mel filtre bankası) ya da bu gösterimler olmadan doğruluk oranları ölçülmektedir.

Wav2Vec Konusunun Geleceği

Operasyonların yapıldığı aşamada Temiz Librispeech’ten oluşan 80 saatlik alt kümesinde ön eğitimler yapılır ve TIMIT üzerinde değerlendirilir. Bunun sonucunda görülmektedir ki negatif örnek sayısının arttırılması sadece on örneğe yardımcı olmuştur. Daha sonra, eğitim süresi uzarken performans platolarının da arttığı gözlemlenmiştir. Bunun olumlu örneklerden alınan eğitim sinyalinin negatif örneklerin sayısının artmasıyla bağlantısı olduğu düşünülmektedir. Bu çalışmada, negatif örnek sayısı hariç her şey eşit tutulmuştur.

Bir sonraki adımda,  ses dizileri kırpılarak veri artırmanın etkisini analiz edilmiştir. Gruplar oluştururken, sekansları önceden tanımlanmış bir maksimum uzunluğa kırpma işlemi gerçekleştirilir. Bu işlemler sonunda bir kırpma boyutunun 150k karede en iyi performansı verdiği ortaya çıkmıştır. Maksimum uzunluğu sınırlamamak (Belirtilmemek) ortalama 207k kare sıra uzunluğu sonucunu vermektedir ve bu durum da en kötü doğruluk oranı ile sonuçlanması anlamına gelmektedir. Bu büyük olasılıkla mevcut ayarların en az miktarda veri artırımı sağlamasından kaynaklanmaktadır.

Bir diğer araştırma sonuçları da göstermektedir ki  gelece için 12’den fazla adımın tahmin edilmesi daha iyi performansla sonuçlanmamaktadır ve tahmin edilecek adım sayısının artırılması da eş zamanlı olarak eğitim süresini artırmaktadır.

Tamamen evrişimsel bir model kullanımı ile meydana getirilmiş konuşma tanıma için  tasarlanmış, denetimsiz ön eğitimin ilk uygulaması olan wav2vec modeli pazara sunulmuştur. Bu yeni yaklaşımda WSJ test setinde % 2,43 WER olarak gözlemlenmiş olup literatürde en iyi istatistik olarak bilinen bir sonraki karakter tabanlı konuşma tanıma modelinden daha iyi performansı bir yandan da iki büyüklük dereceli daha az kopyalanmış eğitim datasını kullanarak elde etmiştir. 

Ön eğitim sürecinde daha fazla verinin kullanılmasının performansı iyileştirdiği gözlemlenmiştir. Bu yaklaşımın yalnızca kaynak açısından zayıf kurgu düzenlerini değil, aynı zamanda tüm WSJ eğitim verilerinin kullanıldığı ayarlara dair sonuçları da iyileştirdiği gösterilmiştir. Gelecekteki çalışmalarda, performansı daha da artıracak farklı mimarilerin araştırılması planlanmaktadır.

Wav2vec gibi teknolojilerin geleceğini merak edenler aynı zamanda yapay zeka tarihi anlatımı hakkında bilgi verdiğim yazımı da linkten okuyabilir.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz