Deze pagina bevat de resultaten van Tacotron 2: An end-to-end speech synthesis system by Google implemented by Rayhane Mamah

Tacotron: Engels

Engelstalig model, getraind met LJ-Speech data.

Omschrijving: LJ-Speech is een dataset met meer dan 23 uur aan gesproken audio van één en dezelfde Engelstaglige mevrouw. Deze dataset wordt door veel implementaties aangeraden om te gebruiken. Om het systeem te leren kennen en de resultaten zelf te kunnen bekijken is er een model getraind met deze dataset. Deze pagina bevat de resulaten.



Trainingsresultaten

Hier staan enkele resultaten van het Engelse model. Tijdens het trainen worden "checkpoints" vastgelegd. Hier kun per checkpoint dezelfde zin horen. De checkpoints worden onderscheiden in het aantal stappen van de training die zijn doorlopen.

40.000 stappen 80.000 stappen 120.000 stappen 140.000 stappen
Text: We are Handpicked agencies, a family of specialised agencies.
Text: We craft digital connections in sports.


Nieuwe stem

Het bovenstaande model is getraind met input dat van één persoon. Als experiment is dit model doorgetrained met slechts een 30 minuten aan data van een ander persoon. Het doel van dit experiment is het onderzoeken hoeveel data en training er nodig is om het model een nieuwe stem aan te leren.

Text: We are Handpicked agencies, a family of specialised agencies.
Text: We craft digital connections in sports.

Wavenet: Engels

Engels model, getraind Tacotron2 op basis van LJ-Speech data.

Omschrijving: Na het trainen van Tacotron met LJSpeech is dit model gebruikt om een Wavenet instantie te trainen. Echter niet met het gewenste resultaat.

Eval Samples

Tijdens het trainen van Wavenet voert hij iedere 10.000 stappen een evaluation proces uit. Dit is het uitvoeren van het uiteindelijke proces, zonder teacher forcing. Hiervoor wordt een test batch gebruikt om het resultaat te kunnen vergelijken met het gewenste resultaat.

300.000 stappen 350.000 stappen 400.000 stappen 450.000 stappen 500.000 stappen
De originele audio bestanden. Wavenet probeert dit te produceren.
Het resultaat van Wavenet.
De visuele vergelijking van de geluidsgolven.


Synthesise Samples

Het bovenstaande model is vervolgens gebruikt om volledige zinnen uit te spreken. Hoor hier het resultaat.

Text: We are Handpicked agencies, a family of specialised agencies.
Text: We craft digital connections in sports.

Tacotron: Nederlands

Nederlandstalig model, getraind met zelfgegenereerde data met luisterboeken van Herman Koch.

Omschrijving: Omdat er niet genoeg Nederlandse data beschikbaar was van één spreker, is er zelf data gegenereerd met luisterboeken van Herman Koch. Herman Koch heeft de boeken ook zelf ingesproken. Na het opschonen van deze data door te korte of lange zinnen eruit te halen is er ruim acht en een half uur aan gesproken data over om mee te trainen.



Trainingsresultaten

Hier staan enkele resultaten van het Nederlandse model. Tijdens het trainen worden "checkpoints" vastgelegd. Hier kun per checkpoint dezelfde zin horen. De checkpoints worden onderscheiden in het aantal stappen van de training die zijn doorlopen.

70.000 stappen 90.000 stappen 110.000 stappen 130.000 stappen
Text: Welkom bij de marathon van Rotterdam