YouTubes ondertiteling is niet al te best. Zeker als je de Nederlandse ondertiteling aanzet, dan kun je opmaken voor een flink potje lachen, want de woorden die YouTube soms in teksten hoort en die daar totaal niet inzitten, zijn legio. YouTube weet dat zelf ook, waardoor het nu de hulp van kunstmatige intelligentie inroept om de voice over beter te maken. Een beetje TikTok-stijl, maar dan anders.
Het maakt daarbij gebruik van de slimmigheden van Googles incubator Area 120, dat inmiddels team Aloud is geworden. Dat is namelijk het brein achter die AI-voice-over. De tool transcribeert de tekst in je video eerst, waarschijnlijk zoals YouTube dat nu ook al doet, maar dan dus iets slimmer. Vervolgens krijg je te zien wat het ervan heeft gemaakt en dat kun je dan nog aanpassen. Daarna vertaalt het de tekst en wordt er een een voice over van gemaakt.
Het heeft duidelijk inspiratie genomen van TikTok, dat een zeer goede dub heeft. De bekende vrouwenstem die de tekst opleest die in beeld staat, die kennen we inmiddels allemaal. Zou YouTube ook zo’n eigen geluid hebben straks, met de hulp van Area 120? In ieder geval lijkt het een done deal: YouTube test de nieuwe tech al met honderden creators. Het is nog niet mogelijk om het in alle talen te gebruiken, maar een aantal talen, waardoor we het niet snel verwachten voor onze Nederlandse taal. Het is er nu in Engels, Spaans en Portugees. Wel handig: je kunt straks als creator een voice-over krijgen in een andere taal en dan een heel ander publiek aanboren.
TheVerge geeft ook een voorbeeld van hoe zo’n dub ongeveer klinkt: je kunt het horen in de bovenstaande video van de Amoeba Sisters, die van zichzelf geen Spaans spreken. Je hoort wel een duidelijk verschil (je moet daarvoor naar het tandwiel en dan Audiotrack om de Spaanse variant te selecteren), maar op zich blijft de video wel overeind. Het is niet storend. Misschien is het wel storend wanneer een influencer zelf in beeld is en praat en er dan ineens zo’n heel andere taal in een heel ander ritme doorheen komt, dat hebben we nog niet gezien.
Het plan is wel dat het niet een standaard stem wordt zoals we kennen van TikTok: het idee is juist dat de stemmen steeds meer moeten klinken zoals de originele stem. En ook dat het dus minder robotisch klinkt, maar er iets meer gevoel in wordt gelegd. Zo komt enthousiasme ook écht enthousiast over, om maar iets te noemen. Echter hoeven we dat dit jaar niet meer te verwachten: dat komt echt pas in 2024.