Diffusion-based Vocoding for Real-Time Text-To-Speech
Vid sidan av strävan att uppnå AI-modeller som kan skapa extremt verklighetstrogna texter och bilder existerar även målet att kunna generera mänskligt tal. Målet med detta område, kallat "talsyntes", är att skapa en syntetisk mänsklig röst som har förmågan att läsa upp en given text. Detta kan t.ex. användas i automatiserad kundtjänst eller för personliga assistenter. Själva problemet haThe emergence of machine learning based text-to-speech systems have made fully automated customer service voice calls, spoken personal assistants, and the creation of synthetic voices seem well within reach. However, there are still many technical challenges with creating such a system which can generate audio quickly and of high enough quality. One critical component of the typical text-to-speech
