|
Till alla våra webbtjänster använder vi serverbaserad programvara som talsyntes, som även kallas för text-till-tal. Rösterna vi använder tillhandahålls av olika leverantörer men tekniken bakom de olika rösterna har många likheter. Därför vill vi här lite kortfattat berätta om talsyntesens utveckling och historia.
De senaste åren har det skett en enorm utveckling vad gäller kvalitén på tal skapat av talsynteser. Många tror fortfarande att en talsyntes skall låta som robotar i äldre filmer. Sanningen är att en del av de nyaste rösterna kan vara svåra att skilja från inspelat mänskligt tal och tack vare detta har vi de senaste åren sett en väldigt stor breddning av vilka som använder våra tjänster. När vi uppfann talande webb år 2001 var målgruppen i första hand människor med lässvårigheter men nu ser vi att användargruppen är betydligt bredare.
Talsyntesens historia

Vad du kanske inte känner till är att det första syntetiska talet skapades så tidigt som på 1700-talets slut. Maskinen var byggd av trä och läder och var väldigt komplicerad att manöverera för att lyckas skapa hörbart tal. Talmaskinen konstruerades av Wolfgang von Kempelen och hade stor betydelse i de tidiga studierna av fonetic. Bilden till höger är originalkonstruktionen och kan ses på "Deutsches Museum (von Meisterwerken der Naturwissenschaft und Technik)" i München i Tyskland.
Här finns ett ljud-exempel på hur det syntetiska talet lät som denna maskin producerade (WAV-fil 776 kB) . (Först hör man en kvinna säga korta uttryck på tre olika språk och sedan säger maskinen samma sak.)
I tidigt 1900-tal blev det möjligt att använda elektrisitet för att skapa syntestiskt ta. Den första kända elektriska talsyntesen var "Voder" och dess skapare Homer Dudley visade den för en större publik 1939 på VÄrlsdsutställningen i New York.
Här finns en inspelning av hur Voder, den första elektroniska talsyntesen någonsin lät (WAV-fil 381 kB)
En av de pionjärerna inom utvecklingen av talsyntes var Gunnar Fant. Under 50-talet var han ansvarig för utvecklningen av den första svenska talsyntesen OVE (Orator Verbis Electris.) På den tiden var det bara en man vid namn Walter Lawrence och hans "Parametric Artificial Talker" (PAT) som kunde mäta sig med OVE i fråga om talkvalité.
Här är ett exempel på hur talsyntesen OVE lät (WAV-fil 77 kB).
och här är ett exempel på hur talsyntesen PAT lät (WAV-fil 117 kB).
OVE och PAT var s.k. Formant-synteser. Mer om det nedan.
Talsynteser närmar sig mänskligt tal
De största förbättringarna när det gäller naturligt tal har gjorts de senaste 10 åren. De första rösterna vi använde för ReadSpeaker vid lanseringen 2001 var s.k. Difon-synteser. Rösterna är baserade på inspelningar av en riktig röst som sedan delats upp i fonem (minsta byggstenen i det som bildar mänskligt tal). Detta var första exemplet på en konkatinerings syntes. Men dessa talsynteser har fortfarande en stark prägel av att de är artificiella. Vi anvädner fortfarande difon-synteser för vissa mindre språk och de används fortfarande i stor utsträckning som inbyggda röster i handdatorer och mobiltelefoner då de kräver så lite prestanda i form av minnes- och processorkapacitet.
Det var inte förrän den senaste tekniken, Unit Selection, som rösterna på allvar närmat sig inspelat tal. Det är fortfarande frågan om en s.k. konkatinerings-syntes men de byggstenar som kan användas är större än fonem och kan i vissa fall vara hela meningar och uttryck. Vi använder olika leverantörers röster för olika språk för att alltid säkerställa att vi erbjuder den bästa rösten för respektive språk.
Här är webbadresserna till de olika leverantörer av talsyntes som vi samarbetar med för att kunna erbjuda ett så mänskligt tal som möjligt för våra tjänster:
Tekniken bakom talsyntes
Artikulatorisk syntes
I en artikulatorisk syntes är det modeller av mänskliga artikulatorer (tungan, läpparna, tänder, käkarna) och vokala ligamenten som används för att simulera hur ett luftflöde passerar genom, för att räkna ut hur det resulterande ljudet blir. Det är en stor utmaning att hitta bra matematiska modeller och därför är utvecklingen av en artikulatorisk talsyntes fortfarande ett föremål för forskning och utveckling. Tekniken är väldigt processorkrävande men i minnesanvändning behövs nästan ingenting.
Formant
Denna sorts syntes är ett sorts källa-filter-metod baserad på matematiska modeller av det mänskliga talorganet. Luftröret är modellerat from ett antal resonanser med likheter med de formanter (frekvensband med hög energi i röster) som finns i naturligt tal.
De första elektroniska talsynteserna Vocer och senare OVE och PAT talade med ett helt syntetiska och elektroniskt producerade ljud och med formant-teknik. Precis som för en artikulatorisk syntes så är användningen/allokeringen av ramminne lågt medan processoranvändningen hög för en formant-syntes..
Konkatinering
En konkatienrings-talsyntes är baserad på bitar (ljudklipp) av inspelat mänskligt tal som sedan förenas och formas till tal. beroende på hur långa ljudklipp som används så talar vi om en difon eller polyfon talsyntes. Den senare är en mer utvecklad version som även kallas för Unit Selection talsyntes, där syntesen har tillgång till både långa och korta segment/bitar av inspelat tal och det för tillfället bästa segementet för det aktuella innehållet väljs automatiskt.
Difon
För en difon talsyntes är som sagt bitarna av inspelat tal väldigt små. Styrkan i detta fall är att i princip vilken mening eller vilket uttryck som helst kan läsas upp men svagheten är att det däremot ofta blir fel i uttalet. Om den modell som används för prosodi är dålig eller om språket har en egenskap som gör det svårt att skapa en naturlig prosodi så låter talet ofta monotont.
En difon talsyntes fungerar inte så bra i språk där det finns mycket okonsekvens i uttalsreglerna (som i engelskan och svenskan till exempel) och i specialfall där bokstäver uttalas annorlunda än i normalfallet. En difon talsynts fungerar mycket bättre som är konsekvent i hur ord och meningar skall uttalas (exempelvis de latinska språken och finska). En annan fördel är att prosoidin och intonationen kan beskrivas mycket detaljerat.
Unit selection
Den största skillnaden mellan Unit selection och en difon talsyness är längden på de använda segmenten av inspelat tal. Det finns hela ord och fraser sparade i databasen för ljudenheter. Det gör att databasen för en Unit selection talsyntes är flertalet gånger större än för en difon talsyntes. Men då är även minnesförbrukningen/allokeringen stor medan användningen av processorkapacitet är låg.
Den största utmaningen är att behålla en naturlig och smidig prosodi. Detta är svårt eftersom enheterna av ljud innehåller både intonation och uttal eftersom hela fraser används i sin helhet från det inspelade talet. Sedan den första Unit selection talsyntesen lanserades, över åtta år sedan, har denna teknik förfinats och förbättrats med varje ny version av röst som lanserats. Detta är överlägset den mest använda tekniken bland våra leverantörer idag.
HMM talsyntes
En ganska ny teknik är talsyntes baserad på HMM (Hidden Markov Model), en matematisk modell. Det är en statistisk metod där text-till-tal systemet baseras på en modell där det inte är känt på förhand men som förädlas medan genom fortlöpande träning. Tekniken använder stora minnesresurser men lite processorkapacitet på den tekniska plattform den ligger på. Detta förhållningssätt verkar ge en bättre prosodi, utan klick, och som fortfarande genererar väldigt naturligt och mänskligt tal. VI samarbetar även med leverantörer som erbjuder denna teknik.
Anpassningar och förbättringar
Ovanpå det faktum att vi använder de bästa rösterna så lägger vi på vårt eget lager av förbättringar, både generella och kundspecifika. Vi har lingvister med lång erfarenhet av talsynteser som arbetar med transkriptioner och kan justera uttalet och uppläsningen av text. Därför kan vi erbjuda mycket hjälp och service åt kunder som vill göra allt för att kvalitén på hur just deras texter läses upp blir så bra som möjligt. Ibland är det tillräckligt att göra en kvalitetskontroll på ett fåtal timmar på er webbplats för att åtgärda de fel i uttalet vi kan hitta. Ibland är det många varumärken och särskilda uttryck med stor betydelse att de uttalas korrekt.
Ett av de största uttalsanpassningar vi har gjort hittills var en kund som skickade över en lista på 3000 ord som behövde kvalitét-kontrolleras. En annan anpassning var en webbplats med 200 000 sidor där samma akronym eller förkortning skulle läsas ut olika beroende på vilken del av webbplatsen den fanns. Många användare av våra tjänster är förvånade över hur samma röst kan läsa texter bättre med våra tjänster än då den läser samma innehållk med andra programvaror och tjänster. Svaret på det är: Generella och kundanpassade uttalsförbättringar! Vi vill rikta ett tack till Professor Hartmut Traunmüller, Inst. för lingvistik på Stockholms universitet för en hel del av denna sidas fakta, bilden samt de ljud-exempel vi länkat till på denna sida. |