Ivona raddir fá hæstu einkunn í viðakmikilli gæðarannsókn á talgervlum

Birkir Gunnarsson skrifar

Þegar farið var út í undirbúning að gerð nýs talgervils réðst undirritaður, í samvinnu við forsvarsmenn Blindrafélagsins og Þjónustu- og þekkingarmiðstöðvarinnar, í úttekt á gæðum talgervla (TTS engines á ensku).

Rætt var við framleiðendur eins og. Nuance, Loquendo, Acapela o.fl., gæði radda könnuð og tilboð fengin.

Áður en langt um leið var þó orðið nokkuð ljóst í hugum okkar að Ivona frá Póllandi hefði upp á mikið að bjóða. Okkur fannst enska röddin þeirra bera höfuð og herðar yfir sambærilegar enskar raddir frá keppinautunum. Eftir ítarlegar viðræður, útfyllingu spurningalista og fundahöld þar sem starfsmenn IVONA komu einstaklega vel og fagmannlega að öllu, ákváðum við að velja fyrirtækið til þess að hanna nýju íslensku röddina, og hefur verið gegnið frá samningum þar um og von er á nýjum  íslenskum Ivona talgervli í apríl 2012.

Síðan ákvörðunin var tekin hefur IVONA fengið tvær stórar viðurkenningar:

Raddir frá Ivona voru valdar fyrir fyrstu Android lófatölvuna sem er hönnðuð sérstaklega fyrir blinda notendur. Tölvan, sem kallast Orion, er framleidd af Levelstar í samvinnu við American Printinghouse for the Blind og kemur hún á markað síðar í sumar. Talsmenn Levelstar sögðust hafa gert ítarlegar rannsóknir á áreiðanleika, viðbragðstíma og skýrleika allra þeirra radda sem í boði voru, og enginn vafi hafi leikið á að Ivona bar höfuð og herðar yfir samsvarandi raddir frá öðrum framleiðendum.

Í öðru lagi var að koma út skýrsla um óháða og ítarlega rannsókn á nákvæmni talgervla. Skýrslan var fjármögnuð og unnin af „Voice Information Associates“ en þau samtök sérhæfa sig í talgervlum, talgreinum og öðru sem viðkemur tali og tölvutækni. 

Rannsóknin tók ekki til raddgæðana beinlínis, heldur var rannsakað hvernig talgervlarnir stóðu sig í úrvinnslu á texta, hvort þeir áttuðu sig á sérhæfðum texta svo sem tölum, heimilisföngum, skammstöfunum, orðum úr öðrum tungumálum og gætu gert greinarmun á orðum sem eru skrifuð eins en borin fram mismunandi eftir því í hvaða samhengi þau birtast í texta (sbr. Ási á Á á á), kallast þetta homographs á ensku.

Rannsóknin var gerð í maí, 2011, og var notast við nýustu ensku raddirnar frá AT&T, Acapela, Cepstral, Cereproc, Ivona, Loquendo, Nuance, Microsoft, Neospeech og Svox.

Eitt þúsund og fimmhundruð orðum og orðasamböndum var skipt upp í 7 flokka og talgervlum frá 10 helstu framleiðendum heims var gert að lesa þá. Lesturinn var svo borinn saman við hvernig einstaklingur myndi lesa textann og voru talgervlunum gefin stig eftir hversu nálægt upplestur þeirra komst raunverulegum lestri.

Ivona kom best út með heildareinkunn upp á 9,5 (eða 94,5%) og var hæst í 5 af þeim 7 flokkum sem kannaðir voru. Meðaleinkunn talgervlana var 7,3 (72,6%).

Hér fyrir neðan er tafla með framleiðendum  og einkunn hvers og eins og prósentuhlutfalli.

IVONA - 94,5%.  Neospeech - 88,5%.    Microsoft - 76,9%.   CereProc - 75,8%.  Nuance - 75,5%.

Cepstral - 71,3% . Loquendo - 65,3%.   AT&T - 64,7%.  Acapela - 62,6%.   SVOX - 55,1%.

TTS_accuracy_report_scheme_2011