Терминология в областта на системите за генериране на реч

Система за генериране на реч е огледален образ­реакцията на системата за разпознаване на речта. Той включва генератор на съобщения под формата на символни низове, ge­неречева реч, която се използва в процеса на преобразуване на низ от символи в някаква акустична имитация на реч, и човекът, който възприема генерираната реч. Системата за генериране на реч винаги функционира в определена среда­споделено от задачата на потребителя.

Подобно на системите за разпознаване, системите за генериране на реч имат­има няколко параметъра. Има два основни метода за генериране - метод за синтез на речта и метод за генериране на re­сигнали, базирани на цифрово представяне. Метод на греха­дразненето включва генериране на реч изцяло според някои­вторият алгоритъм, без да се използва предварителен запис на човешка реч. Използва се терминът „цифрово речево представяне“­се използва в случаите, когато речта на човек е била първоначално­написани цифрово и след това трансформирани и представени­в по-компактен формат за данни. Най-често­Ранените методи (има и други) са преобразуване на Фурие, линейно предсказуемо кодиране и кодиране на параметри на формата на вълната. Тези методи се наричат­също алгоритмичен синтез (използва се за софтуер­излъчване на синтезирана реч) и аналитичен синтез (използва се при генериране от цифрово представяне­когато се използва технология за компресиране на данни) [23].

На фиг. 3.3 представя два разгледани общи принципа­cipa внедряване на системи за генериране на реч. Методът за аналитичен синтез е фокусиран върху получаването на реч в дигитално представяне­както е показано на диаграмата вляво. С алгоритмично синхронизиране­Тази реч използва разнообразни правила за преобразуване на текст­сто или някаква фонетична структура в параметрите на акустичния или гласовия тракт, необходими за генерирането на синтезирана реч.

Друг параметър на системата за генериране на реч е времето­мерки на речника. Системите за генериране на реч могат да бъдат фиксирани­баня или неограничен речник. Системите с фиксиран речник съдържат много използвани думи или фрази­се използват за формиране на съобщения. В системи с неограничен­Неограничен брой синтактично правилни съобщения, изградени от фонеми или фонетични сегменти, могат да бъдат генерирани от даден речник [69, 71]. В цифровите системи ге­За неречева реч се използват само фиксирани речници. В системи, които прилагат метода за синтез на реч, ние използваме­Налични са както фиксирани, така и неограничени речници. Ако потребителят може да променя елементите на речника, тогава се извикват фиксирани речникови системи системи, програми­управляван от потребителя. Фиксирани речникови системи

Фонеми, алофони, дифтонги и др.

Аналогов барабанен магнетофон

Компресиране на цифрови данни с помощта­линейно предсказуемо кодиране­Преобразуване на Фурие, Коди - Форми на вълните и т.н. '

Параметри на гласния тракт

Цифрова реч

Ориз. S3. Техники за генериране на реч ([44] според Симпсън).

Наречен системи, програмирани от доставчика, ако потребителят трябва да се свърже с производителя или с трета страна, за да получи нов речник.

В системите за генериране на реч, базирани на цифрово представяне, може да се внедри неограничен брой различни гласове. Това се дължи на факта, че речникът на такава система зависи от конкретни говорители (от регистрираните хора). Въпреки това, веднага щом за определено приложение се дефинира­говорещ обект, за да се осигури хармонизация на звука­характеристики на гласа му със стандарти­съпруги, които да се формират в системата с участието на този конкретен пишка­Тора. Що се отнася до системата за синтез на реч, нейният речник не зависи от говорещия, но броят на различните видове гласове, получени с помощта на такава система, е ограничен и обикновено варира от един до шест. С помощта на контролна програма, по-голямата част от синтезираното изображение­речта може да се промени в основната честота (възприема се­моята като височина на гласа) и скоростта на речта. Повечето от вас­генерирани индустриални синтезатори на реч
мъжки гласове и само няколко синтезатора възпроизвеждат реч, съответстваща на женски глас. Използване на програми­Някои вариации на диалект и акцент могат да бъдат получени чрез контролиране на произношението на отделни фонеми. Отзиви от Наличните в търговската мрежа системи за генериране на реч съдържат­в произведения [8, 65, 69, 83].

Скорост на данни, разбираемост и естественост на синтезираната реч

Системите за генериране на реч често се оценяват за скорост на предаване на данни, разбираемост и естественост на генерираната реч. Често има неяснота в литературата за генериране на реч по отношение на термина "скорост на предаване на данни", тъй като това може да означава или количеството памет, необходимо за съхраняване на речева информация, или скоростта, с която данните от речта се предават на устройството за възпроизвеждане на реч, или действителната генерирана скорост на възпроизвеждане­реч на Ной [73].

За съжаление понятията „естественост“ и „четливост“ често се бъркат в съвременната техническа документация и науката­Литература на Ной. Четливостта има много точно значение. Той обозначава дела на правилно разпознатото слушане­тяло на речевите елементи. Елементи на речта могат да бъдат думи, изречения, отделни звуци на речта (фонеми) или дори озвучени­приетите акустични свойства на тези фонеми. Работата [36] предоставя изчерпателни препоръки за тестване на системи за генериране и разпознаване за разбираемост на възпроизвежданата реч. Степента на естественост на речта се определя от мнението на­шател, който в определен мащаб на качеството характеризира степента на близост на синтезираните речеви звуци до произведените звуци­носим човек. Разбираемостта и естествеността на речта могат да се измерват независимо, въпреки че няма стандарт [73]­тестове за измерване на степента на естественост на речта. Освен това естествеността и разбираемостта на речта не е задължително да съответстват­религия [87]. Например речта на диктор по радиото може да звучи естествено на фона на постоянен шум, но е трудна за разбиране. Напротив, синтези, добре познати на пилота­изречените предупредителни съобщения може да звучат „механично“, но пилотите оценяват такива съобщения.­като по-разбираема от конвенционалните съобщения по въздушната радио мрежа [73, 81].