Распознавание речи Печать

Вернуться к оглавлению

Распознавание речи это автоматическое отнесение единицы речи к заранее выделенным в ней признакам, близким к классификации, осуществляемой человеком.
speech

За кажущейся несерьезностью диалога с компьютером скрывается не только очень большая работа ученых многих специальностей - лингвистов, логиков, математиков, программистов, но и значительность решаемой задачи. Ведь проблема распознавания речи чрезвычайно серьезна, играет огромную роль в общении человека с машиной.

Речевое, столь привычное, естественное для человека управление объектами открыло бы широкие перспективы перед автоматизацией производства; раздвинуло бы границы возможностей общения с машинами, особенно пользователей персональных компьютеров, не знающих языков программирования. Речевой контакт облегчает ввод данных в машину, помогает работать человеку и компьютеру в реальном масштабе времени: человек сказал - машина сделала.

Чтобы машина научилась понимать человеческий язык, отвечать на вопросы, исследователи затрачивают много сил и времени, начиняя ее гигантской информацией даже для того, чтобы распознавать отдельные звуки.

У каждого звука сложная волновая структура, включающая различные частоты и колебания, к тому же, естественно, одно и то же слово разные люди произносят по-своему: разный тембр голоса (звуковая окраска), разные интонации, разная чистота произношения. Сколько людей, столько и голосов. Голос - индивидуальный признак личности, такой, как почерк и отпечатки пальцев.

Чтобы научить машину узнавать речь, ее заставляют прослушивать слова, произнесенные и одним человеком, и разными людьми. Задача машины - прослушав, усреднить особенности произношения, свести на нет индивидуальность, чтобы потом, услышав слово, не ошибиться.

Что же происходит в машине во время прослушивания? То же, что при разговоре по телефону или радио: звуковые колебания преобразуются в электрические. В специальных «решетах» - фильтрах - они «просеиваются» по частоте. Затем в машинной памяти по строго определенному узору сигналов сравниваются с хранящимися там эталонами. Этот узор картина звука - и есть тот усредненный звук, который научилась узнавать машина.

Анализ узора - работа довольно утомительная и однообразная. Например, при одном эксперименте испытуемый 100 раз произнес букву «А». Она фиксировалась все 100 раз 14 вариантами произношения, или картинами. Потом картины сравнили по частоте появления. Оказалось, из 14 вариантов чаще всего встречается одна картина. Именно этот узор и записали в памяти машины.

Компьютеру не понятен ни один живой язык. Даже такая фраза: «Компьютер, слушай мою команду» - сложна для машины. А слова-омонимы, звучащие совершенно одинаково, но имеющие разный смысл? А образы, гиперболы, сравнения? Как передать их машине, машинному разумению?

Машина негибка, неповоротлива в восприятии слов. Для нее недоступно образное мышление: только сухая логичность, только строгая однозначность, только неумолимая точность - никакой свободы, никаких полутонов, никакой иносказательности! Еще несовершенны системы распознавания и синтеза речи.

Разными способами действуют ученые, разные педагогические приемы применяют они к своим металлическим ученикам. Ныне считают, что система, предназначенная вести диалог с человеком, должна обладать знаниями языка, описанными в модели языка, знаниями об окружающем мире - их представляет модель окружающего мира, система должна знать и собеседника, то есть иметь модель пользователя. Системе нужны сведения о ней самой - значит, необходима модель системы.

Этим сложным требованиям способна ответить машина, работающая по программам искусственного интеллекта и, как мы уже знаем, понимающая обращение к ней, например, на языке деловой прозы.

Деловая проза, выделившись из живого языка, действует в строго определенной сфере, так что модель действительности уже заложена в самой деловой прозе. К тому же она упрощена, уточнена, обладает четкостью каждого сообщения - например, предписание, которое нужно выполнить, или запрос, на который нужно ответить.

Машина, распознающая речь, сама остается немой: она не говорит, а пишет ответы. У страивает ли это пользователя? Да, безусловно. и все-таки общение с компьютером в полном смысле слова - это диалог. Тем более что в создании определенного звука не обязательно участие голосовых связок, звук можно искусственно синтезировать, научить говорить машину.

Отвечать на вопросы голосом учат машину давно. О степени трудности создания говорящей машины свидетельствует такой пример.

Чтобы машина произнесла, например, на венгерском языке короткое «добрый день», нужно заложить в ее память 500 различных характеристик. Еще больше усилий стоило японским специалистам заставить говорить наручные часы. При нажатии кнопки они объявляют часы и минуты.

Можно использовать компьютер в редактировании текстов, в совершенствовании обучающих машин.

Есть, например, электронный синтезатор речи, который в паре с машиной используя заложенные в ней знания, способен не только за доли секунды дать ответ на самый каверзный вопрос, но и читать лекции.

Уже становится привычным, что компьютер разговаривает, его металлический голос, имитируя человеческую речь, о чем-то сообщает.

Системы, синтезирующие речь, теперь входят в состав телефонной службы, и телефонным собеседником бывает не человек, а машина. Выпускают автомобили, говорящие водителю о расходе бензина, утечке масла, перегреве двигателя и других неполадках.

Разработана система, способная читать вслух. Она сначала преобразует буквы в цифровые сигналы, анализирует их, а потом синтезирует слова. В системе запрограммировано 2500 правил произношения, чтобы читать с выражением, делать паузы, то есть свести к минимуму машинность речи.

При совместной работе человека с машиной в речевом контакте человек сможет направлять работу машины, подбрасывая ей новые идеи походу работы, а машина, вероятно, сумеет пожаловаться, если надо, на возникшее у нее трудности и объяснит человеку характер препятствий, встретившихся при решении той или иной задачи.

Преимущества тесного контакта человека и машины неоспоримы Насколько бы упростилась работа специалистов по машинному переводу. Не нужны были бы кодировщики, переводящие текст в цифровой вид. Читай перед микрофоном фразы - машина все понимает.

- Она, видно, не расслышала?! Я заказывала сосиски...