Лингвистика структурная Печать

Вернуться к оглавлению

Лингвистика структурная это прикладная дисциплина, основной задачей которой является разработка точных методов изучения естественных языков, использующая математические подходы.
Structural Linguistics

Пожалуй, до недавнего времени одной из самых не математических, самых описательных наук по праву считали лингвистику. А вот теперь, говоря о лингвистике структурной, как бы подразумевают, что эта гуманитарная наука приобретает несвойственные ей черты точности и строгости, хотя и ядро неточности сохраняет.

Подобно тому как теория вероятностей произвела в физике переворот, так и введение в лингвистику вероятностных методов позволило подойти к исследованию языка с непривычной стороны.

По мнению специалистов, любой язык характеризуют некоторые простые количественные соотношения. Сколько слов в различных языках, каково соотношение между числом слов и числом морфем и фонем, между словами и слогами, фонемами и морфемами?

Математическое исследование языка - не забава для ученых. Практическое значение такого подхода очень велико. Именно количественные характеристики помогают определить природу, характер неизвестной письменности, помогают ее дешифровке. Нужны они и для описания современных языков, для изучения их истории, для определения их родства.

Статистический подход к языку приводит иногда к поразительным результатам. Выяснилось, например, что у столь различных, с нашей точки зрения, языков, как русский, английский, самоа, количество информации, приходящейся на букву «Н», оказалось очень близким.

Такие подсчеты важны для создания словарей машинного перевода, для преподавания иностранных языков, для выяснения некоторых вопросов в экспериментальной психологии. И конечно, для изучения поэтического творчества.

Математик А. Колмогоров проанализировал, например, соотношение запаса слов с рифмой. Из какого количества слов можно получить те или иные сочетания рифм? Оказалось, 10 слов для выбора одной рифмующейся пары очень мало. При 20 словах выбор одной рифмы тоже ненадежен. А вот запас в 100 слов дает уже тройную рифму. 200 слов дают возможность найти четырехкратную рифму. Значит, при 200 словах можно писать сонеты. 500 слов - запас, который дает поэтам десятикратные рифмы.

Подсчитали и взаимоотношение букв в словах. Если бы все комбинации букв были возможны, то из 30 букв можно составить 30 однобуквенных слов. Двухбуквенных - было бы уже 900, а трехбуквенных слов 27 тысяч. и т. д.

А русский язык содержит примерно 50 тысяч наиболее употребительных слов. Если принять среднее число букв в слове за семь, то окажется, что только 0,0002 % всех возможных комбинаций букв образуют слова.

И буквы в словах появляются неравномерно. Исследовали разнообразные тексты. Для русского языка была установлена такая частота повторения: А-б,2%, О-9%, И-б,2%, Н-5,3%, Ю-0,б% и т. д.

В зависимости от вероятности появления звуков в устной речи или букв в письменной можно подсчитать информационную нагрузку каждой буквы в тексте. Такую работу специалисты провели с текстом романа А. С. Пушкина «Евгений Онегин» и выяснили: количество информации, падающее на букву, оказалось равным 0,4. У стихов поэта «средних способностей» количество информации, падающее на букву, было 0,18 в 2,2 раза меньше. Как видите, даже чисто математические исследования творчества Пушкина подтвердили гениальность русского поэта.

Результаты подобных исследований лингвистов-математиков интересны и для лингвистов, изучающих тот или иной язык, и для литературоведов, исследующих, как писатели используют язык, каков их лексикон.

Структурная лингвистика, основываясь на статистическом анализе структуры языка, использует для моделирования языка вычислительные машины. Именно к таким моделям операций, которые человек осуществляет над языком, относятся литературные способности электронных вычислительных машин.

Одна из первых попыток сочинения связанного по смыслу или иным образом текста с помощью компьютеров, исходными элементами которого служили слова, считается прозаический текст, созданный французской машиной «Каллиопа». Словарь из 65536 слов был закодирован так, что близость кодов слов соответствовала близости слов по их встрече в связанном по смыслу или иным образом тексте естественного языка.

Позднее, используя тот же метод статистических связей - близости между элементами словаря, в память машины для «поэтических проб» ввели очень бедный словарный запас: от 50 до 100 слов. Результатом работы машины стали несколько нерифмованных стихотворений.

Работы в области искусственного интеллекта позволили осуществить машинное творчество, построив модель на основе сюжетов волшебных сказок и поместив информацию в банки знаний. Ученые обратились к сказочным сюжетам потому, что они легко поддаются формальной организации - структурируются. В их традиционном строе всегда есть, так сказать, постоянные единицы, компоненты.

В этом можно убедиться, если обратиться к результатам исследований, которые провели лингвисты, изучавшие природу фантастических рассказов. По утверждению фольклористов, все волшебные сказки, несмотря на их кажущийся огромным и разнообразным мир и на первый взгляд непохожесть, очень сходны. Все волшебные сказки состоят из сравнительно небольшого набора базовых элементов. А любая сказка - одно из возможных их сочетаний.

На этом основании можно описать все необходимые для сюжетов сказок комбинации базовых элементов, а затем составить сценарий сюжетов всех возможных сказок. Сценарий и будет представлять собой сюжет универсальной волшебной сказки, которая как бы и исчерпывает весь мир волшебных сказок.

Все сказанное не фантастика. Такой подход использовали для создания волшебных сказок с помощью электронных вычислительных машин. Основными элементами структуры сказок являются действующие лица, поступки и встречи. Действующие лица в свою очередь делятся на две партии - героя и антигероя. Типовой поступок каждого действующего лица можно уложить во фрейм. Например, фреймы «рождение», «похищение», «возвращение», «дарение», «борьба».

К сфере применения структурной лингвистики относят еще создание формальных языков для машин, машинный перевод, дешифровку забытых письменностей, решение проблемы записи человеческой речи при конструировании автоматических стенографов и читающих автоматов. Она нужна в исследованиях, связанных с применением вычислительных машин для облегчения языкового общения людей, лишенных слуха и зрения.


-Ну, как мой новый роман?

- Сожалею, но вас придется ставить на капитальный ремонт.

Вернуться к оглавлению