Сравнительное языкознание и этимологические базы данных

Компаративистика (сравнительно-историческое языкознание) представляет собой одно из важнейших направлений в современной лингвистике. Возникшая в начале XIX в. и с тех пор неуклонно развивавшаяся как в отношении предмета изучения, так и в отношении методологии, компаративистика послужила основой для методологии всего современного языкознания, явившись, по сути, главной стимулирующей силой для выхода общей лингвистики на новый, научный этап своего развития. К настоящему времени компаративистика является полноценной научной дисциплиной, оперирующей строго формализованными методами (в том числе компьютерными) с целью проникновения в глубь истории языков и реконструкции все более и более отдаленных от современности праязыков человечества.

Структуралистская революция, происходившая во II трети XX века и провозгласившая, в частности, строгое отделение исторического изучения языка от синхронного, имело одним из своих следствий уход теоретической лингвистики от сравнительно-исторической проблематики. Сравнительно-историческое языкознание стало в результате восприниматься большинством теоретиков как эзотерическая наука, его постулаты и аксиоматика для значительного числа лингвистов-синхронистов недоступны, соответственно, его достижения часто получают совершенно неверную интерпретацию в рамках общих теорий языка. Между тем, такое отделение диахронии от синхронии на настоящем этапе развития лингвистической науки вряд ли можно считать плодотворным. Дело в том, что одной из важнейших характеристик человеческого языка является то, что он функционирует как изменяющаяся, саморазвивающаяся система. Закономерности изменения языковой системы и составляют предмет лингвистической компаративистики, изучающей, таким образом, абсолютно неотъемлемое свойство языка. Кроме того, лингвистическая компаративистика встраивается в систему исторических знаний, являясь своеобразной "подпоркой" для изучения бесписьменных и дописьменных периодов древнейшей и древней истории, обеспечивая информацию об этногенезе, этнических контактах и отчасти - через реконструируемую языковую картину мира - о среде обитания и культурных особенностях носителей реконструируемых языковых систем.

Московская школа лингвистической компаративистики является ныне одной из ведущих в мировом масштабе. Начало активизации ее деятельности восходит к 1962 году, когда молодой московский славист В. М. Иллич-Свитыч приступил к реконструкции праностратического языка.

В. М. Иллич-Свитыч явился фактическим создателем новой отрасли языкознания - сравнительной грамматики ностратических языков. Проблема отдаленного родства ряда языковых семей Старого Света: индоевропейской, семито-хамитской (афразийской), картвельской, уральской, алтайской и дравидийской - занимала многих исследователей. Да и самая идея глобального сравнения нескольких языковых семей была выдвинута еще в 1903 г. Х. Педерсеном. И все же заслуга создания сравнительной грамматики ностратических языков принадлежит В. М. Иллич-Свитычу. Дело даже не в количестве материала, который он усел (этот материал был значителен и до него и все время увеличивается) и не в подробностях и точности разработки сравнений (в этом плане В. М. Иллич-Свитыч, конечно, создал нечто уникальное, но и эта точность и детализация уже становятся недостаточными и, безусловно, будут значительно превзойдены в ближайшем будущем). Заслуга В. М. Иллич-Свитыча заключается прежде всего в том, что ему удалось обнаружить в сравниваемом ностратическом материале ряд нетривиальных соответствий, т. е. таких, проявление которых в одной языковой семье объясняется лишь в результате извлечения информации о характере их окружения в этимологически связанных рядах морфем в других родственных языках. Именно такие соответствия являются основой любой сравнительно-исторической грамматики, решающим аргументом ее необходимости. Не случайно тезисы доклада В. М. Иллич-Свитыча о генезисе индоевропейских рядов гуттуральных получили восторженную оценку Б. Коллиндера, который писал: "Исследования Иллич-Свитыча... означает решающий успех в области индоевропейско-урало-алтайского языкового сравнения... Могут возразить, что число опорных этимологических сопоставлений недостаточно для того, чтобы они имели полную доказательную силу. Но в ответ скептикам мы можем воскликнуть вместе с Орестом: "Советую тебе: не слишком люби солнце и звезды; спустись вслед за мною в темное царство" [Collinder 1965: 172].

Важность этой работы В. М. Иллич-Свитыча для сравнительно-исторического языкознания в целом трудно переоценить. В предисловии к своему труду "Опыт сравнения ностратических языков" автор писал: "в... передовых отраслях компаративистики... в последнее время обнаружилась определенная переоценка возможностей метода внутренней реконструкции, применение которого без жесткого контроля внешнего сравнения приводит к построению многочисленных одинаково невероятных и в равной степени произвольных протосистем. Подобная ситуация диктует необходимость выхода за рамки одной какой-либо семьи. Лишь внешнее сравнение обеспечивает соответствующий контроль и позволяет выбрать единственный максимально приближающийся к реальности вариант исторической реконструкции из многих принципиально возможных. В этом смысле само существование "ностратического языкознания" оправдывается тем, что оно призвано не только использовать достижения индоевропеистики, уралистики, алтаистики и т. д., но и само должно во многом способствовать развитию этих разделов компаративистики, так же как, например, индоевропеистика способствует развитию германистики, славистики, иранистики" [ОСНЯ: I, 2].

Гибель в 1966 г. В. М. Иллич-Свитыча побудила его коллег, А. Б. Долгопольского и В. А. Дыбо, заняться изданием и завершением его труда "Опыт сравнения ностратических языков".

Уже первая научная конференция по ностратическому языкознанию, посвященная выходу в свет I тома "Опыта сравнения ностратических языков", показала глубокий и явно возрастающий интерес к проблемам отдаленного родства языков и к сравнительно-историческому языкознанию вообще со стороны студенческой лингвистической молодежи. На конференции был представлен ряд докладов студентов Отделения структурной и прикладной лингвистики филологического факультета Московского государственного университета. После последнего заседания конференции ее участники решили продолжить свои встречи и обсуждение работ, создав неформальное научное объединение, "Ностратический семинар им. В. М. Иллич-Свитыча", который работает уже тридцать лет. Название "ностратический", однако, не должно пониматься так, будто мы занимаемся исключительно реконструкцией ностратического праязыка. С самого начала нам было ясно, что дл подтверждения ностратической реконструкции и утверждения проблематики отдаленного родства языков как научной проблематики необходимо установление других макросемей и реконструкция их праязыков. Поэтому в проблематику Семинара были включены проблемы реконструкции праязыков других, не ностратических макросемей и семей. Второе, что сразу же объединило членов Семинара, это было четкое понимание необходимости "поэтапной реконструкции" и связанное с ним понимание того, что реконструкция более содержательна и более информативна, чем отдельный языковой факт. Это "второе" почему-то с трудом доходит до некоторых лингвистов старшего поколения, особенно до критиков ностратической теории. Это тем более странно, что представление о "поэтапной реконструкции" не является чем-то новым для сравнительно-исторического языкознания: ведь индоевропейский праязык теоретически не является результатом сравнения санскрита, древнеперсидского, греческого, латыни, готского, старославянского и т. п. языков, он является результатом сравнения (компаративистской процедуры) праиндоиранского, прагреческого, праиталийского, прагерманского, праславянского и т. п. языков (т. е. результатом сравнения уже реконструкций). Уральский праязык - это результат компаративистской процедуры, проведенной над финно-угорским и самодийским реконструированными праязыками, которые сами являются результатом той же процедуры, проведенной также над реконструкциями: праприбалтийско-финской, прасаамской, прамордовской, прамарийской, прапермской, праугорской и прасеверносамодийской, праселькупской, прасаяно-самодийской. И это относится к любой реконструкции праязыка достаточно разветвленной семьи.

За период своей деятельности Семинар поставил и решил ряд проблем. Несколько крупных работ членов Семинара опубликовано, часть исследований публиковались в тезисах, статьях и докладах на конференциях, многие исследования остаются до сих пор не опубликованными, в Москве было проведено семь конференций, в которых Семинар выступал одним из основных организаторов, и международная конференция в Анн-Арборе (США) в 1989 г., на которой Семинаром была представлена основная группа докладов.

Итак, к настоящему времени у нас сложился коллектив специалистов-компаративистов, работающих в рамках одной научной школы и, следовательно, находящихся на одинаковым методологических позициях. Глобальный проект, над которым мы все работаем - построение картины лингвогенеза Земли, и путь, которым мы этого надеемся достигнуть, - дальнее сравнение языков.

Есть две главные причины, на наш взгляд, оправдывающих существование этой отрасли лингвистики.

а) Нам необходима единая классификация языков мира. Традиционная классификация, насчитывающая несколько сот независимых языковых семей, никак не может считаться удовлетворительной. Существуют ли генетические связи хотя бы между некоторыми из главных языковых семей мира? Если таких связей нет, то чем объяснить эту исключительно странную ситуацию? Насколько нам известно, ни в одной другой дисциплине, имеющей дело с таксономией, нет такого положения. Так, в биологии идея единой классификации видов устоялась уже со времен Линнея и Дарвина.

б) Сравнительное языкознание в настоящее время является одной из очень немногих отраслей науки, которые снабжают нас сведениями о дописьменной истории человечества. Уже было предпринято несколько попыток комбинации лингвистических данных с археологическими и генетическими, и некоторые из них кажутся весьма многообещающими. Если мы сможем получить лингвистическую информацию об эпохах ранее 4-5 тысячелетий до н. э., это может оказаться чрезвычайно важным для всей науки об истории человека.

Методика, используемая в современном дальнем сравнении языков, в целом является вполне традиционной. Это классический сравнительно-исторический метод, используемый в сравнительном языкознании уже почти два века.

Имеется, однако, отличие - не методологическое, но, скорее, тактическое: традиционная компаративистика основывается прежде всего на данных современных и старописьменных (в том числе и мертвых) языков, в то время как для дальнего сравнения основным материалом являются реконструкции. К примеру, ту же роль, которую в классическом сравнительном языкознании играют древнегреческий и древнеиндийский языки, при дальнем сравнении играют праиндоевропейский и праалтайский языки (реконструируемые, в свою очередь, при помощи традиционной сравнительно-исторической методики).

Идея реконструкции, естественно, является органической частью классической компаративистики. Заметим, однако, что большинство традиционных генетических классификаций в лингвистике построено вовсе без применения реконструкции сравнительно-исторического метода. Действительно, в случае с близкородственными языками генетическая классификация, как правило, очевидна и не требует применения каких бы то ни было специальных методов. Для того, чтобы убедиться в родстве, к примеру, славянских языков, никакой реконструкции в принципе не нужно.

Не было необходимости в реконструкции и когда впервые возникла идея о родстве индоевропейских языков (первая фонетическая и лексическая реконструкция появилась уже существенно позже). До сих пор существует еще большое количество общепризнанных языковых семей, для которых праязыковая реконструкция еще не осуществлена.

Для дальнего сравнения реконструкция является абсолютно необходимой. Критики теорий дальнего родства часто упоминают, что два родственных языка, существующие раздельно в течение периода более 5-6 тысяч лет, могут утратить всякое взаимное сходство: в таком случае доказательство их родства окажется уже просто технически невозможным. Они забывают, однако, о том, что можно обращаться не к данным современных языков, но к реконструированным промежуточным состояниям, которые по любым теоретическим и практическим соображениям должны быть друг к другу ближе, чем современные языки.

Статистика не очень широко используется в традиционном сравнительном языкознании. Для дальнего сравнения, однако, она является важным инструментом по нескольким причинам:

а) Статистические методы хорошо пригодны для проверки гипотез о языковом родстве. Поскольку во многих случаях дальнее родство на поверхностном уровне не очевидно, статистические проверки полезны для различения собственно генетического родства и случайного сходства или массовых заимствований.

б) Построение классификаций в сравнительном языкознании обычно строится на основе общих инноваций. На практике этот критерий лучше всего применим к морфологическим (грамматическим) данным. Поскольку морфологическая реконструкция в рамках макросемей пока находится еще в зачаточной стадии, существует настоятельная потребность в альтернативной методике.

Можно показать, что лексикостатистический метод классификации языков применим как в случае ближнего, как и в случае дальнего родства. Поскольку результаты лексикостатистики, получаемые для всех известных случаев, в целом вполне хорошо коррелируют с результатами традиционной классификации, естественно предположить, что и для дальнего родства результаты также окажутся правдоподобными.

в) Применение статистических методов для лингвистической датировки (т. н. "глоттохронология") было широко раскритиковано. При "ближнем" сравнении обычно можно не обращать внимания на глоттохронологию и получать приблизительные датировки языковой дивергенции на основании иных данных (древнейших письменных источников, иногда - археологических данных). В случае с дальним родством, однако, глоттохронология является единственным методом абсолютной датировки и поэтому не должна сбрасываться со счетов.

Следует отдавать себе отчет в том, что глубинные языковые реконструкции в настоящее время могут быть лишь результатом коллективного труда. В силу сказанного выше отдельный специалист по некоторой языковой семье просто не в состоянии охватить материал десятков (и сотен) языков, данные которых необходимо обработать при построении реконструкций в рамках макросемей, необходима исследовательская группа.

Исследователю дальнего родства приходится иметь дело с громадными объемами языковых данных, возрастающими вместе с добавлением каждой новой языковой семьи. Современные компьютерные технологии позволяют более эффективно обрабатывать этот поток информации, хотя до сих пор еще существует весьма мало компьютерных приложений, специально написанных для сравнительного языкознания. Компьютеры возможно использовать для хранения больших сравнительно-исторических баз данных, для обработки материала родственных языков (даже для установления фонетических соответствий) и, конечно, для разного рода статистических вычислений.

В рамках описываемого проекта используется компьютерная СУБД STARLING, созданная автором данной статьи, а ныне разрабатываемая им совместно с коллективом программистов во главе с Ф. С. Крыловым. Эта система, специально ориентированная на сравнительно-историческое языкознание, хранение и обработку этимологических баз данных, в том числе - лексикостатистическую.

Этимологическая база данных по существу представляет собой компьютерный аналог этимологического словаря, информация в котором разнесена по отдельным полям и организована в виде электронной таблицы для облегчения операций типа поиска и сортировки.

Однако имеющиеся в нашем распоряжении компьютерные средства позволяют строить гораздо более сложные объекты, а именно иерархические системы баз данных. Так, лезгинская, даргинская, хиналугская, лакская, цезская, аваро-андийская, нахская и абхазо-адыгская базы объединяются в севернокавказскую систему баз данных, а монгольская, тюркская, тунгусо-маньчжурская, корейская японская базы - в алтайскую систему баз данных. Подчиненные базы в таких системах связаны между собой отношениями этимологического тождества и являются, таким образом, компонентами т. н. реляционной базы данных.

Структурированные таким образом базы данных позволяют работу отдельных специалистов с отдельными компонентами, не нарушая при этом целостности всей системы. Работа над этимологическими базами данных в системе STARLING ведется исследователями центра компаративистики РГГУ, Института языкознания и Института славяноведения и балканистики РАН уже начиная с середины восьмидесятых годов. В рамках этой работы издано уже три этимологических словаря (севернокавказских, семитских и алтайских языков), представляющих собой, по сути, книжную реализацию соответствующих баз данных.

К настоящему времени созданы следующие базы данных:
1. Индоевропейская база (С. Л. Николаев);
2. Афразийская (семито-хамитская) база (А. Ю. Милитарев, Л. Е. Коган, О. В. Столбова);
3. Картвельская база (С. А. Старостин);
4. Уральская база (Е. А. Хелимский);
5. Алтайская база (С. А. Старостин, О. А. Мудрак, А. В. Дыбо);
6. Эскимосско-алеутская база (О. А. Мудрак);
7. Чукотско-камчатская база (О. А. Мудрак);
8. Нивхско-юкагирская база (О. А. Мудрак);
9. Дравидийская база (Г. С. Старостин);
10. Севернокавказская база (С. А. Старостин);
11. Синотибеская база (С. А. Старостин);
12. Енисейская база (С. А. Старостин);
13. Австроазиатская база (И. И. Пейрос);
14. Койсанская база (Г. С. Старостин).

Таким образом, практически охвачены этимологическими базами данных все языки Евразии и, частично, Африки. Все перечисленные базы данных устроены иерархично: так, индоевропейская база включает в себя подчиненные германскую, славянскую, индо-иранскую и др. базы. В свою очередь, главные базы объединяются в этимологические базы макросемей, из которых в настоящее время обработаны ностратическая (включающая индоевропейскую, картвельскую, уральскую, алтайскую, эскимосско-алеутскую, чукотско-камчатскую, нивхско-юкагирскую и дравидийскую), а также синокавказская (включающая севернокавказскую, енисейскую и синотибетскую). Каждая база данных подвергается не только классической сравнительно-исторической обработке, но и лексикостатистической - с целью уточнения внутренней и внешней генеалогии. Заложена также основа общеевразийской лексической базы, уже насчитывающая около 600 этимологических сближений между различными макросемьями.

В последние годы работа над этимологическими базами данных расширилась в двух направлениях:

1) на основе СУБД STARLING был создан интернет-сервис баз данных, в настоящее время успешно функционирующий в Москве (http://starling.rinet.ru), в Лейдене (http://iiasnt.leidenuniv.nl) и в Санта-Фе (http://ehl.santafe.edu) с различными наборами баз данных. Сервер обеспечивает возможность просмотра баз данных on-line и поиска на них по различным видам запросов;

2) эта система положена в основу международного проекта "Эволюция человеческого языка", осуществляемого в основном российскими и американскими исследователями, с центром в Институте Санта-Фе (США).

Литература

ОСНЯ - В.М. Иллия-Свитыч. Опыт сравнения ностратических языков (семито-хамитский, картвельский, индоевропейский, уральский, дравидийский, алтайский). Сравнительный словарь. М.: Наука. Т. I, 1971. Т. II, 1976. Т. III, 1984.

Collinder 1965 - B. Collinder. Hat der Uralische Verwandte? Eine Sprachvergleichende Untersuchung // Acta Universitatis Upsaliensis. Acta Societatis Linguisticae Upsaliensis. Nova series, 1:4. Uppsala, 1965.

Источник: 

Старостин С.А. Труды по языкознанию. - М., 2007. - С. 770-778 www.philology.ru