Онлайн библиотека PLAM.RU


  • О чем говорит семиотика?
  • Структуры и числа
  • Числа, учебники и ЭВМ
  • Сколько нужно слов?
  • Частоты и слова
  • Пять частотных словарей
  • Текстообразовательная способность
  • Словари, словари, словари…
  • Стилистика и статистика
  • Вездесущие числа
  • Лингвистические часы
  • От фактов к формулам
  • Инженерная лингвистика
  • ЖАР ХОЛОДНЫХ ЧИСЛ…

    «Числа не управляют миром, но показывают, как управляется мир», — писал великий поэт и мыслитель Гёте. В нашем веке числа начинают служить не только инженерам и физикам, но и психологам! социологам, биологам. Счет и число пришли и в науку о языке. Вот почему наш первый очерк получил название

    ЖАР ХОЛОДНЫХ ЧИСЛ…

    О чем говорит семиотика?

    «Симпозиум по структурному изучению знаковых систем» — название довольно-таки сухое. Симпозиум этот состоялся в Москве в декабре 1962 года. И всякому, кто посетил бы это собрание ученых или просто прочитал тезисы докладов, представленных на нем, стало бы ясно, что за академически официальным наименованием скрываются вопросы, затрагивающие самые различные аспекты жизни человеческого общества.

    На симпозиуме читались доклады о числовом языке-посреднике и о структуре литовской народной баллады; о гадании на игральных картах как особой знаковой системе и о языковых контактах; об алгоритмах дешифровки и о пространственно-временном единстве живописного произведения; о возможностях построения структурной поэтики и о знаках рекламы, выкриках разносчиков товаров и газет; об анализе абхазских народных игр и о транскрипции санскрита китайскими иероглифами; о функциях сложносокращенных слов и о культовом поведении в тантризме, одной из самых сложных и эзотерических, закрытых для непосвященных, систем йоги; о «тайных языках», включая воровские жаргоны, и о регулировании уличного движения как специфической системе знаков…

    Один из крупнейших советских ученых не без юмора заметил, что симпозиуму недостает лишь двух докладов: первый — о моде как системе знаков, второй — о самом симпозиуме как знаковой системе. Но в словах его была не только ирония — в них содержалось и предсказание будущего.

    Подавляющее число участников симпозиума, включая автора этих строк, в ту пору были совсем еще молодыми исследователями. Им казалось, что с помощью семиотики, то есть теории знаков, можно быстро и окончательно решить проблемы, над которыми вот уже сколько веков бьется человечество. Это была неизбежная дань юношескому азарту, заставляющему штурмовать «с налета» неприступные твердыни науки.

    Но, с другой стороны, благодаря симпозиуму — первому научному совещанию по семиотике не только в нашей стране, но и во всем мире — развитию этой науки был дан мощный толчок. Были проведены международные конгрессы по теории знаков в Варшаве. В Советском Союзе начались интересные и обстоятельные исследования знаковых систем. Участие в них приняли видные советские философы, логики, языковеды, математики. Да и сами участники симпозиума, в ту пору еще начинающие исследователи, за истекшие полтора десятка лет превратились в ученых с мировым именем. Достаточно назвать докторов. филологических наук И. И. Ревзина, Б. А. Успенского, А. А. Зализняка, М. В. Софронова и Вяч. В. Иванова, главного инициатора симпозиума по семиотике в Москве.

    Теорией знаков в наши дни занимаются специалисты в самых различных областях знания. Более того, на стыке семиотики и других наук возникли самостоятельные области исследования. Назовем, например, биосемиотику, изучающую сигнализацию в животном мире с позиций теории знаков; этносемиотику, исследующую знаковые системы человеческого общества, «смысл и роль которых самими членами общества не сознается»; абстрактную семиотику, родившуюся на стыке математики, логики и теории знаков; кибернетическую семиотику, рассматривающую человеческий мозг как «черный ящик», производящий операции со знаками. В Советском Союзе за последнее десятилетие вышли замечательные работы, посвященные семиотическому анализу искусства, будь то пословицы или живописные произведения, поэтическое творчество или «язык кино». Вопросы лингвистической семиотики освещались в монографиях профессоров Ю. С. Степанова, В. М. Солнцева, Ю. В. Рождественского, А. Г. Волкова, И. И. Ревзина и в работах многих других советских исследователей.

    «О чем говорит семиотика» — так назывался очерк, открывавший первое издание «Звуков и знаков». Вы, вероятно, и сами догадались, почему такого очерка во втором издании книги нет. Рассказ о семиотике наших дней, о ее достижениях, проблемах, перспективах потребовал бы большой книги. Будем надеяться, что такая книга появится, ибо интерес к семиотике с каждым годом возрастает. А в этой книге, посвященной не семиотике, а лингвистике, мы коснемся лишь одного частного, но крайне важного для нас вопроса: что такое язык с точки зрения теории знаков? Что отличает его от других знаковых систем людей — таких, как жесты, этикет, дорожная сигнализация или языки программирования кибернетических машин?

    Наш язык совершенно справедливо называют самой полной, уникальной и незаменимой системой связи. «Другие, искусственно созданные человеком системы и языки (например, письмо, сигнализация флажками, азбука Морзе, азбука Брайля для слепых, искусственные языки типа эсперанто или волапюк, информационно-логические языки и др.) воплощают лишь некоторые из свойств естественного языка, — пишет профессор Ю. С. Степанов. — Эти системы могут значительно усиливать язык и превосходить его в каком-либо одном или нескольких отношениях, но одновременно уступать ему в других, точно так же, как телефон, телевидение, радио (вообще всякое орудие, всякий инструмент) усиливают некоторые свойства отдельных органов человека».

    Почему же наш язык, такой, казалось бы, обычный и привычный, является одновременно и самой полной, и самой совершенной, и самой богатой, и самой экономной системой знаков изо всех, что мы знаем в человеческом обществе и в сообществах животных?

    Потому, отвечает семиотика, что он иерархичен. У всех остальных знаков есть выражение и содержание, означающее и означаемое. Язык же устроен гораздо сложней.

    Поясним на таком примере. Знак немыслим без системы знаков. Однако один и тот же символ «!» может иметь пять совершенно различных значений. Для школьника это, вне всякого сомнения, восклицательный знак. Для шахматиста — обозначение сильного хода. Для математика— факториал. Для водителя-знак «Осторожно!». А для лингвиста — условное обозначение характерного щелкающего звука, который имеется в некоторых языках Южной Африки!

    Но во всех этих случаях знак соотнесен с каким-либо понятием, звуком, нормами пунктуации. Короче говоря, это знаки, имеющие значение, заданное системой знаков… А в нашем человеческом языке?

    Строго говоря, в языке знаки — это только слова. Звуки и буквы, очевидно, никакого значения не имеют. Это не знаки, а только составные части, своего рода кирпичики, или, как говорят в семиотике, фигуры, из которых строится знак.

    Мы сказали выше, что знаками в нашем языке могут быть названы только слова (хотя есть точка зрения, что и слова — это не знаки, а лишь элементы знаковой системы, человеческого языка). Слова сочетаются в предложения, число которых практически бесконечно. Предложения, в свою очередь, являются элементами, из которых строится наша речь. Таким образом, перед нами иерархическая лестница: звук — корень слова или служебная частица — слово — предложение — речь или письменный текст. Причем во многих случаях один и тот же элемент языка может выступать в этой иерархии на разных уровнях.

    Приведем классический пример. Два римлянина заспорили, кто скажет самую короткую речь или напишет самую короткую фразу.

    — Eo rus (еду в деревню), — таков был текст первого.

    — I, — отвечал второй (в переводе с латыни значит: езжай!).

    Рассмотрим это, действительно, предельно краткое высказывание. Во-первых, оно и в самом деле высказывание, текст, речь. Состоит этот текст из одного предложения. Предложение, в свою очередь, состоит из одного слова. Слово — из одного корня. Наконец, и корень выражен с помощью одного звука или же передающей этот звук на письме буквы. Мы имеем здесь и фонетику, и морфологию, и лексику, и синтаксис! И все это — в одном значке, вертикальной палочке «I», передающей звучание «и».

    Число звуков речи в любом языке мира меньше сотни. Даже в самом бедном словами языке число слов равно нескольким тысячам. Число предложений, которые можно построить, пользуясь словами, достигает астрономических величин. Число различных текстов, которые можно записать с помощью предложений, практически бесконечно. «Таким образом, язык организован так, что с помощью горстки фигур и благодаря их все новым и новым расположениям может быть построен легион знаков, — пишет датский ученый Луи Ельмслев, перекинувший мост между лингвистикой, наукой о языке, и семиотикой, наукой о знаках. — По своей цели языки прежде всего знаковые системы, но по своей внутренней структуре они прежде всего иное, а именно — системы фигур, которые могут быть использованы для построения знаков».

    Благодаря этому свойству языка мы получаем возможность в любое время высказать любую мысль, любое чувство, любую фантазию или причуду. С помощью горстки фигур строится все бесконечное многообразие и богатство языка, подобно тому, как с помощью горстки химических элементов строится тот удивительный мир, в котором мы живем.

    Структуры и числа

    Анализ языка с позиций семиотики, по сути дела, открыл науке язык как таковой. До того времени лингвисты интересовались не языком как таковым, не системой знаков и составляющих эти знаки фигур, а речью, текстами, порожденными системой. Наиболее четко это выразил основоположник современной структурной лингвистики Фердинанд де Соссюр.

    «Единственным и истинным объектом лингвистики является язык, рассматриваемый в самом себе и для себя», — такими словами завершал свой знаменитый «Курс общей лингвистики» Соссюр. Не следует думать, что это было открытым провозглашением формализма, принципиальным отказом понимать общественные функции языка и т. д. Напротив, сам Соссюр считается создателем так называемой социологической школы в языкознании, исходящей из того, что наш язык — продукт общественный, и понять его невозможно без связи с другими общественными науками и явлениями. Но есть, так сказать, лингвистика внутренняя и лингвистика внешняя, лингвистика языка и лингвистика речи.

    «Наше определение языка предполагает устранение из понятия «язык» всего того, что чуждо его организму, его системе, — одним словом, всего того, что известно под названием «внешней лингвистики», хотя эта лингвистика и занимается очень важными предметами и хотя именно ее главным образом имеют в виду, когда приступают к изучению речевой деятельности, — писал Соссюр. — Язык есть система, которая подчиняется лишь собственному порядку. Уяснению этого может помочь сравнение с игрой в шахматы, где довольно легко отличить, что является внешним, что внутренним. То, что игра пришла в Европу из Персии, есть факт внешнего порядка; напротив, внутренним является все то, что касается системы и правил игры. Если я фигуры из дерева заменю фигурами из слоновой кости, то такая замена будет безразлична для системы; но если я уменьшу или увеличу количество фигур, такая перемена глубоко затронет «грамматику» игры».

    Продолжая аналогию Соссюра, мы можем заметить, что фигуры вообще могут отсутствовать: вспомним об игре опытных шахматистов вслепую, не глядя на доску, не притрагиваясь к шахматам. Если правила игры в шахматы являются системой, языком, то любая партия, которую мы станем играть, будет текстом, порожденным этой системою, «речью».

    Число шахматных фигур невелико, так же как и число полей доски и число правил, которым подчиняется игра в шахматы. А вот число различных партий в шахматы настолько велико, что его можно считать бесконечным. Так и с помощью языка, состоящего из конечного числа элементов и грамматических правил, можно образовывать любое число фраз и текстов.

    Язык и речь, система и текст — их взаимоотношение интересует не только лингвистику, но и семиотику. Методы теории знаков применяются ныне в фольклористике и литературоведении, в теории музыки и театра, искусствоведении, этнографии, поэтике, инженерной и социальной психологии. И везде мы имеем дело с ситуацией язык — речь, система — текст, будь то «язык» жестов или «текст» человеческого поведения.

    Более того, в естественных науках, вроде этологии, изучающей поведение животных, или генетики, исследующей механизм наследственности, мы также сталкиваемся с проблемой система — текст. Наконец и в технических дисциплинах, например в машиностроении или электронике, стоят сходные вопросы: построение из системы — конечного числа деталей или полупроводников— неисчерпаемого количества «текстов» машин, транзисторов и т. п.

    Современную структурную лингвистику сравнивают иногда с лоцманом для целого ряда общественных и естественных наук. Именно она первой осознала знаковый характер языка и отличие его от речи. Систему языка структурные лингвисты стараются описать в строгих терминах математической логики и семиотики. Естественно, что тексты описаны так быть не могут. Ведь число их практически бесконечно!

    Здесь вместо формул и символов нужны иные методы — и в первую очередь математической статистики, тот «жар холодных числ», о котором писал Блок в своих «Скифах», позволяющий, казалось бы, сухим колонкам цифр превращаться в яркие картины, показывающие скрытые механизмы языка, порождающего речь. Самое же ценное в этом знании — это то, что оно начинает в наши дни все чаще оказывать помощь людям в их практике, в повседневной жизни. Например, в обучении языку.

    Числа, учебники и ЭВМ

    Ни для кого не является секретом, что есть учебники хорошие и есть плохие. Опытный педагог порекомендует вам такой-то учебник, а такой-то брать отсоветует… Но на каком основании? На основании опыта, интуиции, наконец, своих взглядов. Но взгляды, как известно, бывают разные. Вот если бы можно было вычислять степень эффективности того или иного учебника! Тогда вместо споров о его достоинствах и недостатках можно было оперировать точными числами.

    На первый взгляд все это кажется фантастикой. Однако первые попытки в этом направлении уже делаются. Не так давно в Минске с помощью ЭВМ сравнивалась эффективность учебников иностранных языков, и эта разработка белорусских ученых была удостоена серебряной медали ВДНХ… Вот вам и фантастика!

    В основе знания языка — знание слов. Но сколько именно этих слов нужно дать в одном уроке учебника? И сколько слов вообще должен содержать словарный минимум? Чтобы новые слова усвоились, они должны встречаться и далее в учебнике, это очевидно. Но каким должен быть интервал между повторениями одного и того же слова?

    Долгое время все эти вопросы решались на глазок, у одного педагога своя точка зрения, у второго — своя, третий считает ошибочными обе эти точки зрения и предлагает свою собственную. В наши дни союз педагогов, лингвистов, психологов, программистов и ЭВМ позволяет решать подобного рода вопросы с помощью точных чисел. Например, установлено, что темп введения новых слов не должен превосходить пяти процентов от всех слов, что встречаются в учебном тексте данного урока. А текст, содержащий 3,6 процента новых слов, оптимален — и прежние слова хорошо повторяются, и новые лучше всего усваиваются.

    Чем большее число раз встретилось слово в уроке и во всем учебнике, чем более равномерно распределено оно по всему учебнику, тем учебник лучше. Интуитивно мы все понимаем это. Но как доказать интуицию числами? Попробуйте-ка произвести нужные подсчеты — и вы убедитесь, что без вычислительной машины тут никак не обойтись. Нужно подсчитать, сколько раз встретилось то или иное слово в каждом уроке и в упражнениях, сопровождающих урок. Нужно высчитать средние арифметические и средние квадрэтические отклонения для каждого слова по каждому уроку, затем суммировать данные по всему учебнику.

    В одном учебнике ряд слов будет иметь лучшие показатели, чем те же показатели в другом. С другой стороны, в «худшем» учебнике будут и слова, и целые уроки с лучшими показателями, чем в первом. Параметров же, по которым вычисляем мы все эти показатели, у нас несколько. Значит, нужно еще вычислять по формулам значимость того или иного параметра… Словом, без ЭВМ во всей этой бухгалтерии не обойтись.

    Вот такие подсчеты и провели белорусские исследователи, поручив ЭВМ сравнивать эффективность учебников. Разумеется, это только начало кибернетизации педагогики (ведь дело не только в количественных данных лексики, но и в ее качестве, да и не только в лексике). Трудно дать сразу ответы на все вопросы, над которыми бьется педагогика вот уже столько веков.

    Еще одним конкретным примером союза лингвистики, математики, педагогики и ЭВМ являются работы, проводимые во многих странах мира и связанные со словами и числами.

    Сколько нужно слов?

    В любом языке мира насчитываются тысячи, десятки тысяч, а то и сотни тысяч различных слов, как, например, в русском, английском, немецком, французском и других, имеющих давнюю- письменную традицию. Все слова не знает даже носитель языка (вряд ли кто из русских знает значение тех четырехсот сорока тысяч слов, что собраны в академической картотеке Института русского языка).

    Значит, изучая иностранный язык, мы должны заучить не все, а самые нужные, самые важные слова. Именно их должен включать словарь-минимум, что обязательно прилагается почти к каждому учебнику языка. Но тут возникает вопрос: сколько же слов должно быть в этом словаре-минимуме?

    Одни специалисты полагают, что для чтения учебного текста достаточно и семисот пятидесяти слов, а при запасе в две с половиной тысячи можно читать простой неадаптированный текст с помощью словаря. Другие называют тысячу восемьсот — стольких слов, по их мнению, достаточно, чтобы понимать речь на чужом языке и вести на нем повседневное общение.

    Шестая Международная ассоциация преподавателей современных языков рекомендует тысячу пятьсот — три тысячи слов на шесть лет обучения. Нашей программой для языковых вузов и факультетов иностранных языков установлен минимум в пять тысяч слов, причем на первом курсе должно быть усвоено восемьсот слов. Программа для неязыковых вузов рекомендует на два года обучения минимум в две с половиной тысячи слов, из них тысячу двести — для активного усвоения.

    Согласимся с программой для вузов. Однако тут встает очередной вопрос: а какие именно слова нужно включать в словарь-минимум? Понятно, что самые важные, самые употребительные. Предлоги, местоимения, союзы… Правда, их не так-то уж и много в любом языке, А дальше? Какие глаголы, прилагательные, существа тельные нужно знать наизусть, а какими можно и не обременять свою память?

    Казалось бы, словари-минимумы в учебниках должны совпадать. Если не полностью, то хотя бы на три четверти, хотя бы наполовину… Когда же специалисты сравнили шестнадцать разных учебников французского языка для американских школ, то обнаружили, что общими для них является примерно два процента слов! В учебниках насчитывалось в общей сложности шесть тысяч разных слов. И только сто тридцать четыре из них входили во все словари-минимумы!

    Представим, что два американца, изучив французский по разным учебникам, попробуют общаться друг с другом на этом языке. Вряд ли они поймут друг друга: ведь общими у них будет менее полутораста слов.

    Ту же печальную картину показал анализ и других словарей-минимумов. Десять учебников испанского языка содержали четыре с половиной тысячи слов, общими же было двести сорок девять. А в двадцати шести учебниках того же испанского языка было обнаружено тринадцать тысяч слов. Хороший же словарь-минимум для тех, кто изучает испанский язык! Требовать от новичков, изучающих иностранный язык, знания всех этих слов нелепо и бессмысленно, не всякий переводчик-профессионал их знает.

    Какие же слова считать употребительными, а какие нет? Ответ на этот вопрос дает статистика, так называемые частотные словари.

    Частоты и слова

    Чем чаще встречается в текстах слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту. Но как избежать слов, характерных только для данного текста, а в других почти не встречающихся? Самый лучший путь — брать не один источник, а несколько. А затем, подсчитав, сколько раз встречаются в этих книгах различные слова, сравнить результаты. Если они совпадают, то слово действительно является частым (или редким). Если не совпадают, то, значит, в одном из текстов оно было завышено из-за сюжета или пристрастия автора к этому слову.

    Так, весьма частое для «Капитанской дочки» слово крепость, встретилось всего лишь в четырнадцати источниках из ста тридцати трех. Значит, слово это отнюдь не частое и занимает скромное место в списке самых употребительных слов русского языка. А составляй мы список лишь по «Капитанской дочке», то оно вошло бы едва ли не в первую двадцатку самых ходовых слов нашего языка!

    В «Истории Пугачева» оно встречается еще чаще — сто тридцать четыре раза (ведь там речь то и дело идет о крепостях, взятых Пугачевым). В «Путешествии в Арзрум» оно встречается шестнадцать раз. Зато во всех художественных произведениях (кроме «Капитанской дочки») Пушкин употребил слово крепость всего один раз (в «Дубровском») и два раза в стихотворениях и поэмах.

    Но не только количество разных текстов может гарантировать наши подсчеты от случайности. Не менее важно взять большой объем этих текстов. И чем он больше, тем вернее мы гарантированы, что никакие случайные факторы не повлияют на точность наших подсчетов.

    Подсчеты частот слов производились давно: еще в средние века составлялись индексы к религиозным текстам, в которых указывалось, сколько и где упоминаются слова бог, ангел и т. д. Но только на пороге нашего века появляется серьезная потребность в частотных словарях. Первым таким словарем считается словарь немецкого языка, выпущенный в Берлине в 1897–1898 годах. Его составитель Ф. Кединг обработал колоссальный материал в одиннадцать миллионов слов!

    Вслед за тем приходит черед частотных словарей английского языка. В Лондоне в 1904 году священник Дж. Ноулз составляет список из слов, которые встретились более двадцати пяти раз в текстах, объемом в сто тысяч слов.

    Американец Р. Элдридж, управляющий небольшой фабрикой, где в основном работали иммигранты, за два года расписал на карточки двести пятьдесят статей из газет, составивших около пятидесяти тысяч слов, и подсчитал частоты этих слов.

    Первоначально, как говорил Элдридж в предисловии к своему словарю, выпущенному в 1911 году, его целью было выявить минимум слов, который помог бы рабочим-иностранцам быстро овладеть разговорной речью. Но затем, продолжает Элдридж, он понял, что частотные словари могут принести и более существенную пользу, в том числе оказать помощь в реформе английской орфографии, которую справедливо называют «чудовищной».

    Но частотные словари Ноулза, Элдриджа, а также ряд других, выпущенных в начале нашего века, были все-таки любительскими, ненадежными. Ноулз опирался на текст Библии, Элдридж — на текст газетных статей, другие авторы — на выборки из различных писем. Да и объем исследуемого материала был невелик. В двадцатых годах профессора Колумбийского университета Э. Торндайк и И. Лордж начинают работу над серией больших частотных словарей английского языка. Завершился их четвертьвековой труд выпуском крупнейшего в мире частотного словаря. Обработав различные тексты общим объемом в восемнадцать миллионов слов, ученые привели в своем словаре тридцать тысяч слов, которые встретились в этих текстах.

    В настоящее время частотные словари созданы почти по всем европейским языкам. Словарь испанского языка, составленный Гарсиа Осом, создан на основании подсчетов четырехсот тысяч слов; словарь чешского языка — одного миллиона двухсот тысяч слов, польского — семи миллионов, французского — полутора миллионов и т. д.

    Пришел черед и для частотного словаря русского языка. В настоящее время составлено пять таких словарей.

    Пять частотных словарей

    Интерес к русскому языку возрастает во всем мире. Русский учат в США и Анголе, в Японии и на Кубе, в Финляндии и Монголии, в Канаде и Эфиопии. Сколько же слов надо знать иностранцу, чтобы читать произведения русской классики? вести деловой разговор? объясниться с прохожим, приехав гостем в СССР?

    Мы уже говорили о картотеке Института русского языка, где зарегистрировано четыреста сорок тысяч слов. В семнадцатитомном «Словаре современного русского языка» приводится сто пятьдесят тысяч различных слов. Вряд ли целесообразно иностранцу, решившему постичь великий и могучий русский язык, заучивать все эти слова, которые в полном объеме неведомы и русским людям. Ему нужен на первых порах минимум, слова самые употребительные, самые частые.

    В 1953 году в американском городе Детройте выходит в свет первый частотный словарь русского языка. Его составитель Г. Г. Джоссельсон использовал тексты общим объемом в один миллион слов. Но так как основным материалом для анализа Джоссельсон взял произведения дореволюционных писателей, то в список часто употребляемых слов попало слово барин и другие подобные ему умершие в социальном смысле слова. Да и методика обработки материала была несовершенной. Короче говоря, словарь этот не отражал реальной картины современного русского языка и был лишь первым опытом.

    Десять лет спустя в Таллине вышел «Частотный словарь современного русского литературного языка», составленный Э. А. Штейнфельдт на основании обработки четырехсот тысяч слов.

    Однако и этого словаря оказалось недостаточно. Объем текстов, взятых для словаря Штейнфельдт, был невелик. Причем четвертую часть его составляли произведения детской литературы. Естественно, это повлияло и на общую картину: в список частых попали такие слова, как пионер, штаб и т. п.

    В 1966 году университет штата Огайо выпустил частотный словарь «разговорного русского языка». Составлен он был на основании обработки пьес. Мы же, как известно, далеко не всегда говорим так, как персонажи пьес классических и даже современных. Вот почему университет дружбы народов имени П. Лумумбы в Москве выпустил в 1968 году свой словарь, более точно отражающий разговорную лексику. В словарь вошло две тысячи триста восемьдесят наиболее употребительных слов русской разговорной речи.

    Наконец настал черед и монументального «Частотного словаря русского языка». Такой словарь был издан в нашей стране в 1977 году и занял почти тысячу страниц. Его составителями были сотрудники филологического факультета Ленинградского университета и лаборатории семиотики НИИ прикладной математики и кибернетики при Горьковском университете. С помощью ЭВМ они обработали тексты объемом в миллион слов,

    В словаре в алфавитном порядке от союза а до прилагательного ящичный приводится около сорока тысяч различных слов, встречавшихся в тексте. Рядом со словом дана его частота, сначала общая, а затем по основным четырем категориям, на которые были разделены все тексты (художественная проза; драматургия; научные и публицистические тексты; газетные и журнальные тексты). Тут же приведено и число разных текстов, в которых встречалось данное слово (ведь эта характеристика не менее важна, чем абсолютная частота, которая, как уже говорилось, может зависеть от специфики текста, сюжета и т. п.).

    Вслед за алфавитно-частотным словарем идет частотный. Слова даны здесь в порядке убывания частот. На первом месте стоит предлог в. Вместе со своим вариантом предлогом во он встретился в текстах почти сорок три тысячи раз! На втором месте по частоте употребления идет союз и, он встретился более тридцати шести тысяч раз. Отрицание не — на третьем месте (около двадцати тысяч раз), на четвертом — предлог на (свыше семнадцати тысяч). Местоимение я занимает пятое место — оно встретилось в текстах около четырнадцати тысяч раз.

    Верхнюю часть списка наиболее употребительных слов занимают предлоги, союзы, частицы, местоимения. Лишь в четвертом десятке этих слов появляется глагол мочь, числительное один, а на шестом десятке — существительное год и прилагательное большой. Зато потом эти части речи занимают львиную долю списка.

    Текстообразовательная способность

    Третья часть «Частотного словаря русского языка» посвящена статистическим данным. И статистика, приводимая в ней, нужна не только специалистам по математической лингвистике или теории вероятностей. Она имеет важное значение в практике, в отборе слов для изучения русского языка.

    В текстах, объемом в миллион слов встретилось около сорока тысяч словоупотреблений. Но свыше тринадцати тысяч различных слов употреблены были всего лишь один раз, около шести тысяч — два раза. Ясно, что слова эти редкие, их нельзя включить в словари-минимумы. Столь же ясно, что слова, имеющие частоту в несколько тысяч, в эти словари должны быть включены обязательно. Легко провести черту между очень частыми и очень редкими словами. Но как провести ее между словами не очень частыми и скорее частыми, чем редкими? Сколько нужно слов для словаря-минимума?

    Вопрос этот мы уже задавали в самом начале нашего рассказа. Теперь, когда вы узнали о частотных словарях, переформулируем его: какую часть слов из списка самых частых мы должны брать — сотню слов? тысячу? десять тысяч?

    На помощь лингвистике вновь приходит статистика.

    Обратимся к нашему «Частотному словарю русского языка». Первые десять слов (ничтожнейшая часть от общего числа различных слов) покрывают почти двадцать процентов всего текста. Первая сотня самых частых слов составляет лишь четверть процента словаря. Зато в тексте она покрывает свыше сорока процентов всех слов. Первая тысяча слов, два с половиной процента всех слов словаря, покрывает свыше шестидесяти семи процентов текста.

    Около девяти тысяч слов встретилось в текстах десять и более раз. Слова эти составляют менее четверти всего словаря. Зато покрывают они более девяноста процентов текста. Остальные же тридцать тысяч слов не покрывают и восьми процентов всех текстов. Очевидно, заучивать эти тридцать тысяч слов нецелесообразно. Знание же слов с частотой «десять» и более позволит понимать практически весь текст.

    Может быть, и в списке слов, имеющих частоты «десять» и выше, также можно сделать сокращения? Первая тысяча слов частотного словаря, будь то русский, испанский, английский, французский, немецкий или любой другой язык, покрывает значительную часть текста, Какую — зависит не только и не столько от конкретного языка, сколько от стиля, типа речи.

    В английском языке тысяча самых употребительных слов покрывает около семидесяти процентов литературных текстов и свыше восьмидесяти процентов — научных. Во французском языке та же тысяча самых частых слов покрывает около восьмидесяти процентов литературных текстов и свыше девяноста — разговорной речи.

    Но какими бы ни были вариации, ясно, что чем больше мы будем удаляться от «верхушки» частотного словаря, тем больше понадобится нам различных слов для покрытия (а стало быть, и перевода) текста.

    Возьмем французский язык. Первая тысяча слов дала возможность покрыть свыше девяноста процентов разговорной речи. Но если мы добавим еще тысячу слов, то прирост будет равен всего четырем процентам. А следующие три тысячи слов увеличат покрываемость текста немногим более трех процентов.

    Примерно та же картина получится, если мы возьмем другие языки или другие стили. В среднем первая тысяча самых частых слов покрывает около восьмидесяти процентов всего текста. Увеличение списка еще на одну тысячу дает прирост порядка шести процентов. Добавление следующей, третьей, тысячи позволит покрыть около трех процентов, четвертой — около двух процентов, пятой — немногим более одного процента текста.

    «Пользуясь этими данными, можно разумно планировать введение лексики в ходе преподавания иностранного языка, — пишут советские специалисты, говоря о помощи, которую статистика и лингвистика оказывают преподаванию языков. — Так, если согласиться с тем, что за одно занятие учащиеся неспециального вуза могут усвоить 12–18 словоформ, то через 7—10 занятий они должны будут знать не менее 120 словоформ, покрывающих более чем 50 % текста. В этом случае учащийся должен узнавать и переводить по отдельности каждое второе слово неадаптированного текста данной специальности. Через 30–40 занятий учащемуся будет знакомо уже около 500 словоформ, покрывающих в среднем около двух третей всех словоупотреблений текста, а к концу первого учебного года учащийся сможет узнавать около 1000 словоформ, покрывающих около 80 % текста».

    Словари, словари, словари…

    В чем отличие частотного словаря от любого другого? Прежде всего в том, что вместе со словом в нем приводится и частота употребления этого слова в тексте. Слова могут идти либо в алфавитном порядке, либо по убыванию частот. В «Частотном словаре русского языка», как мы уже говорили, дается и алфавитный, и частотный списки. Частотный словарь может быть полным, когда в нем приводится список всех слов, встретившихся в тексте, и неполным, когда дается лишь список слов, встретившихся с определенной частотой. Так, алфавитный список «Частотного словаря русского языка» — полный, а частотный — неполный, он дает лишь список слов с частотой «десять» и более, остальные тридцать тысяч слов, менее употребительных, в него не включены.

    Объем материала, который лег в основу словаря, в значительной мере влияет и на состав этого словаря. В зависимости от того, сколько тысяч или миллионов слов текста обследовалось — или просчитывалось на электронно-вычислительной машине — выделяют малые, средние и большие частотные словари (так, первые частотные словари английского языка были, безусловно, малыми, а словарь Торндайка и Лорджа, составленный по текстам в восемнадцать миллионов слов, относится, разумеется, к большим).

    Однако на словарь влияет и стиль, и тематика, и жанр, и авторская принадлежность того или иного текста. Вот почему различают частотные словари устной и письменной речи, словари общие (вроде нашего «Частотного словаря русского языка») и отраслевые (например, Е. А. Калининой с помощью ЭВМ составлен частотный словарь русского подъязыка электроники). Есть словари отдельных произведений, как классиков, так и современных авторов. Составлены «персональные» частотные словари — Пушкина, Шекспира, Шевченко и других.

    Не менее важно и то, что именно фиксируется в словаре: исходная форма слова, словоформа, то есть слово в различных грамматических формах, основа слова или словосочетание. В таких языках, как китайский, разница между словарем основ и словоформ практически неощутима. В английском языке она уже заметна. Когда же мы обращаемся к такому языку, как русский, где множество падежей, глагольных форм и т. д., различие между исходной формой слова и словоформой огромно. Например, частотный словарь русского подъязыка электроники, составленный по текстам в двести тысяч слов, дал свыше двадцати одной тысячи различных словоформ и менее семи тысяч слов!

    Частоты, приводимые рядом со словами, также различны. Это может быть абсолютная частота, указывающая, сколько раз в тексте встретилось то или иное слово. Частота эта может быть относительной, выраженной в процентах или вероятностях (ведь объемы словарей могут быть разными, в зависимости от них различны и абсолютные частоты). Во многих словарях приводятся и другие числовые характеристики, например количество источников, в которых встретилось то или иное слово.

    Наконец, словари могут различаться по способу анализа материала. Обычно их составляют на основании выборок. Так, для «Частотного словаря русского языка» брались отрывки из произведений различных авторов — писателей и драматургов, ученых и публицистов. В их числе были Ленин и Калинин, Леонов и Шолохов, Вавилов и Тарле, Тимирязев и Ферсман.

    Однако есть и другой метод — сплошное расписывание текста. Именно так составляется словарь языка писателя. Подобного рода словари начали составляться давно. В них включаются все слова, которые употребил тот или иной автор в своих произведениях. Существует уже множество словарей, посвященных отдельным произведениям, например «Божественной комедии» Данте, «Неистовому Орланду» Торквато Тассо, «Улиссу» Джеймса Джойса и другим (кстати сказать, «Улиссу» принадлежит своеобразный рекорд по числу различных слов: если в «Божественной комедии» их пять тысяч восемьсот шестьдесят, в «Неистовом Орланде» — восемь тысяч четыреста семьдесят четыре, то Джойс ухитрился употребить почти тридцать тысяч разных слов в одном романе!)

    Словарь языка писателя нетрудно сделать и частотным — для этого надо только указать, как часто употреблялось то или иное слово. Именно таким словарем является «Словарь языка Пушкина», выпущенный в нашей стране в четырех томах. В нем приводятся данные о том, сколько раз встречается то или иное слово в Полном собрании сочинений Пушкина, в каких именно произведениях, в каких значениях и грамматических формах.

    Около шестисот тысяч слов содержат все пушкинские тексты. Из них двадцать одна тысяча двести слов — различные. Свыше ста раз встречается лишь семьсот двадцать слов. Зато один раз во всех пушкинских текстах употребляется шесть тысяч четыреста сорок различных слов, два раза — две тысячи восемьсот восемьдесят слов, три раза — одна тысяча восемьсот слов. Это — не «опровержимое и точное свидетельство богатства Пушкинского словаря, своеобразия его лексики.

    Это, так сказать, общая статистическая картина. В последнее время в нашей стране появляются работы, в которых делается попытка на основании частотного словаря дать характеристику своеобразной модели мира, которая лежит в основе творчества каждого большого поэта. Большие поэты, как известно, проходят на своем пути этапы развития, вехи которых — поэтические сборники или поэмы. Сопоставление частотных словарей, составленных по отдельным сборникам, позволяет выразить в числах и точно сформулировать то, что интуитивно чувствует читатель.

    Вот, например, сравнение частотных словарей по сборнику стихов Бориса Пастернака «Сестра моя жизнь» и Осипа Мандельштама «Камень» (сборники эти вышли почти одновременно и признаны едва ли не высшими достижениями в творчестве этих поэтов). Если откинуть все служебные слова, союзы и прочий «грамматический фон», то самым частым существительным у Пастернака является ночь, вслед за ним идут слова глаза, губы, звезда, сад. В «Камне» Мандельштама самое частое существительное — Рим, затем мир, сердце, печаль.

    Еще более разительный контраст получается, если сгруппировать существительные по «смысловым полям»: природа, вещи, человек, культура и история. Слова, относящиеся к «полям» человек и вещи, употребляются обоими поэтами примерно одинаково. Но если у Пастер» нака «поле» природа включает половину всех слов, то у Мандельштама — менее тридцати процентов. И, наоборот, «поле» культура и история у Пастернака занимает три процента слов, а у Мандельштама — почти двадцать!

    Смысловое «поле» флора у Пастернака содержит свыше сотни названий растений и слов, имеющих прямое отношение к растительному царству (грядка, шишка и т. п.). У Мандельштама в «Камне» лишь двенадцать названий растений. Пастернаковский «зоопарк» состоит почти из полусотни названий живых существ, от бациллы и стафилококка до ехидны и мамонта. Еще двадцать пять слов связаны с животным миром (рыба, гнездо, хвост и т. п.). Фауна Мандельштама бедней, всего лишь двадцать одно животное.

    Сопоставление подобного рода смысловых «полей», частот отдельных слов и групп слов ярко показывает различие между моделью мира, запечатленной Пастернаком в сборнике «Сестра моя жизнь», где чувства человека слиты в неразрывное целое с окружающей природой, и моделью мира Мандельштама, выраженной в сборнике «Камень», где история и культура органически связаны с человеческим бытием. А если бы у нас был частотный словарь по произведениям Маяковского, написанных в ту же пору, когда писались «Камень» и «Сестра моя жизнь», мы бы наглядно убедились в том, что модель мира великого пролетарского поэта была совсем иной, она обращена была на революцию, опрокинувшую старый строй.

    Стилистика и статистика

    К сожалению, помимо многотомного «Словаря языка Пушкина» мы имеем лишь частотный словарь «Стихов о Прекрасной Даме» Блока, да два словаря, о которых только что шла речь выше. Вероятно, в недалеком будущем у исследователей будет достаточное число таких словарей. И тогда можно будет сопоставлять творчество различных поэтов одной эпохи (например, Блока и Брюсова, Маяковского и Хлебникова, Пастернака и Есенина, Мандельштама и Цветаевой, Багрицкого и Уткина), проводить сопоставление различных сборников и поэм одного и того же поэта (скажем, сопоставить «Сестру мою жизнь» не только с «Камнем» Мандельштама, но и с другими произведениями самого Пастернака — «Волнами», «Темами и вариациями», «Спекторским» и т. д.).

    Не только на основании частотных словарей получаем мы возможность сделать доказательным то, что чувствуем лишь интуитивно, подсознательно. Методы статистики все шире проникают в литературоведение, поэтику, стилистику. С их помощью исследователи могут давать характеристику стилей различных авторов не только качественную, но и количественную.

    Так, уже простой подсчет среднего количества слов в предложении позволяет характеризовать стиль того или иного писателя с помощью чисел. Как пишет советский математик Р. Л. Добрушин, «можно сказать: А. Н. Толстой предпочитает более длинные фразы, а А. И. Куприн — более короткие». А можно сказать и так: «Среднее число слов в фразе в произведении Толстого «Сестры» равно 11,9, а среднее число слов в фразе в произведении Куприна «Поединок» — 9,5». Разница будет примерно такая же, как если в одном случае ограничиться утверждением, что производство угля в Советском Союзе больше, чем в Англии, а в другом — привести конкретные цифры. Каждому ясна большая доказательность утверждения во втором случае».

    Первую попытку применить статистику в литературоведении сделал почетный академик Н. А. Морозов, известный деятель «Народной воли», более четверти века проведший в одиночном заключении в Шлиссельбургской крепости. Правда, методика исследования его была несовершенна, что и отмечал крупнейший русский математик А. А. Марков сразу после выхода работы Морозова «Лингвистические спектры». «Только значительное расширение поля исследования (подсчет не пяти тысяч, а сотен тысяч знаков) может придать заключениям некоторую степень основательности, если только границы итогов различных писателей окажутся резко отделенными, а не обнаружится другое весьма вероятное обстоятельство, что итоги всех писателей будут колебаться около среднего числа, подчиняясь общим законам языка», — писал Марков в «Известиях Академии наук» в 1915 году.

    Действительно, подсчеты показывают, что стиль отдельных писателей можно характеризовать статистически, употребление отдельных частей речи, типов предложений и т. д. подчиняется определенной вероятностной закономерности.

    Приведем несколько примеров. На пятьсот знаменательных слов у Куприна приходится семьдесят семь глаголов, у Пушкина — сто десять, у Чехова — сто двадцать семь. В прозе Симонова на пятьсот слов приходится сто семьдесят существительных, сорок девять прилагательных, семьдесят три местоимения, сто одиннадцать глаголов. У Шолохова соответственно двести шестнадцать существительных, семьдесят семь прилагательных, тридцать девять местоимений, семьдесят семь глаголов.

    Еще более характерны числа, говорящие о соотношениях между частями речи у того или иного автора. «Лермонтов видит и изображает мир, Действительность в большем разнообразии качественных характеристик, признаков, чем это делает Пушкин: в среднем у Лермонтова 39 имен существительных из каждых 100 получают признаки прилагательных, а у Пушкина таких существительных всего 25; значит, речь и мышление Пушкина предметнее, Лермонтова — «качественнее». О сходной особенности речи и мышления двух авторов говорит и соотношение «наречие — глагол»: в среднем у Лермонтова на 100 глаголов приходится 42 наречия, а у Пушкина — всего 26; а это означает, что речь и мышление Лермонтова активнее окрашивают воспринимаемые процессы, чем это делают речь и мышление Пушкина. Интересно и то, что соотношение «существительное — глагол» и «глагол — существительное и прилагательное» оказываются у Пушкина и Лермонтова статистически равными, что позволяет опровергать гипотезу об особой глагольности речевого стиля Пушкина», — пишет Б. Н. Головин в книге «Язык и статистика».

    А вот какие интересные данные были получены после подсчета названий цветов у. разных авторов в их прозе и стихах. В стихах об Америке Маяковского на тысячу слов текста приходится восемь цветообозначений, а в прозе, говорящей о той же Америке, — только два слова на тысячу. В военной лирике Симонова названия цветов употребляются в восемь раз чаще, чем в его же рассказах военных лет.

    Вездесущие числа

    Мы уже говорили, что стиль каждого большого поэта и писателя имеет свои количественные характеристики. Они начинают служить филологам и литературоведам, позволяя решать спорные вопросы об авторстве с помощью чисел. Так, кстати сказать, решили давний вопрос «о дедушке Гомере»: был ли автором «Илиады» один человек или же, как полагали многие специалисты, «Илиада» — сборник героических песен, лишь по традиции приписываемый великому слепцу.

    Текст «Илиады» набили на перфокарты, затем ЭВМ тщательно проанализировала, то есть пересчитала все ритмические особенности каждой главы эпоса. Подсчеты машины неопровержимо показали: автором поэмы мог быть только один человек. Все главы «Илиады» сохраняют общее ритмическое единство.

    С помощью чисел ученые начинают решать не толь» ко практические, прикладные задачи языкознания и литературоведения, но и многие теоретические вопросы, Например, определять степень заимствования одного языка из словарного запаса другого. Как известно, заимствуются обычно слова, обозначающие предметы быта, культуры, труда, которых не было ранее у того или иного народа (естественно, что вместе с предметом заимствуется и его название). Например, русское слово спутник вошло во все языки мира, равно как французское одеколон, арабское жирафа, австралийское бумеранг и т. п.

    Все языки мира равны, на любом из них можно выразить все, что выражено на другом языке. Заимствования не говорят о том, что тот язык, из которого заимствуются слова — лучший, а который заимствует — худший. Однако разные языки по-разному восприимчивы к этим заимствованиям. Удивительной консервативностью обладает исландский язык. Иностранные слова практически в него не попадают, а новому понятию или термин ну подбираются свои собственные определения, средствами самого исландского языка. И вот футбол по-исландски звучит как кнаттспурна, то есть пинание мяча; дыня — как троллепли (яблоко великана), мотороллер — это трещащая гадюка, кинофильм — живой образ, ракета — огненный полет и т. п.

    Другие языки, наоборот, весьма восприимчивы к иностранным словам (вероятно, многие читатели знают о знаменитой полемике, которую вели в прошлом веке романтики и архаисты во главе с адмиралом Шишковым, предлагавшим калоши именовать мокроступами). В албанском языке, как показывают подсчеты, из пяти тысяч ста сорока слов собственными являются лишь четыреста тридцать слов, все остальные заимствованы из других языков. В армянском языке полторы тысячи слов из одной тысячи девятисот сорока заимствованы из персидского, греческого, сирийского, парфянского, арабского языков. В корейском языке до семидесяти процентов заимствований из китайского; в современном английском от пятидесяти до семидесяти процентов всех слов заимствованы из французского, латыни и другие романских языков.

    Ученые смогли проследить динамику этих заимствований. Известный датский лингвист Отто Есперсен исследовал несколько томов «Большого Оксфордского словаря» английского языка, в котором собрано около полумиллиона различных слов. Вслед за ним А. С. Бо провел подсчеты по всем томам этого монументального издания. Оказалось, что если принять количество заимствований в течение 1100–1600 годов за сто процентов, то около шестидесяти процентов слов было заимствовано в 1100–1400 годах, около двадцати — в 1401–1500 годах и примерно столько же — в 1501–1600 годах.

    Однако эти подсчеты говорят лишь о том, сколько слов дожило до нашего времени. Обычный словарь ничего не скажет, сколько слов французского языка не дожило, хотя они и были заимствованы в то или иное время англичанами. Тут на помощь приходят словари не простые, а частотные.

    Еще в 1947 году американский ученый Дж. Ципф обнаружил любопытнейшую связь между частотой употребления слова и его «возрастом». Чем выше эта частота, тем древнее слово. И, наоборот, слова с незначительной частотой, как правило, появились в языке сравнительно недавно (вы можете легко проверить по «Частотному словарю русского языка», о котором мы рассказывали). Там, где не помогает традиционная методика подсчета заимствований, срабатывает новая методика — по частотным словарям. Вот какие цифры были получены на материале частотного словаря английского языка. Оказывается, с 1100-го по 1400 год не шестьдесят, а все девяносто процентов слов было заимствовано из романских. На другие два периода (1401–1500 и 1501–1600 годы) остается лишь по пяти процентов от общего числа заимствованных слов.

    Была найдена и не менее интересная зависимость между временем появления слова в английском языке и его длиной в слогах. Почти половина всех односложных слов в английском языке имеет возраст в восемьсот и более лет. Такой же солидный возраст у двусложных слов, но уже не половины от их общего числа, а только одной пятой. Трехсложных слов этого возраста — три процента, четырехсложных — один процент. А среди пятисложных слов в английском языке нет ни одного, которое бы имело возраст в восемь столетий — все они моложе!

    Быть может, связь между временем и словами языка (английского, русского или любого другого языка мира) выражается не только в устойчивости слов, имеющих разное число слогов, но и в изменении всего словаря? Или по крайней мере какой-то его части? Нельзя ли найти лингвистические часы, подобные «часам» геологическим, хронологическим, астрономическим, с помощью которых мы определяем время событий?

    Эта мысль пришла в голову американскому языковеду Морису Свадешу по аналогии с методом датирования по распаду радиоактивного углерода. Лингвистическим часам был посвящен целый очерк в первом издании этой книги. Их называли «почти точным инструментом», позволяющим датировать события, о которых, казалось бы, не осталось никаких вещественных памятников или памятников письма. Как же смотрит наука на эту проблему в наши дни?

    Лингвистические часы

    Проанализировав скорость изменения нескольких языков и языковых семей, Свадеш нашел, что она равна примерно восьмидесяти двум плюс-минус два процента за тысячелетие. То есть в языке за тысячу лет сохраняется около восьмидесяти процентов слов, входящих в ядро, в основную лексику языка…

    Так ли это? Свадеш проанализировал древнеегипетский, китайский, романские языки. Если ход лингвистических часов объективен, как часов радиоуглеродных, то, стало быть, близкие результаты можно получить и на материале любых других языков мира. Однако когда ученые стали проверять эту «среднюю константу скорости», взяв другие языковые семьи, оказалось, что она не является всеобщей.

    Вот несколько примеров. По мнению археологов и лингвистов, единый праславянский язык стал распадаться в конце VI века до н. э. Однако подсчеты, проведенные по методу Свадеша, дали совсем иную дату. Русский и чешский языки, оказывается, разошлись четыреста-пятьсот лет назад, чешский и польский — двести-четыреста лет назад. Всякому, кто хоть немного знает историю своей страны и братских славянских народов, ясно, что эти числа смехотворно малы (более тысячи лет назад чехи имели и свою государственность, и свое письмо, и свой язык!).

    Поразительно неубедительную дату получили по методу лингвистических часов, когда сравнили два скандинавских языка — старонорвежский и исландский, чтобы определить время их расхождения. Известно, что к 930 году завершилось заселение Исландии, в основном выходцами из Норвегии. Между тем лингвистические часы показали не тысячу и даже не полтысячи лет, а всего шестьдесят три — сто девяносто четыре года. На самом деле уже в прошлом тысячелетии исландцы имели и свой язык и свою литературу.

    Правда, неточность хода лингвистических часов в этом случае можно оправдать той уникальной консервативностью исландского языка, о которой мы уже говорили выше… Ну, а славянские языки? Или, как показали исследования востоковедов, скорость изменения армянского языка, языков Средней Азии и ряда других, не соответствующая формуле Свадеша? Под вопрос стал сам метод датирования с помощью словаря, динамики изменения слов, его составляющих. Или, быть может, дело не в самом методе, а в лексике, тех словах, которые мы берем за эталон?

    Свадеш составил список из двухсот пятнадцати слов, потом сократил его до сотни. Но почему, собственно говоря, до ста? А может быть, надо расширить этот список до пятисот? Проверка показала, что разные слова имеют разную устойчивость. Русский язык — индоевропейский, числительное три звучит в нем так же, как звучало оно в языке древних хеттов, как звучит оно в священном языке Индии — санскрите, сходным образом звучит оно и в английском, немецком и других индоевропейских языках. А вот понятие «мальчик» меняло свой словесный ярлык по нескольку раз чуть ли не в истории каждого языка. В древней Руси говорили отрок, а потомки древнерусского языка — русский, украинский и белорусский — сменили это слово. Русские вместо отрока говорят мальчик, а украинцы и белорусы — хлопчик.

    Вот почему современные лингвисты начинают проверять слова на их устойчивость в языке, степень сохранения того или иного слова в зависимости от понятия, которое оно обозначает. Более того, оказывается, что есть связь между частотой употребления слова и временем его возникновения в языке. Не так давно в нашей стране вышла книга «Математические методы в исторической лингвистике», авторы которой М. В. Арапов и М. М. Херц предложили математическую модель лингвистических часов, где работы Свадеша оказываются лишь частным случаем более общего метода.

    По сравнению с методом Свадеша, «шаг вперед состоит здесь в том, что нет более необходимости требовать, чтобы скорость изменения словаря всегда была постоянной и им, ела одинаковое значение для различных языков, — пишут Арапов и Херц. — Таким образом, вместо списка слов, выражающих фиксированные, тщательно выбранные понятия, можно было бы взять случайно выбранный фрагмент словаря и проверять, имеют ли слова из него соответствия в родственном языке».

    Формулы, найденные советскими учеными, показывают, что случайная выборка из словаря распадается точив так же, как и весь словарь. А это значит, что такая случайная выборка подходит для целей датирования не меньше, чем отобранная сложным методом сотня-другая слов. Иными словами, механизм лингвистических часов оказался и более прост, и более сложен, чем это представлялось его первооткрывателю Морису Свадешу.

    Впрочем, такую простоту и одновременно сложность мы находим всякий раз, когда начинаем изучать язык с помощью статистики. Числа помогают лингвистам исследовать язык во всех его измерениях, начиная со слов и кончая субъективными ассоциациями, связанными со словами. Но за числами стоят, очевидно, какие-то закономерности, определяющие статистику.

    Нельзя ли увидеть за фактами формулы? Вскрыть с помощью математики механизмы языка, порождающие все многообразие нашей речи?

    От фактов к формулам

    Статистические данные отражают в числах рост, убывание или стабильность различных элементов языка. Но они не вскрывают механизм процесса, его динамику. Вот почему в настоящее время языковеды, имея дело с числами, стараются строить на их основании математические модели, которые не только отражают динамику, но и позволяют делать прогнозы на будущее и «заглядывать» в прошлое, о котором нет достоверных данных. Вот несколько подобного рода моделей, предложенных ленинградскими лингвистами А. А. Пиотровской и Р. Г. Пиотровским.

    В русских научных и электротехнических текстах XIX века слова типа вольт, рентген, радиан во множественном числе родительного падежа писались так: вольтов, рентгенов и т. п. Однако, как показала Л. К. Граудина, начиная с- конца восьмидесятых годов прошлого века, все чаще стали употребляться написания вольт, рентген, совпадающие с именительным падежом единственного числа. Спустя два-три десятилетия эти формы утвердились не только в профессиональной речи, но и в литературном языке. В итоге появилась новая группа имен существительных, которая в родительном падеже множественного числа имеет нулевое окончание: мы говорим и пишем: тысяча вольт, пять рентген, а не вольтов или рентгенов.

    Числовые данные, характеризующие динамику этого процесса, можно свести в таблицу (например, если в 1885 году написание типа вольт встречалось один раз на сотню, то в 1908 году — уже девяносто девять раз).

    Данные таблицы были перенесены на график, где по оси абсцисс отмечались годы, а по оси ординат — частоты форм с нулевым окончанием. «Полученная последовательность экспериментальных точек показывает резкое возрастание нулевых форм в период между 1886 и 1905 гг. Возникает вопрос, какой из функций можно воспользоваться для описания полученной зависимости? — пишут Пиотровские. — Линейная зависимость здесь применена быть не может, поскольку значения функции находятся в интервале от — со до + со, в то время как по условиям задачи область изменения нашей функции лежит в интервале между нулем и единицей (относительные частоты не могут быть меньше нуля и больше единицы)». Рост нулевых форм лучше всего моделирует график обратной тригонометрической функции f = arctg t, где f — частота нулевых форм, а t — годы.

    Пример этот имеет иллюстративный характер — все числовые данные у нас были. Однако часто лингвисты имеют дело с отрывочными сведениями, неполными материалами по диалекту, эпохе или стилю того или иного языка. Здесь математическая модель помогает восстановить не засвидетельствованные в дошедших до нас памятниках этапы развития языка. Так, А. А. Пиотровская и Р. Г. Пиотровский выводят формулу, по которой можно вычислить динамику формирования и развития в старофранцузском языке определенного артикля (формирование это шло в народно-разговорной речи, которая почти не отражена в дошедших до нас памятниках той эпохи).

    Зависимость между объемом текста, который подвергается обработке, и числом разных слов, которые в нем окажутся, очевидна. Нельзя ли отыскать математически строгую формулу, по которой можно было бы, исходя из объема текста, вычислять количество слов? И определять, какой объем даст нам статистически достоверные результаты?

    Первым найти такую формулу словаря попытался уже упоминавшийся нами Дж. Ципф. Связь между частотой употребления слова и его рангом, то есть номером в списке, получила наименование «закон Ципфа». Частотные словари представляют собой обычно списки слов, которые расположены по их рангу: первым идет слово, которое встречается чаще всего, затем второе по встречаемости и т. д. Однако выяснилось, что «закон Ципфа» не универсален. Были попытки описать распределение слов в тексте с помощью специальных формул теории вероятностей — так называемого нормального распределения, распределения Пуассона, распределения Маркова— Колмогорова и т. д. (причем, как показала советская исследовательница М. Е. Каширина, распределение Маркова — Колмогорова является наиболее общим и универсальным для распределения любых языковых единиц).

    В теории вероятностей известны десятки законов распределения случайной величины. Задача статистической лингвистики — выбрать тот закон, который лучше всего отражает именно реалии языка, а не какие-либо иные закономерности.

    Вот характерный пример, заимствованный нами из учебника «Математическая лингвистика», написанного Р. Г. Пиотровским, К. Б. Бектаевым и А. А. Пиотровской. И наше обычное поведение, и функционирование техники, и порождение речи — в той или иной степени вероятностны. Садясь в самолет или автомобиль, мы уверены, что все будет хорошо. Составляя словарь для перевода русских текстов по математике, мы не станем включать в него слово дядя или словосочетание бубновый туз.

    И все-таки несчастные случаи, увы, бывают, какова бы ни была их вероятность. В книгах по математике можно найти и бубнового туза и даже дядю (так, в труде «Теория вероятностей» Е. С. Вентцель читатель может обнаружить цитату из начала «Евгения Онегина», знаменитое «Мой дядя самых честных правил…»). Так что же, отменить автомобили и не летать на самолетах? А в математические словари наряду со словом дядя включать еще и тетю, и бабушку, и названия игральных карт и вообще все сотни тысяч русских слов? Разумеется, нет.

    Если сравнить астрономически большое число полетов и автомобильных пробегов с числом несчастных случаев, станет ясно, насколько мала их вероятность. И вероятность всех этих дядей и бубновых тузов в математических трактатах мала — хотя авторы их могут и процитировать Пушкина, и воспользоваться известными всем игральными картами, иллюстрируя пример случайного выбора или комбинаторных сочетаний.

    Студент сдает экзамен. Из ста предложений, данных ему для перевода, в шести он напутал с синтаксисом. Пятерки такой студент не заслужил, но зачет ему поставит любой здравомыслящий преподаватель, даже не знакомый с теорией вероятностей. Ибо понимает, что с помощью словаря такой студент сумеет перевести любой взятый наугад текст. Но если такое же число ошибок сделает машина-переводчик, ее программа зачета не получит. Студент умеет пользоваться словарем, при переводе опирается на смысл фразы, и небольшие помехи с синтаксисом ему не слишком повредят. А ЭВМ свои ошибки в синтаксисе не искупит ни лексикой, ни смыслом, ей недоступным. Прощать мы должны не шесть, а скажем, одну ошибку на сто фраз.

    Что же касается техники, тут дело и вовсе серьезное. Вот почему так строго к нарушениям наше ГАИ и так тщательно проверяют готовность самолета работники Аэрофлота. Ибо тут, когда речь идет о людях, случайность должна быть сведена до минимума: не одну ошибку на сотню случаев, а даже одну ошибку на сто тысяч нельзя допускать!

    Инженерная лингвистика

    Связь техники, статистики и языкознания наметилась давно. Ведь даже на простой, но очень важный вопрос: как удобнее расположить клавиши на пишущей машинке? — нельзя ответить одному только технику или лингвисту. Нужно знать частоты употребления различных букв и сочетаний этих букв. Нужно знать конструкцию машинки (вот почему редкие буквы расположены на периферии, а частые — в центре клавиатуры, причем на основании статистики спарены т и ь, п и р и т. д.).

    Изобретение телеграфа, телефона, других средств связи вызвало сближение инженерии, математики и лингвистики. Их союз помогает решать задачи кодирования слов и букв языка в электрические сигналы, сокращения «избыточных» частей текста при передаче телеграмм.

    Однако подлинный союз техники, лингвистики и статистики в изучении языка начался с появлением электронных вычислительных машин. Если раньше необходимые подсчеты требовали многих лет труда и большого коллектива сотрудников, то теперь с помощью ЭВМ они могут быть произведены очень быстро и экономично.

    Мы упоминали частотный словарь немецкого языка, составленный Кедингом на основании одиннадцати миллионов слов. Разумеется, один человек такую работу проделать не мог: не хватило бы всей его жизни. В составлении словаря Кедингу помогали сотрудники. Как вы думаете, сколько их было? Десяток, сотня, две сотни? Нет, гораздо больше — тысяча человек!

    В течение нескольких лет вел кропотливую работу над составлением «Словаря языка Пушкина» коллектив сотрудников Института русского языка Академии наук СССР. Четверть века вели свою работу над частотным словарем английского языка Торндайк и Лордж…

    В наши дни составление этих словарей поручено электронным вычислительным машинам. Именно они являются соавторами всех больших частотных словарей, появившихся в последние годы, включая «Частотный словарь русского языка».

    С помощью ЭВМ в наши дни осуществляется издание монументального, в пятнадцати томах, словаря французского языка. Он охватывает почти шестьсот произведений авторов XVIII–XX столетий, общим объемом в семьдесят миллионов (!) слов. Каждому из семидесяти тысяч слов, вошедших в словарь, дается толкование, приводится общая частота его употребления, а также частоты, с которыми оно употреблялось в том или ином веке. Нет сомнения в том, что и для других языков появятся столь же нужные словари. Конечно, без машины составление их вряд ли было бы возможно: вспомните Кединга и его тысячу помощников.

    ЭВМ помогают и в составлении частотных словарей отдельных «подъязыков», охватывающих ту или иную область науки и техники: электронику, терапию, строительные материалы, автомобилестроение, геологию нефти и газа и т. п. В нашей стране составлено более десятка таких словарей для английского, немецкого, французского и других языков. Осуществляет это важное и жизненно необходимое для практики дело группа «Статистика речи».

    Правда, объем текстов, взятых для словаря, сравнительно невелик: выборка состоит, как правило, из двухсот тысяч слов. Но на это есть свои причины. Вы помните, что львиная доля текста покрывается самыми частыми словами, первой их тысячью. Вторая тысяча частых слов даст незначительный прирост, третья — еще меньший и т. д. Чем больший объем текста мы возьмем, тем больше разных слов в нем будет, но прирост этот будет замедляться. Вот что показывают расчеты. В словаре английского языка, составленном Г. Кучерой на основе машинной обработки миллиона слов, встретилось около пятидесяти тысяч различных слов. Если увеличить выборку в десять раз, то есть до десяти миллионов, число разных слов возросло бы не в десять, а примерно в два с половиной раза. Если довести выборку до ста миллионов слов, число разных слов увеличилось бы не в сто, а лишь в четыре раза.

    Еще меньший прирост дают тексты по отдельным подъязыкам и областям знания. Вот какая картина рисуется нам, если мы попробуем применить ЭВМ для составления полного частотного словаря английских текстов по электронике. Двести тысяч слов, обработанных на машине, дали около десяти тысяч различных слов. Если увеличить выборку в пять раз, до миллиона слов, то число разных слов даже не удвоится. Увеличь мы выборку в пятьдесят раз, число разных слов возрастет только в три раза; увеличение в пятьсот раз, до ста миллионов слов, даст прирост в четыре раза. И если мы доведем выборку до фантастической величины в десять миллиардов, то есть в пятьдесят тысяч раз, то число разных слов возрастет лишь шестикратно. Наш словарь охватит лишь шестьдесят тысяч разных слов, между тем терминология электроники гораздо богаче, эти слова ее не исчерпывают, хотя мы обработали бы на ЭВМ около тридцати миллионов страниц текстов!

    Вот почему ученые находят более рациональное применение вычислительной технике. С помощью машин выявляются не все слова в той или иной области науки и техники (где употребляются сотни тысяч различных терминов), а наиболее употребительные, а также самые частые словосочетания. Ведь они, например, в отраслевых англо-русских словарях, занимают почти три четверти объема словаря. Выявить же эти сочетания, одновременно подсчитывая их частоту вручную, практически невозможно: лишь ЭВМ способна проделать столь утомительную и однообразную работу.

    Но не только электронные вычислительные машины оказывают помощь лингвистике. В свою очередь, помощь современного языкознания оказалась крайне необходимой для вычислительной техники. С рождением кибернетики появляется и проблема «разговора» человека и робота. ЭВМ понимают только строго формализованный, однозначный язык чисел и логических команд. Можно ли перевести на него наш обычный человеческий язык?

    Машинный перевод с одного языка на другой, машинный перевод устной речи в письменную и письменной в устную, наконец, разговор с машиною «по-человечески», то есть ввод и вывод информации в машину посредством устной речи — все эти задачи несколько десятков лет назад относились к области научной фантастики. А ныне они стали реальными и важными проблемами практики. И решать эти проблемы можно лишь в тесном содружестве математиков, техников и языковедов.

    Инженерная лингвистика — так называют это направление в научной литературе. И речь здесь идет не о том, чтобы инженер обучился основам языкознания, а лингвист — математике и электронике. Инженерная лингвистика в наши дни превратилась в отрасль исследований, имеющих свои конкретные задачи, свою методику и свои объекты изучения. Причем, как отмечает руководитель группы «Статистика речи» Р. Г. Пиотровский, решая собственные задачи, инженерная лингвистика стимулирует появление новых идей не только в области языкознания и смежных наук, но и в таких, казалось бы, далеких от нее дисциплинах, как методика преподавания языков, структурное литературоведение, радиолокация, психиатрия. Но особое значение для инженерной лингвистики имеет ее связь с кибернетикой и электронными вычислительными машинами.

    Каждая идея и разработка инженерной лингвистики должна быть реализована на ЭВМ. Без машины, без робота теряется сама суть, смысл этого направления. Первые попытки машинного перевода состояли в том, чтобы передать машине поиск слов в словаре. Задолго до наступления эры кибернетики, в 1933 году, советскому инженеру П. П. Троянскому было выдано авторское свидетельство на изобретение «машины для подбора и печатания слов при переводе с одного языка на другой или несколько других одновременно». Но чем дальше шли работы в области машинного перевода, или, как говорят специалисты, МП, тем яснее становилось, что осуществить этот перевод можно лишь тогда, когда мы сумеем заставить машину переводить по-человечески, не по форме, а по смыслу…

    Так у инженерной лингвистики появилась стержневая проблема: автоматическое распознавание смыслового образа. И проблема эта связана с другими проблемами распознавания образа машиной — зрительного для читающих автоматов, звукового для автоматов, действующих по приказу, который дает человеческий голос.

    Тут от, казалось бы, сугубо технических проблем инженерная лингвистика переходит к проблемам, стоящим на повестке дня авангарда современной науки: моделированию мышления, работы человеческого мозга…









    Главная | Контакты | Нашёл ошибку | Прислать материал | Добавить в избранное

    Все материалы представлены для ознакомления и принадлежат их авторам.