Сравнение корпусной лингвистики и частотного словаря

Этапы

Корпусная лингвистика

Частотный словарь

I. Цели исследования

Целью исследования является обеспечение научных исследований лексики и грамматики языка, происходящих в языке на протяжении многих лет.

Важной целью частотного словаря является: представление живого словоупотребления образованного человека; дать достаточно полные сведения о лексике  учетом жанровой дифференциации; установить границ активного словаря.

II.Единицы анализа и счета

Словоформа

Лексема

III.Методика сбора информации: ГЛС и ВЛС

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов. Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа.

Для отбора элементов словника материалом служили тексты, расчлененные на отрезки, букворяды и другие графические символы, разделенные пробелами. В число графических знаков, образующих текстовые слова, входят буквы русского алфавита, дефис и точка, не являющаяся концом предложения. Все остальные графические знаки не учитывались при обработке текстов. Выделение графических слов задается правилами орфографии. При факторизации текста использовался принцип лексико-синтаксической эквивалентности.

IV.Репрезентативность выборки

Общим объемом                         словоупотреблений -149 357 020 словоупотреблений. В Национальный корпус русского языка включены прозаические оригинальные тексты, представляющие русский литературный язык (с середины XVIII века), но также и (в меньшем объёме) переводные сочинения (параллельно с оригиналом), поэтические тексты, а также тексты, представляющие нелитературные формы современного русского языка: разговорную (записи устной речи, публичной и непубличной), диалектную.

Хронологические рамки словаря включают эпоху от произведений Ленина и Горького до 60-х годов, т.е Частотный словарь включает фонд  лексики русского языка XX века. За пределами словаря остаются стихотворные тексты, сатирические тексты, тексты точных наук. При составлении словаря учитывалась однородность выборок в пределах четырех функционально-речевых сфер. Словарь в первую очередь отражает устойчивую часть лексики, общеупотребительную и нейтральную, составляющую общую основу для всех жанров.

V.Вопрос о рациональном объеме выборки (для заданных δ и ρ)