Лингвистическая математика - основные понятия дисциплины


Индуктивные науки – науки, которые строятся на основе обобщения наблюдений и экспериментов, их выводы имеют вероятностный характер и различную надёжность.
Дедуктивные науки – науки, которые строятся на основе аксиоматического метода (математика, логика, некоторые разделы физики).
Аксиоматический метод – способ построения научной теории, при котором в основу кладутся некоторые исходные положения (аксиомы или постулаты), а все остальные положения (теоремы) выводятся из исходных путем рассуждений, называемых доказательствами.
Количественный анализ – выявление и формирование системы численных характеристик изучаемых объектов, явлений и процессов, которые будут подвергнуты определенной математической обработке.
Квантитативная лингвистика – междисциплинарное направление в прикладных исследованиях (условное название, широко используемое в современной научной литературе). В качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Противопоставляется комбинаторной лингвистике, в которой доминирующую роль занимает «неколичественный» математический аппарат – теория множеств, математическая логика, теория алгоритмов и т. д.
Лингво-математическая модель – математическое представление таких сторон и свойств лингвистических объектов, которые могут быть формализованы и выражены на математическом языке при помощи математических средств.
Математическая экспликациия лингвистического объекта или явления – расчленение сложной лингвистической проблемы (не имеющей полного решения) на более простые, логически сформулированные и имеющие алгоритмическое решение математические задачи.
Адекватность математического метода – степень соответствия формальной модели, предполагаемой методом, характеру изучаемого с его помощью явления. В силу трудностей формализации лингвистических явлений проблема адекватности математического метода в лингвистике стоит очень остро. Любая модель всегда более проста, чем отражаемая ею реальность. Задачи лингвиста, желающего эффективно применить математический метод, сводятся к четкому выделению того, что именно он отразил, использовав тот или иной математический аппарат и от чего в процессе такого использования абстрагировался; к определению на этой основе того, какими выводами и в каком смысле он может практически пользоваться; к выработке подходов к тому, чтобы максимально использовать отображенные обстоятельства; к попытке учесть то, что не было отражено, при интерпретации результатов применения математического метода. Решение этих задач возможно лишь при соблюдении ряда методологических принципов применения математических методов в лингвистическом исследовании и требует тесного контакта лингвиста и математика.
Выборочный метод – метод изучения некоторой обозримой части генеральной совокупности (ГС) – выборочной совокупности (ВС) из-за невозможности или нецелесообразности рассмотрения всей ГС. При этом основные статистические характеристики ВС рассматриваются как некое приближение характеристик объектов ГС, и результаты обработки выборочных данных обобщаются (экстраполируются) на всю ГС и даже на подобные однородные совокупности.
Генеральная совокупность (ГС) – множество всех возможных однородных объектов, обладающих признаками (признаком), составляющими предмет анализа. Генеральная лингвистическая совокупность (ГЛС) – совокупность однородных лингвистических объектов (лингвистических единиц), обладающих признаком/признаками, составляющим/и предмет лингвистического анализа.
Выборочная совокупность (ВС) или выборка – часть объектов ГС, отобранная с помощью специальных приемов для получения надёжной информации обо всей ГС.
Репрезентативность – способность ВС отражать все исследуемые свойства объектов в той пропорции, которая наблюдается в ГС, т. е. частота исследуемых свойств в ВС должна быть близка соответствующей частоте в ГС.
Объём выборки – число единиц наблюдения, составляющих ВС. Определение объёма выборки, удовлетворяющего заданным требованиям точности, представляет собой один из основных этапов ее формирования.
Относительная ошибка δ (степень точности) – величина, которая характеризует ширину доверительного интервала, в который попадает относительная частота исследуемого свойства. Таким образом, если частота f какого-либо свойства (параметра и т. п.) вычислена с относительной ошибкой δ, то это означает, что реальная частота попадает в интервал от (f - δ*f) до (f + δ*f).
Надежность ρ (измеряемую в % или в виде десятичной дроби) трактуют обычно так. Пусть проведен один опыт на выборке А и получена частота f исследуемого свойства с относительной ошибкой δ, тогда надёжность ρ=95% (или ρ =0,95) означает, что если взять 100 аналогичных А выборок, то в 95 из них относительная частота f будет находиться в пределах от (f - δ*f) до (f + δ*f) и лишь в 5 из них может выходить за эти пределы.
В лингвостатистических моделях:
– словоупотребление (по Г. Глúсону) – цепочка букв, заключенная между двумя пробелами в тексте и имеющая одно значение (омонимические словоупотребления рассматриваются как различные);
– словоформа – полностью совпадающие словоупотребления;
– слово – некоторый класс (сумма) семантически и грамматически связанных между собой словоформ.
– лемма (словарная словоформа) – слово в основной, исходной форме, в качестве которой в русском языке выступает обычно именительный падеж единственного числа – для именных форм и инфинитив – для глагольных форм.
Словоупотребление является единицей текста (речь), слово – единицей словаря (язык), словоформа обычно используется в качестве единицы частотного словаря.
Корпусная лингвистика – раздел лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов текстов с помощью компьютерных технологий. Предмет корпусной лингвистики – теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований широким кругом пользователей.
Лингвистический (языковой) корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Под репрезентативностью корпуса понимают необходимо-достаточное и пропорциональное представление текстов различных периодов, жанров, стилей, авторов и т. п. Строго математическое описание репрезентативности невозможно, однако к этому нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.
Частотный словарь – включает в себя те слова или другие лингвистические единицы (словоформы, словосочетания), которые зарегистрированы составителем в обследованных им текстах (или тексте). При этих словах, словоформах и т.д. указываются частоты их употребления в данных текстах (тексте).
Сущность контент-анализа – по внешним (количественным) характеристикам текста на уровне слов и словосочетаний делаются правдоподобные предположения о его плане содержания и, как следствие, выводы об особенностях мышления и сознания автора текста – его намерениях, установках, желаниях, ценностных ориентациях и т. д.