7–11 Oct 2024
Asia/Novosibirsk timezone

Применение филогенетических методов к языковым данным

Speaker

Анна Александровна Гриневич (ИВМиМГ СО РАН, IFL SB RAS)

Description

Исследование посвящено применению биологических методов кластерного анализа к текстовым данным. Численные методы обладают определенной универсальностью и могут быть использованы в иных, не смежных с биологией, научных направлениях [1]. Цель исследования заключалась в использовании различных методов кластеризации для выявления групп в корпусе текстов, а также установлении между ними эволюционных связей.
В исследовании сравниваются результаты применения двух алгоритмов иерархической кластеризации: метод объединения соседей (neighbor-joining, NJ)[3] и метод максимальной парсимонии или экономии (method of maximum parsimony, MMP)[2]. Метод NJ основан на вычислении матрицы попарных расстояний (distance-based algorithmic method), а MMP – метод поиска дерева, основанного на признаках (character-based tree-searching methods). В результате было получено два дерева, топология которых существенно различается: MMP показал более интерпретируемый результат, который подтверждается данными из других гуманитарных наук, NJ не позволил выявить типологии в анализируемых данных.
Метод MMP имеет ряд преимуществ по сравнению с историко-географическим методом, который обычно используется в филологии при изучении межкультурных связей языковых традиций и заключается в идентификации сказочных типов: 1) он позволяет учитывать все потенциально значимые особенности в классификации текстов; 2) позволяет избежать предположения о том, что наиболее распространенная форма является предком (наиболее критикуемый аспект историко-географического метода); 3) предоставляет инструменты для количественной оценки в формировании сходства между текстами.

  1. Cavalli-Sforza L.L., Feldman M.W.(1981).Cultural Transmission and Evolution: A Quantitative Approach.Princeton University Press.
  2. Hennig W.(1979).Phylogenetic Systematics. University of Illinois Press.
  3. Saitou N., Nei M.(1987).The neighbor-joining method: a new method for reconstructing phylogenetic trees. Molecular Biology and Evolution,4(4),406–425.
Секция конференции Методы искусственного интеллекта и машинного обучения

Primary author

Анна Александровна Гриневич (ИВМиМГ СО РАН, IFL SB RAS)

Presentation materials

There are no materials yet.