Наш проект направлен на изучение фамилий болгаро-гагаузского происхождения. Пользователи смогут проанализировать свои фамилии и больше узнать о своей идентичности. Кроме того, инструмент позволит исследователям изучать целый пул фамилий одновременно.
Этническая идентичность – это один из важнейших компонентов для формирования целостной личности. Сегодня в мультикультурных регионах различия между этническими группами стираются, поэтому человеку все сложнее найти свою идентичность. Одним из инструментов определения идентичности является поиск предков, который можно осуществить по фамилии. Однако архивный поиск – это достаточно трудозатратный процесс, осуществляемый профессиональными генеалогами.
Исследовательская идея заключается в разработке инструмента для быстрого анализа фамилии. Анализ фамилии состоит из нескольких пунктов: семантика фамилии, этнокультурный контекст появления, эволюция морфемных модификаций, выделение неизменяемой основы, кластеризация фамилий, т.е. сравнение словоформ и выведение общих множеств.
В файле содержится код с результатами текущего этапа разработки проекта. Были собраны данные из болгаро-русских и гагаузско-русских онлайн-словарей. При помощи расстояния Левенштейна ведется поиск по собранным источникам и выделяется список слов, с которыми было найдено наибольшее количество совпадений. Таким образом, возможно провести семантическиц анализ корня фамилии и определить ее происхождение.