Ландэ Д.В., Жигало В. В. Подход к созданию многоязычных параллельных корпусов веб-публикаций.// Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог 2009" (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15). - М.: РГГУ, 2009. - C. 278-283.Описан метод построения двуязычного параллельного корпуса веб-публикаций, базирующийся на использовании частотных морфологических словарей, а также эмпирико-статистических алгоритмов. Предложен подход к преодолению омонимии в родственных флективных языках, позволяющий отбирать наиболее частотные нормальные формы. Алгоритм реализован в качестве программного комплекса и интегрирован в систему контент-мониторинга InfoStream. На основе предложенного метода был создан двуязычный русско-украинский параллельный корпус текстов веб-публикаций объемом свыше 450 000 пар документов. |