Украино-русский параллельный текстовый корпус из веб-публикаций
В Информационном центре ElVisti реализован алгоритм создания
корпуса параллельных текстов, представленных на различных языках.
Построен первый украино-русский параллельный корпус из
веб-публикаций объемом около 30 тысяч документов.
Алгоритм базируется на использовании "опорных слов" в тестовых документах,
а также средствах их автоматического перевода. Опорные слова в рамках данного
алгоритма выделяются с использованием русского и украинского
морфологических словарей, а также словарей переводов имен существительных
для русского и украинского языков. Кроме того, для вычисления весов терминов
в документах используются некоторые дополнительные эмпирико-статистические
правила. Алгоритм был реализован в виде программного комплекса, интегрированного с
системой контент-мониторинга InfoStream.
В результате был построен
параллельный двуязычный корпус веб-публикаций объемом около 30 тысяч
документов, размещенный по адресу
http://ling.infostream.ua/, доступный для поиска в режиме онлайн и для скачивания:
- украинский массив ~20 MB
- русский массив ~20 MB
Информация представлена в кодировке KOI8-U, в заархивированном виде (gzip).
Объем корпуса - 29 884 документов.
Количество источников:
- на украинском языке - 328;
- на русском языке - 574.
Количество уникальных слов:
- в украинском массиве - 181453;
- в русском массиве - 174640.
Использование этого корпуса в научных и учебных целях - свободное.
Подробности - в статье Д.Ландэ и
В.Жигало.
Препринт:
arXiv:0807.0311,
PDF
© ElVisti IC.
|