Выровненный украинско-русский параллельный текстовый корпус
В Информационном центре ElVisti создан выровненный на уровне предложений
украинско-русский параллельный текстовый корпус из веб-публикаций. Объем
корпуса - более 2,6 млн. пар уникальных предложений.
Метод построения корпуса базируется на использовании "опорных слов" в
тестовых документах, а также средствах их автоматического перевода. Опорные
слова в рамках данного подхода выделяются с использованием русского и
украинского морфологических словарей, а также словарей переводов имен
существительных для русского и украинского языков. Кроме того, для
вычисления весов терминов в документах используются некоторые дополнительные
эмпирико-статистические правила. Для выравнивания параллельного корпуса на
уровне предложений использовались преимущественно статистические методы.
Алгоритмы были реализованы в виде программного комплекса, который
интегрирован с системой контент-мониторинга InfoStream, благодаря чему
корпус постоянно пополняется.
Предполагается дальнейшее использование данного лингвистического ресурса для
создания системы автоматического перевода новостных сообщений.
Для интернет-пользователей обеспечена возможность поиска
в этом корпусе в режиме онлайн.
Для скачивания на сайте http://ling.infostream.ua/ доступен заархивированный фрагмент параллельного корпуса
размером в 100 тысяч пар уникальных предложений (в ZIP-архиве ~ 9 МБ).
Формат представления данных приближен к XML. Использование этого фрагмента корпуса в научных и учебных
целях - свободное.
ИЦ "ЭЛВИСТИ"
+38(044)239-90-91
http://infostream.ua
|