Незважаючи на активний розвиток корпусної лінгвістики в Україні, досі існує велика прогалина
в царині розробки паралельних корпусів. Метою роботи є формулювання основних засад творення та
використання паралельного корпусу текстів ПарКУМ. Завдання, що вирішуються в ході дослідження:
визначення напрямів перекладу та принципів добору текстів; вибір основних параметрів розмітки;
визначення концепції роботи з матеріалом; розробка структури користувацького інтерфейсу.
Подається інформація про всі типи розмітки, передбачені в корпусі: метатекстову, структурну та лінгвістичну. Окрім опису структури проекту, подано роз’яснення щодо принципів роботи з корпусом.
Несмотря на активное развитие корпусной лингвистики в Украине, до сих пор существует
большой пробел в области разработки параллельных корпусов. На сегодня почти не существует в
открытом доступе подобных проектов, содержащих украиноязычные тексты. Цель статьи –
изложение основных принципов создания и использования корпуса параллельных текстов ПарКУМ.
Задания, решаемые в ходе исследования: определение принципов подбора текстов; выбор основных
параметров разметки; формирование концепции работы с материалом; разработка структуры
пользовательского интерфейса. Предоставляется информация обо всех типах разметки,
предусмотренных в корпусе: метатекстовой, структурной и лингвистической, обеспечивающей
возможность поиска информации не только по конкретным лексемам, но и по грамматическим
признакам.
Despite the fact that Ukrainian corpus linguistics has some visible achievements, there is one field
which is still almost unexplored – parallel corpora. In this paper we present a project of parallel corpus
containing Ukrainian texts. The goal of our research is to formulate the basic principles of parallel corpus
development. The tasks being solved are: to define the directions of translation and demands to the textual
material; to choose necessary parameters of annotation; to build the architecture of corpus system and define
user roles; to develop user interface. The article gives the information about all types of tagging specified for
the corpus texts: metadata, structural and linguistic annotation. The corpus works in two modes:
administrative (available after the registration at the http://mova.info) and search. The project works in test
mode. The Ukrainian-English and English-Ukrainian parallel texts are being collected now and some
examples of them are already available for search. On the next stages the corpus fill be filled with other
parallel texts – polish, Bulgarian, Turkish, German etc.