The paper focuses on the conception of multimedia corpus “Everyone has their own war”, its marking up with ELAN software, the system of tiers, and types of tasks that can be solved with the help of this corpus. The spoken corpus will contain recordings of semi-directive audio interviews in Ukrainian / Russian presented in audio and text formats, and translations of the recordings into English and French, designed and annotated with ELAN software employment. The practical result of the work is the creation of an annotation system that explicitly and visually represents the phenomena of speech. Each sample / pattern of original speech is annotated on both lexical and morphological levels. The format of the transcript of oral discourse and a markup by tiers provides the possibility of processing the presented language material. Moreover, at different tiers, there is both purely linguistic information and information of another level – marks about the emotional component, and the selection of non-verbal phenomena. The next stage of the project aims to correct the existing errors, to improve the system of multi-level annotation and then to integrate all the materials (audio, text and annotation files) into a corpus.
It is expected that as a result the multimedia corpus will be used not only for linguistic research, but also as a source of educational material and a base for both studying and teaching, in particular the Ukrainian language in its sound form, in teaching translation, etc. Since it is assumed that the corpus is dynamic, the collection of materials continues on a regular basis. The further task of the corpus development is to increase its volume and ensure its gender and age balance. Yet another task is to expand the geography of the corpus by including speech recordings made in different regions of Ukraine. Along with contributing to the development of corpus-based research, corpus creation itself will become a chronicle of modern sociolinguistic stratification of Ukrainian society. Therefore, it can also serve as an informative source for studying the individual experience of the events of the Russian-Ukrainian war.
У статті висвітлено концепцію мультимедійного корпусу “Війна у кожного своя”, особливості його розмітки з використанням програмного забезпечення ELAN, систему рівнів, типи завдань, які можуть бути вирішені за допомогою цього корпусу. Корпус міститиме записи напівдирективних аудіоінтерв’ю українською / російською мовами, представлені в аудіо- та текстовому форматах, перекладені англійською та французькою мовами, оформлені та анотовані за допомогою програмного забезпечення ELAN. Практичним результатом роботи є створення системи анотування, яка експліцитно репрезентує явища мовлення. Кожний фрагмент мовлення мовами оригіналу анотується на лексичному та морфологічному рівнях. Формат стенограми усного мовлення та розмітка за рівнями забезпечують можливість опрацювання мовного матеріалу. На різних рівнях представлено як суто лінгвістичну інформацію, так і позначки про емоційну складову мовця, виділено невербальні маркери. Наступний етап проєкту спрямований на виправлення наявних помилок, вдосконалення системи різнорівневої розмітки й об’єднання матеріалів (звукових, текстових і анотаційних файлів) у корпус. Очікується, що створюваний мультимедійний корпус, може бути використаний для лінгвістичних досліджень, навчання перекладу та як джерело навчального матеріалу для вивчення фоно-просодичного рівня української мови і мовлення. Оскільки передбачається, що корпус буде динамічним, збір матеріалу триває. Тому подальшим завданням проєкту є збільшення обсягу корпусу, забезпечення гендерної та вікової збалансованості інформантів і розширення географії корпусу за рахунок включення записів, зроблених у різних регіонах України. Створення корпусу не лише сприятиме розвитку корпусних досліджень, а й поставатиме літописом сучасної соціолінгвістичної стратифікації українського суспільства. Отже, цей корпус також слугує інформативним джерелом для вивчення індивідуального досвіду переживання подій російсько-української війни.