У статті розглянуто лінгвістичні засади семантичного розмічування Корпусу української мови як четвертого етапу представлення інформації про одиниці Корпусу. В основу розмічування покладено
таксономічну класифікацію корпусу російської мови, але доповнену та видозмінену. Створено
програмне забезпечення для роботи в он-лайн режимі. Матеріалом слугував частотний словник
публіцистичного стилю обсягом 40 тис. лексем, укладений на вибірці 16 млн словоформ
українськомовного тексту.
В статье рассмотрены лингвистические основы семантической разметки Корпуса украинского
языка как четвертого этапа представления информации о единицах Корпуса. В основу разметки
положена таксономическая классификация корпуса русского языка, но дополненная и видозмененная.
Создано программное обеспечение для работы в он-лайн режиме. Материалом послужил частотный словарь публицистического стиля объемом в 40 тыс. лексем, созданный на выборке в 16 млн словоформ украиноязычного текста.
The article views linguistic aspects of semantic tagging within the Ukrainian Corpus. The lexical
content of texts of different genres, in particular, modern fiction, drama, journalism, scientific, popular
scientific, and business will be provided with a specific tagging respectively. The work represents two types of
tagging: I – a taxonomic one, featuring journalistic and fiction genre and II – a thesaurus-based tagging
specifically for scientific and business genres.
The tagging is based on taxonomic classification applied in the Russian Corpus but extended and extra
modified. There were developed the software tools for online work based on materials of frequency dictionary
of journalistic style with a total volume of 40,000 lexems compiled from the sampling of 16 Million word forms
of Ukrainian texts. The thesaurus-based approach is grounded on the identification of thematically relevant
lexical-semantic variations and grouping them by applying a formalized method of a thesaurus construction,
which meets the standards of modern terminography. There were developed the software tools for performing
of two types of semantic tagging.