DSpace at library NPU Dragomanova » Науковий часопис Національного педагогічного університету імені М.П. Драгоманова » Серія 09. Сучасні тенденції розвитку мов » Випуск 15 »

Please use this identifier to cite or link to this item: http://enpuir.npu.edu.ua/handle/123456789/17838
Title: Можливості семантичної розмітки корпусу української мови (КУМ)
Other Titles: Возможности семантической разметки корпуса украинского языка (КУЯ)
Capabilities of Semantic Tagging Within the Ukrainian Corpus
Authors: Дарчук, Н. П.
Keywords: Корпус текстів
семантичне розмічування
таксономічна класифікація
таксон
тезаурус
інформаційно-пошукова система
Корпус текстов
семантическая разметка
таксономическая классификация
linguistic corpus
semantic tagging
taxonomic classification
taxon
thesaurus
information retrieval system
Issue Date: 2017
Publisher: Видавництво НПУ імені М. П. Драгоманова
Citation: Дарчук, Н. П. Можливості семантичної розмітки корпусу української мови (КУМ) / Н. П. Дарчук // Науковий часопис Національного педагогічного університету імені М. П. Драгоманова. Серія 9 : Сучасні тенденції розвитку мов : зб. наук. праць. - Київ : Вид-во НПУ імені М. П. Драгоманова, 2017. - Вип. 15. - С. 18-28.
Abstract: У статті розглянуто лінгвістичні засади семантичного розмічування Корпусу української мови як четвертого етапу представлення інформації про одиниці Корпусу. В основу розмічування покладено таксономічну класифікацію корпусу російської мови, але доповнену та видозмінену. Створено програмне забезпечення для роботи в он-лайн режимі. Матеріалом слугував частотний словник публіцистичного стилю обсягом 40 тис. лексем, укладений на вибірці 16 млн словоформ українськомовного тексту.
В статье рассмотрены лингвистические основы семантической разметки Корпуса украинского языка как четвертого этапа представления информации о единицах Корпуса. В основу разметки положена таксономическая классификация корпуса русского языка, но дополненная и видозмененная. Создано программное обеспечение для работы в он-лайн режиме. Материалом послужил частотный словарь публицистического стиля объемом в 40 тыс. лексем, созданный на выборке в 16 млн словоформ украиноязычного текста.
The article views linguistic aspects of semantic tagging within the Ukrainian Corpus. The lexical content of texts of different genres, in particular, modern fiction, drama, journalism, scientific, popular scientific, and business will be provided with a specific tagging respectively. The work represents two types of tagging: I – a taxonomic one, featuring journalistic and fiction genre and II – a thesaurus-based tagging specifically for scientific and business genres. The tagging is based on taxonomic classification applied in the Russian Corpus but extended and extra modified. There were developed the software tools for online work based on materials of frequency dictionary of journalistic style with a total volume of 40,000 lexems compiled from the sampling of 16 Million word forms of Ukrainian texts. The thesaurus-based approach is grounded on the identification of thematically relevant lexical-semantic variations and grouping them by applying a formalized method of a thesaurus construction, which meets the standards of modern terminography. There were developed the software tools for performing of two types of semantic tagging.
URI: http://enpuir.npu.edu.ua/handle/123456789/17838
Appears in Collections:Випуск 15

Files in This Item:
File Description SizeFormat 
Darchuk.pdf689.53 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.