Please use this identifier to cite or link to this item: http://elib.ict.nsc.ru/jspui/handle/ICT/1652
metadata.dc.type: Article
Title: О задании меры сходства для кластеризации текстовых документов
Other Titles: Similarity Determination for Textual Documents Clusterization
Authors: Барахнин, В.Б.
Нехаева, В.А.
Федотов, А.М.
Barakhnin, V. B.
Nehaeva, V. A.
Fedotov, A. M.
Keywords: мера сходства;кластеризация текстовых документов;similarity;clusterization of textual documents
Issue Date: 11-Jun-2008
Publisher: Новосибирский государственный университет
Citation: Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для кластеризации текстовых документов // Вестник НГУ. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3–9,- ISSN 1818-7900
Barakhnin V. B., Nekhayeva V. A., Fedotov A. M. Similarity Determination for Textual Documents Clusterization // Vestnik NSU:Information Technologies - 2008. Vol. 6, No. 1. pp. 3–9. - ISSN 1818-7900.
URI: http://www.nsu.ru/xmlui/handle/nsu/30
http://elib.ict.nsc.ru/jspui/handle/ICT/1652
ISSN: 1818-7900
Abstract: В работе решается задача автоматизации процесса отбора текстовых документов научной тематики, которые могут представлять интерес для конкретного ученого-исследователя или группы совместно работающих исследователей. В качестве шкал для определения меры предлагается брать атрибуты библиографического описания документов (авторы, ключевые слова, аннотация). Значения весовых коэффициентов в формуле для вычисления меры сходства определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы. В качестве потенциально пригодных для решения поставленной задачи были проанализированы три классических метода кластеризации документов: кластеризация путем нахождения клик в полной матрице подобия документов, кластеризация по методу Роккио и метод, базирующийся на так называемом жадном алгоритме, а так-же новый алгоритм Н. Загоруйко, основанный на использовании функции конкурентного сходства (так называемой FRiS-функции). В ходе тестирования было выявлено, что оптимальным для данной задачи является FRiS-алгоритм, хотя приемлемые результаты дает и жадный алгоритм.
The problem of computerized selection of textual documents on scientific subjects is solved that could be of interest for an individual researcher or a research team. Attributes of bibliographical description (authors, keywords, abstract) are proposed to be used as scales for the measure determination. The values of weight coefficients in the formula for calculating the similarity measure are determined by the assumed a posteriori reliability of the respective scale data. Three classical document clusterization methods have been analysed in order to find the ones potentially feasible for the solution of the formulated problem: clusterization by finding cliques in the full matrix of documents similarity, clusterization by Rocchio method and the method based on the so-called greed algorithm as well as the new method suggested by N.Zagoruiko based on employing the function of a rival similarity (the so-called FRiS-function). Testing showed that FRiS algorithm proved to be the most efficient one for this problem although the greed algorithm also yields acceptable results.
metadata.dc.language.iso: ru
Appears in Collections:03.01 - Информационная безопасность

Files in This Item:
File Description SizeFormat 
01.pdf424,69 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.