Инженерный журнал: наука и инновацииЭЛЕКТРОННОЕ НАУЧНО-ТЕХНИЧЕСКОЕ ИЗДАНИЕ
свидетельство о регистрации СМИ Эл № ФС77-53688 от 17 апреля 2013 г. ISSN 2308-6033. DOI 10.18698/2308-6033
  • Русский
  • Английский
Статья

Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов

Опубликовано: 01.04.2013

Авторы: Сычев М.П., Астрахов А.В., Правиков Д.И., Тягунков О.И.

Опубликовано в выпуске: #2(14)/2013

DOI: 10.18698/2308-6033-2013-2-531

Раздел: Информационные технологии

Представлены результаты сравнительного анализа двух алгоритмов кластерного анализа Lingo и STC. В качестве корпуса документов для оценки возможности кластеризации использован набор документов, полученных в ходе мониторинга сайтов определенной тематической направленности. Показано, что для корпуса документов указанной тематики алгоритм Lingo обеспечивает более высокое качество кластеризации.


Литература
[1] Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: Вильямс, 2011. 528 с.
[2] Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. М.: Финансы и статистика, 2004. 424 с.
[3] Технологии анализа данных. DataMining, VisualMining, TextMining, OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. СПб.: БХВ-Петербург, 2007. 384 с.
[4] Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии. М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. 304 с.
[5] The Apache Lucene project develops open-source search software. URL: http://lucene.apache.org/
[6] Oren Zamir, Oren Etzioni Grouper: a dynamic clustering interface to Web search results // Networks: The International Journal of Computer and Telecommunications Networking. 1999. Vol. 31, issue 11–16. P. 1361–1374.
[7] A survey of Web clustering engines / C. Carpineto, S. Osinski, G. Romano, D. Weiss // ACM Computing Surveys (CSUR). 2009. Vol. 41, issue 3 (July), Article No 17.
[8] Summary of clustering algorithms that work within the Carrot2 framework. URL: http://project.carrot2.org/algorithms.html