Просмотр статьи


Номер журнала: 2020.3

Заголовок статьи: Методика подготовки данных для интеллектуального анализа надежности вычислительных комплексов

Резюме

Подготовка данных для интеллектуального анализа надежности вычислительных комплексов занимает значимую часть времени в процессе извлечения данных из-за сложности механизмов ручной обработки накопленной информации. Поступающий объем данных из эксплуатации вычислительных комплексов является избыточным и разнородным. Существующие методики интеллектуального анализа данных имеют общее назначение, не предоставляя руководство для решения задач в исследуемой области. В данной работе предложена новая методика подготовки данных, ориентированная на анализ надежности вычислительных комплексов, с определением двух наборов задач: общей и специальной подготовки данных. Основным вкладом разработанной методики является выявление особенностей и потенциально значимых показателей исследуемого набора данных. Результат сравнительного анализа подтвердил сокращение времени подготовки данных при автоматизации специализированных задач без изменения качества подготовки данных.

Авторы

В. С. Никулин

Библиография

1. Hellerstein J., Carreras C., Rattenbury T., Kandel S., Heer J. Principles of Data Wrangling: Practical Techniques for Data Preparation. 1st ed. California: O'Reilly Media, 2017. P. 50–62.
2. Порутчиков М. А. Анализ данных. Самара: Изд-во Самарского университета, 2016. 29 с.
3. Zhang S., Zhang C., Yang Q. Data preparation for data mining // Appl. Artif. Intell. 2003.
P. 375–381.
4. Захаров Д. Н., Никулин В. С. Анализ методов статистической оценки эксплуатационной надежности вычислительных комплексов // Наукоемкие технологии в космических исследованиях Земли. 2020. Т. 12, № 1. С. 64–69. DOI: 10.36724/2409-5419-2020-12-1-64-69.
5. Chapman P., Clinton J., Kerber R. CRISP-DM 1.0 Step-by-step data mining guide. // CRISP-DM Consortium. 2000.
6. Береснева Н. М, Курганская О. В. Методология подготовки данных для вычислительных экспериментов в исследованиях энергетической безопасности России // Вестник Иркутского государственного технического университета. 2017. Т. 21, № 9. С. 45–57.
7. Amir R. Razavi. A Data Pre-processing Method to Increase Efficiency and Accuracy in Data Mining. DOI:10.1007/11527770 59. 2005.
8. Wei, C. K., Su, S., and Yang, M. C. Application of data mining on the development of a disease distribution map of screened community residents of Taipei county in Taiwan // J. Med. Syst. 2012. № 36. P. 2021–2027. DOI:10.1007/s10916-011-9664-7.
9. Никулин В. С., Павлова А. И. Создание автоматизированной системы сбора сведений о качестве функционирования вычислительных комплексов // Наука молодых. 2017. № 5.
С. 540–544.
10. Никулин В. С. Сравнительный анализ СУБД для реализации подсистемы хранения событий мониторинга вычислительных комплексов // Сборник научных трудов «Наука. Технологии. Иновации». 2019. Т. 2. С. 46–48.
11. Матвеевский В. Р. Надежность технических систем: учебное пособие. М.: Московский государственный институт электроники и математики, 2002. 113 с.
12. Карлов И. А. Восстановление пропущенных данных при численном моделировании сложных динамических систем // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление. 2013. № 186. С. 137–144.
13. Карлов И. Методы восстановления пропущенных значений с использованием инструментария Data Mining // Вестник Сибирского гос. аэрокосмического ун-та им. Академика М. Ф. Решетнева. 2011. № 7 (40). С. 29–33.
14. Кузовлев В. И. Метод выявления аномалий в исходных данных при построении прогнозной модели решающего дерева в системах поддержки принятия решений // Наука и образование: науч. изд. МГТУ им. Н. Э. Баумана. 2012. № 9. С. 16.
15. Schafer J. L., Graham J. W. Missing data: Our view to the state of the art // Psychological methods. 2002. P. 51–61.
16. Литтл Р. Д. А., Рубин Д. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1991. 336 с.
17. Чубукова И. А. Data Mining: учебное пособие. 2-е-е изд. М.: Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2008.

Ключевые слова

вычислительные комплексы, подготовка данных, статистический анализ, извлечение данных, машинное обучение

Скачать полный текст