Просмотр статьи


Номер журнала: 2018.4

Заголовок статьи: Анализ средств обеспечения отказоустойчивости системы управления ресурсами PBS/TORQUE

Резюме

Работа посвящена проблеме отказоустойчивого функционирования распределенных вычислительных систем под управлением PBS/TORQUE при выполнении параллельных MPI-программ. Рассматривается влияние событий сбоев и отказов на возможность завершить выполнение параллельной программы. В первой части работы представлен теоретический анализ средств обеспечения отказоустойчивости системы управления ресурсами PBS/TORQUE. Во второй части представлена функциональная модель обработки отказов для планировщика Maui.

Авторы

А. В. Ефимов, К. В. Павский

Библиография

1. Хорошевский В. Г. Архитектура вычислительных систем. М.: МГТУ им. Н. Э. Баумана, 2008. 520 с.
2. Schroeder В., Gibson Garth A. A large-scale study of failures in high-performance computing systems // Proceedings of the International Conference on Dependable Systems and Networks (DSN2006), 2006. 10 р.
3. Gupta S., Patel T., Engelmann C., Tiwari D. Failures in large scale systems: long-term measure-ment, analysis, and implications // Proceedings of the International Conference for High Per-formance Computing, Networking, Storage and Analysis, 2017. P. 1–12.
4. Каляев И. А., Коробкин В. В., Мельник Э. В., Малахов И. В. Отказоустойчивый управля-ющий вычислительный комплекс машины перегрузочной атомного реактора типа ВВЭР // Мехатроника, автоматизация, управление. 2003. № 3. С. 143–146.
5. Korobkin V., Melnik E., Klimenko A. Fault-tolerant architecture for the hazardous object infor-mation control systems // 2015 IEEE conference “Application of information and communica-tion technologies” (IEEE catalog number CFPI556H-PRT). P. 274–276.
6. Cappello F., Geist A., Gropp W., Kale S., et all. Toward Exascale Resilience: 2014 update // Su-percomputing frontiers and innovations. 2014. V. 1, № 1. P. 1–28.
7. Torque Resource Manager [Электронный ресурс]. URL: http://
www.adaptivecomputing.com/products/torque/ (дата обращения: 12.10.2018).
8. Maui Cluster Scheduler [Электронный ресурс]. URL: http://
www.adaptivecomputing.com/support/download-center/maui-cluster-scheduler/ (дата обращения: 12.10.2018).
9. Torque Resource Manager Administrator Guide 6.1.2 [Электронный ресурс]. URL: http://docs.adaptivecomputing.com/torque/6-1-2/adminGuide
/torqueAdminGuide-6.1.2.pdf (дата обращения: 12.10.2018).
10. Maui Administrator's Guide [Электронный ресурс]. URL: http://
docs.adaptivecomputing.com/maui/pdf/mauiadmin.pdf (дата обращения: 12.10.2018).
11. GDB: The GNU Project Debugger [Электронный ресурс]. URL: http://
www.gnu.org/software/gdb/ (дата обращения: 12.10.2018).
12. LBNL Node Health Check [Электронный ресурс]. URL: https://
github.com/mej/nhc (дата обращения: 12.10.2018).
13. Moab Cloud HPC Suite [Электронный ресурс]. URL: http://
www.adaptivecomputing.com/moab-hpc-basic-edition/ (дата обращения: 12.10.2018).
14. An active/passive NFS server in a red hat high availability cluster [Электронный ресурс]. URL: https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/high_availability_add-on_administration/ch-nfsserver-haaa (дата обращения: 12.10.2018).
15. Elnozahy E. N., Alvisi L., Wang Y. M., Johnson D. B. A survey of rollback-recovery protocols in message-passing systems // ACM Computing Surveys. 2002. V. 34, № 3. P. 375–408.
16. Duell J., Hargrove P., Roman E. The Design and Implementation of Berkeley Lab's Linux Checkpoint/Restart // Berkeley Lab Technical Report. 2002. 17 p.
17. Ansel J., Arya K., Cooperman G. DMTCP: Transparent Checkpointing for Cluster Computations and the Desktop // IEEE International Parallel and Distributed Processing Symposium, 2009. 12 p.
18. Message Passing Interface [Электронный ресурс]. URL: https://
en.wikipedia.org/wiki/Message_Passing_Interface (дата обращения: 12.10.2018).
19. Pavsky V. A., Pavsky K. V., Paznikov A. A. Mathematical models and calculation of reliability indices of scalable distributed computer systems under full restoration // Proceedings of XIV In-ternational scientific-technical conference “Actual Problems of Electronic Instrument Engineering” (APEIE-2018). NSTU. V. 1, Part 4. Novosibirsk. 2018. P. 502–505.
20. Павский В. А., Павский К. В. Расчет показателей потенциальной живучести для распре-деленных вычислительных систем при групповом восстановлении отказавших машин // Материалы 4-й Всероссийской научно-технической конференции «Суперкомпьютерные технологии», 19–24 сентября 2016 г., Ростов-на-Дону. Т. 2. С 86-89.

Ключевые слова

распределённые вычислительные системы, система управления ресурсами, PBS/TORQUE, отказоустойчивость, анализ, сбои и отказы

Скачать полный текст