Preview

Вестник СибГУТИ

Расширенный поиск

Анализ средств обеспечения отказоустойчивости системы управления ресурсами PBS/TORQUE

Полный текст:

Аннотация

Работа посвящена проблеме отказоустойчивого функционирования распределенных вычислительных систем под управлением PBS/TORQUE при выполнении параллельных MPI-программ. Рассматривается влияние событий сбоев и отказов на возможность завершить выполнение параллельной программы. В первой части работы представлен теоретический анализ средств обеспечения отказоустойчивости системы управления ресурсами PBS/TORQUE. Во второй части представлена функциональная модель обработки отказов для планировщика Maui.

Об авторах

А. В. Ефимов
СибГУТИ; ИФП СО РАН
Россия


К. В. Павский
СибГУТИ; ИФП СО РАН
Россия


Список литературы

1. Хорошевский В. Г. Архитектура вычислительных систем. М.: МГТУ им. Н. Э. Баумана, 2008. 520 с.

2. Schroeder В., Gibson Garth A. A large-scale study of failures in high-performance computing systems // Proceedings of the International Conference on Dependable Systems and Networks (DSN2006), 2006. 10 р.

3. Gupta S., Patel T., Engelmann C., Tiwari D. Failures in large scale systems: long-term measurement, analysis, and implications // Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, 2017. P. 1-12.

4. Каляев И. А., Коробкин В. В., Мельник Э. В., Малахов И. В. Отказоустойчивый управляющий вычислительный комплекс машины перегрузочной атомного реактора типа ВВЭР // Мехатроника, автоматизация, управление. 2003. № 3. С. 143-146.

5. Korobkin V., Melnik E., Klimenko A. Fault-tolerant architecture for the hazardous object information control systems // 2015 IEEE conference “Application of information and communication technologies” (IEEE catalog number CFPI556H-PRT). P. 274-276.

6. Cappello F., Geist A., Gropp W., Kale S., et all. Toward Exascale Resilience: 2014 update // Supercomputing frontiers and innovations. 2014. V. 1, № 1. P. 1 -28.

7. Torque Resource Manager [Электронный ресурс]. URL: http:// www. adaptivecomputing. com/products/torque/ (дата обращения: 12.10.2018).

8. Maui Cluster Scheduler [Электронный ресурс]. URL: http:// www.adaptivecomputing.com/support/download-center/maui-cluster-scheduler/ (дата обращения: 12.10.2018).

9. Torque Resource Manager Administrator Guide 6.1.2 [Электронный ресурс]. URL: http://docs.adaptivecomputing.com/torque/6-1-2/adminGuide /torqueAdminGuide-6.1.2.pdf (дата обращения: 12.10.2018).

10. Maui Administrator's Guide [Электронный ресурс]. URL: http:// docs.adaptivecomputing.com/maui/pdf/mauiadmin.pdf (дата обращения: 12.10.2018).

11. GDB: The GNU Project Debugger [Электронный ресурс]. URL: http:// www.gnu.org/software/gdb/ (дата обращения: 12.10.2018).

12. LBNL Node Health Check [Электронный ресурс]. URL: https:// github.com/mej/nhc (дата обращения: 12.10.2018).

13. Moab Cloud HPC Suite [Электронный ресурс]. URL: http:// www.adaptivecomputing.com/moab-hpc-basic-edition/ (дата обращения: 12.10.2018).

14. An active/passive NFS server in a red hat high availability cluster [Электронный ресурс]. URL: https://access.redhat.com/documentation/en-us/red hat enterprise linux/7/html/high availability addon administration/ch-nfsserver-haaa (дата обращения: 12.10.2018).

15. Elnozahy E. N., Alvisi L., Wang Y. M., Johnson D. B. A survey of rollback-recovery protocols in message-passing systems // ACM Computing Surveys. 2002. V. 34, № 3. P. 375-408.

16. Duell J., Hargrove P., Roman E. The Design and Implementation of Berkeley Lab's Linux Checkpoint/Restart // Berkeley Lab Technical Report. 2002. 17 p.

17. Ansel J., Arya K., Cooperman G. DMTCP: Transparent Checkpointing for Cluster Computations and the Desktop // IEEE International Parallel and Distributed Processing Symposium, 2009. 12 p.

18. Message Passing Interface [Электронный ресурс]. URL: https:// en.wikipedia.org/wiki/Message Passing Interface (дата обращения: 12.10.2018).

19. Pavsky V. A., Pavsky K. V., Paznikov A. A. Mathematical models and calculation of reliability indices of scalable distributed computer systems under full restoration // Proceedings of XIV International scientific-technical conference “Actual Problems of Electronic Instrument Engineering” (APEIE-2018). NSTU. V. 1, Part 4. Novosibirsk. 2018. P. 502-505.

20. Павский В. А., Павский К. В. Расчет показателей потенциальной живучести для распределенных вычислительных систем при групповом восстановлении отказавших машин // Материалы 4-й Всероссийской научно-технической конференции «Суперкомпьютерные технологии», 19-24 сентября 2016 г., Ростов-на-Дону. Т. 2. С 86-89.


Рецензия

Для цитирования:


Ефимов А.В., Павский К.В. Анализ средств обеспечения отказоустойчивости системы управления ресурсами PBS/TORQUE. Вестник СибГУТИ. 2018;(4):98-106.

For citation:


Efimov A..., Pavsky K... Analysis of resource management system PBS/TORQUE robustness tools. The Herald of the Siberian State University of Telecommunications and Informatics. 2018;(4):98-106. (In Russ.)

Просмотров: 9


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6920 (Print)