Просмотр статьи


Номер журнала: 2021.1

Заголовок статьи: Оптимизация барьерной синхронизации на асимметричных NUMA-подсистемах процессорных ядер

Резюме

Предложен алгоритм MinNumaDist динамического выбора MPI-процесса, в памяти NUMA-узла которого размещаются совместно используемые флаги и счетчики алгоритмов барьерной синхронизации (MPI_Barrier). В качестве минимизируемого показателя используется суммарное расстояние до NUMA-узлов всех процессов (минимум степени близости). Экспериментально показано, что MinNumaDist позволяет сократить на 10–35 % время выполнения алгоритмов операции MPI_Barrier на асимметричных подсистемах процессорных ядер при различном числе процессов на NUMA-узлах или при использовании разного числа NUMA-узлов на нескольких процессорах.

Авторы

М. Г. Курносов, Е. И. Токмашева

Библиография

1. Graham R., Gorentla M., Ladd J., Shami P., Rabinovitz I., Filipov V., Shainer G. Cheetah: A Framework for Scalable Hierarchical Collective Operations // Proc. IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID11), 2011. P. 73–83.
2. Zhu H., Goodell D., Gropp W., Thakur R. Hierarchical Collectives in MPICH2 // Proc. European PVM/MPI, 2009. LNCS, V. 5759. P. 325–336.
3. Graham R. L., Shipman G. MPI Support for Multi-core Architectures: Optimized Shared Memory Collectives // Proc. 15th European PVM/MPI Users' Group Meeting, 2008. P. 130–140.
4. Jain S., Kaleem R., Balmana M., Langer A., Durnov D., Sannikov A. and Garzaran M. Frame-work for Scalable Intra-Node Collective Operations using Shared Memory // Proc. International Conference for High Performance Computing, Networking, Storage, and Analysis (SC-2018), 2018. P. 374–385.
5. Yew P. C., Tzeng N. F., Lawrie D. H. Distributing Hot Spot Addressing in Large Scale Multi-processors // IEEE Transactions on Computers. 1987. V. C-36, Is. 4. P. 388–395.
6. Mellor-Crummey J. M., Scott M. L. Algorithms for Scalable Synchronization on Shared-memory Multiprocessors // ACM Transactions on Computer Systems. 1991. V. 9 (1). P. 21–65.
7. Tzeng N.-F., Kongmunvattana A. Distributed Shared Memory Systems with Improved Barrier Synchronization and Data Transfer // Proc. 11th International Conference on Supercomputing, 1997. P. 148–155.
8. Hengsen D., Finkel R., Manber U. Two Algorithms for Barrier Synchronization // Int. Journal of Parallel Programming. 1988. V. 17, Is. 1. P. 1–17.
9. Brooks E. The butterfly barrier // Journal of Parallel Programming. 1986. V. 15, Is. 4. P. 295–307.

Ключевые слова

барьерная синхронизация, barrier, MPI, NUMA

Скачать полный текст