Page 11

Уровень производительности
Уровень производительности
Для матрицы 1024*1024
Автоматическое распределение : 3.0 сек - 45 GFLOPS
1 блок на SM
: 3.6 сек. - 35 GFLOPS
2 блока на SM
: 3.0 сек. - 45 GFLOPS
Очевидно ограничивающим фактором является
Очевидно, ограничивающим фактором является
требование запуска 2 блоков на SM, а не ограничение
по разделяемой памяти (8 блоков на SM)
Развёртывание циклов помогает (развёрнуто 16 раз)
Развернутая программа (автомат) : 1.6 сек. - 80 GFLOPS
1 блок на SM
: 2.1 сек. - 61 GFLOPS
2 блока на SM
: 1.6 сек. - 80 GFLOPS