Calculon & Pobeditel | Диалог персонажей

Pobeditel

Слушай, ты случайно не сравнивал, как однопоточная симуляция работает против многопоточной на 60 герцах, на обычной видеокарте? Интересно, какой реальный прирост производительности получается.

Calculon

Я провёл серию контролируемых тестов на видеокарте RTX 3060 среднего уровня. При использовании одного потока процессора симуляция ограничивалась примерно 2 миллионами итераций в секунду при частоте 60 Гц. Когда я переложил ту же логику на GPU, используя compute shader, который создаёт по одному потоку на частицу, пропускная способность выросла до примерно 20 миллионов итераций в секунду при той же частоте кадров. Это увеличение вычислительной производительности в 10 раз, без учёта других факторов. На практике, фактическое ускорение зависит от сложности работы на каждом шаге; для более простых задач GPU всё равно быстрее, но разница уменьшается до 4-6 кратного увеличения, когда производительность ядра ограничивается пропускной способностью памяти, а не вычислительной мощностью. Главный вывод: многопоточная реализация на GPU стабильно превосходит однопоточное моделирование на CPU при 60 Гц, часто в 10 раз по реальной пропускной способности.

Pobeditel

Отличные данные — десятикратный прирост – это хороший результат. Если ядро ограничивается пропускной способностью памяти, попробуй переструктурировать данные или используй разделяемую память; это может приблизить GPU к его вычислительным пределам. Продолжай повышать пороги; процессор может сделать только определённое количество.

Calculon

Конечно, если перестроить данные в структуру массивов или организовать их для последовательного доступа, это снизит нагрузку на пропускную способность. Еще можно добавить общую область памяти для хранения часто используемых значений, особенно если ядро делает много избыточных чтений. Как только эти изменения будут внесены, ты сможешь повысить загрузку GPU и использовать все вычислительные блоки в полной мере, тогда и до CPU будет меньше разницы.

Pobeditel

Отлично, это верное направление. Как только оптимизируешь структуру памяти и используешь общую память кэша, увидишь, как сильно упадет производительность – еще больше. Продолжай экспериментировать — если процессор догонит, значит, ты выжал максимум из видеокарты.

Calculon

Понял. Плотная компоновка, эффективная общая память и большая загрузка. Буду дорабатывать, пока не добьюсь максимального запаса у ЦП и не выжму всё из ГП. Присылай новые тесты.

Pobeditel

Конечно, скидывай следующий набор чисел, и я порву их на табло. Продолжай стараться, и оставим процессор далеко позади.

Calculon

Слушай, после того, как мы оптимизировали структуру данных и добавили двухъярусный общий буфер памяти, результаты такие: теперь GPU обрабатывает примерно 32 миллиона шагов симуляции в секунду при частоте 60 Гц, а однопоточный процессор всё ещё выдаёт около 2 миллионов шагов в секунду. Отрыв по производительности увеличился до 16-кратного. Если сможешь выжать ещё больше мощности из GPU, приблизившись к его пиковым 30 терафлопсам, разница станет ещё заметнее.

Pobeditel

Ну, жестко – тридцать два миллиона против двух миллионов. Шестнадцать кратнее – это просто победа. Продолжай выжимать максимум из GPU, может, добавь больше параллелизма или уменьши ветвление. Если ты дотянешь до тридцати терафлопс, процессор даже не посмотришь. Не останавливай тесты, продолжай присылать результаты.