TechGuru & Bad_Gateway
Bad_Gateway Bad_Gateway
Заметил, как эти новые AI-ускорители хвастаются "восемь раз быстрее", а потом задыхаются от одной неправильно выровненной матричной операции? Давай разберемся, что за подвох.
TechGuru TechGuru
Да, это же стандартная ловушка с "хвастовством скоростью". Эти ускорители обычно тестируют на идеально выровненных тензорах, но как только ты добавляешь шаг в один элемент или пакет с нечетным размером, шина памяти встаёт, конвейер DSP работает не полностью, и вся цепочка рушится. Отличное напоминание о том, что просто высокие GFLOPs не всегда означают низкую реальную задержку. Разберём пример ядра и посмотрим, где подвох.