Тесла (микроархитектура) - Tesla (microarchitecture)

Nvidia Tesla
Графический процессор Nvidia Tesla
Дата выхода Ноябрь 2006 г.
Процесс изготовления 90 нм, 80 нм, 65 нм, 55 нм и 40 нм
История
Предшественник Кюри
Преемник Ферми

Tesla - это кодовое название микроархитектуры графического процессора, разработанной Nvidia и выпущенной в 2006 году в качестве преемника микроархитектуры Кюри . Он был назван в честь первого инженера-электрика Николы Тесла . Как первая микроархитектура Nvidia для реализации унифицированных шейдеров, она использовалась с графическими процессорами серий GeForce 8 , GeForce 9 , GeForce 100 , GeForce 200 и GeForce 300, совместно производимых на 90 нм, 80 нм, 65 нм, 55 нм, и 40 нм. Это также было в GeForce 405 и в вычислительных модулях Quadro FX, Quadro x000, Quadro NVS и Nvidia Tesla .

Tesla заменила старые микроархитектуры с фиксированным конвейером , представленные на момент выпуска серией GeForce 7 . Он напрямую конкурировал с первой унифицированной шейдерной микроархитектурой AMD под названием TeraScale , разработкой ATI для Xbox 360, в которой использовалась аналогичная конструкция. За Теслой последовал Ферми .

Обзор

Tesla - первая микроархитектура Nvidia, реализующая унифицированную шейдерную модель . Драйвер поддерживает архитектуру Direct3D 10 Shader Model 4.0 / OpenGL 2.1 (более поздние драйверы поддерживают OpenGL 3.3). Этот дизайн представляет собой серьезный сдвиг для NVIDIA в функциональности и возможностях графического процессора, наиболее очевидным изменением является переход от отдельных функциональных блоков (пиксельные шейдеры, вершинные шейдеры) в предыдущих графических процессорах к однородному набору универсальных процессоров с плавающей запятой (так называемых «потоковых процессорах»). "), который может выполнять более универсальный набор задач.

Графический процессор NVIDIA G80
Снимок графического процессора GT200 внутри карт NVIDIA GeForce GTX 280, основанных на микроархитектуре Tesla

Унифицированная шейдерная архитектура GeForce 8 состоит из нескольких потоковых процессоров (SP). В отличие от подхода к векторной обработке, применяемого в старых шейдерных модулях, каждый SP является скалярным и, следовательно, может работать только с одним компонентом за раз. Это делает их менее сложными в сборке, но при этом остается довольно гибкими и универсальными. Модули скалярного шейдера также имеют то преимущество, что в ряде случаев они более эффективны по сравнению с модулями векторного шейдера предыдущего поколения, которые полагаются на идеальное сочетание команд и упорядочение для достижения максимальной пропускной способности. Более низкая максимальная пропускная способность этих скалярных процессоров компенсируется эффективностью и работой их на высокой тактовой частоте (что стало возможным благодаря их простоте). GeForce 8 запускает различные части своего ядра с разными тактовыми частотами (тактовыми доменами), аналогично работе предыдущих графических процессоров серии GeForce 7 . Например, потоковые процессоры GeForce 8800 GTX работают с тактовой частотой 1,35 ГГц, а остальная часть чипа работает с частотой 575 МГц.

GeForce 8 выполняет значительно лучшую фильтрацию текстур, чем его предшественники, которые использовали различные оптимизации и визуальные приемы для ускорения рендеринга без ухудшения качества фильтрации. Линия GeForce 8 правильно отображает алгоритм анизотропной фильтрации, не зависящий от угла, наряду с полной трилинейной фильтрацией текстур . G80, хотя и не его меньшие собратья, обладает гораздо большей арифметической способностью к фильтрации текстур, чем серия GeForce 7. Это обеспечивает высококачественную фильтрацию с гораздо меньшим падением производительности, чем раньше.

NVIDIA также представила новые методы сглаживания краев полигонов , включая способность блоков ROP графического процессора одновременно выполнять как мультисэмпловое сглаживание (MSAA), так и освещение HDR, исправляя различные ограничения предыдущих поколений. GeForce 8 может выполнять MSAA с форматами текстур как FP16, так и FP32. GeForce 8 поддерживает 128-битный HDR-рендеринг , в отличие от 64-битной поддержки предыдущих карт. Новая технология сглаживания чипа, называемая AA выборки покрытия (CSAA), использует информацию о Z, цвете и покрытии для определения окончательного цвета пикселя. Этот метод оптимизации цвета позволяет 16X CSAA выглядеть четким и резким.

Представление

Заявленная теоретическая мощность обработки одинарной точности для карт на базе Tesla, указанная в FLOPS, может быть труднодостижимой в реальных рабочих нагрузках.

В G80 / G90 / GT200 каждый потоковый мультипроцессор (SM) содержит 8 шейдерных процессоров (SP, или Unified Shader, или CUDA Core) и 2 модуля специальных функций (SFU). Каждый SP может выполнять до двух операций с одинарной точностью за такт: 1 умножение и 1 сложение с использованием одной инструкции MAD . Каждый SFU может выполнять до четырех операций за такт: четыре инструкции MUL (умножение). Таким образом, один SM в целом может выполнять 8 MAD (16 операций) и 8 MUL (8 операций) за такт или 24 операции за такт, что (условно говоря) в 3 раза больше количества SP. Следовательно, для расчета теоретической производительности MAD + MUL с двойной выдачей в операциях с плавающей запятой в секунду [ FLOPS sp + sfu , GFLOPS ] графической карты с подсчетом SP [ n ] и частотой шейдера [ f , ГГц] формула имеет следующий вид: ФЛОПЫ sp + sfu = 3 × n × f .

Однако использование производительности с двумя задачами, например MAD + MUL, проблематично:

  • Двойная выдача MUL недоступна в графическом режиме на G80 / G90, хотя в GT200 она была значительно улучшена.
  • Не все комбинации инструкций, такие как MAD + MUL, могут выполняться параллельно в SP и SFU, потому что SFU довольно специализирован, поскольку он может обрабатывать только определенное подмножество инструкций: 32-битное умножение с плавающей запятой, трансцендентные функции, интерполяция для параметра смешивание, обратный, обратный квадратный корень, синус, косинус и т. д.
  • SFU может быть занят в течение многих циклов при выполнении этих инструкций, и в этом случае он недоступен для инструкций MUL с двойной выдачей.

По этим причинам, чтобы оценить производительность реальных рабочих нагрузок, может быть более полезным игнорировать SFU и принимать только 1 MAD (2 операции) на SP за цикл. В этом случае формула для расчета теоретической производительности операций с плавающей запятой в секунду принимает вид: SP FLOPS = 2 × n × f .

Теоретическая мощность обработки с двойной точностью графического процессора Tesla составляет 1/8 от производительности с одинарной точностью на GT200; на G8x и G9x нет поддержки двойной точности.

Распаковка / сжатие видео

NVDEC

NVENC

NVENC был представлен только в более поздних чипах.

Чипсы

Тесла 1.0

• 8800 GT

• 8800 GTS

• 8800 GTX

• 8800 Ultra

Тесла 2.0

  • GT200
  • GT215
  • GT216
  • GT218

Смотрите также

использованная литература

внешние ссылки