Обзор Nvidia Titan X: характеристики и тестирование. Обзор и тестирование NVIDIA GeForce GTX TITAN X: избиение младенцев Решение проблем с освоением новых техпроцессов

Представляем базовый детальный материал с исследованием Nvidia Geforce GTX Titan X.

Объект исследования : Ускоритель трехмерной графики (видеокарта) Nvidia Geforce GTX Titan X 12288 МБ 384-битной GDDR5 PCI-E

Сведения о разработчике : Компания Nvidia Corporation (торговая марка Nvidia) основана в 1993 году в США. Штаб-квартира в Санта-Кларе (Калифорния). Разрабатывает графические процессоры, технологии. До 1999 года основной маркой была Riva (Riva 128/TNT/TNT2), с 1999 года и по настоящее время - Geforce. В 2000 году были приобретены активы 3dfx Interactive, после чего торговые марки 3dfx/Voodoo перешли к Nvidia. Своего производства нет. Общая численность сотрудников (включая региональные офисы) около 5000 человек.

Часть 1: Теория и архитектура

Как вы уже знаете, ещё в середине прошлого месяца компания Nvidia выпустила новую топовую видеокарту под названием Geforce GTX Titan X, которая стала мощнейшей на рынке. У нас сразу же вышел подробный обзор по этой новинке, но он содержал лишь практические исследования, без теоретической части и синтетических тестов. Так получилось из-за разных обстоятельств, в том числе от нас не зависящих. Но сегодня мы исправляем этот недочёт и очень подробно рассмотрим мартовскую новинку - за месяц не произошло ничего такого, чтобы она потеряла актуальность.

Ещё в далёком 2013 году Nvidia выпустила первое решение новой марки видеокарт Geforce GTX Titan, названного по имени суперкомпьютера в Окриджской национальной лаборатории. Первая модель новой линейки установила новые рекорды, как по производительности, так и по цене - рекомендованная цена для рынка США была установлена в $999. Это была первая элитная видеокарта серии Titan, которая затем продолжилась не самой популярной двухчиповой Titan Z и ускоренной Titan Black, получившей полностью разблокированный графический процессор GK110 ревизии B.

И вот весной 2015 года настало время для ещё одной новинки Nvidia из «титановой» премиальной серии. Впервые GTX Titan X была показана президентом компании Дженсеном Хуангом на игровой конференции для разработчиков GDC 2015 на мероприятии по игровому движку Epic Unreal Engine. По сути, эта видеокарта в любом случае незримо участвовала на шоу, будучи установленной во многие демостенды, но Дженсен представил её официально.

До выхода Geforce GTX Titan X, быстрейшей одночиповой видеокартой являлась Geforce GTX 980 , основанная на чипе GM204 той же графической архитектуры Maxwell, представленном в сентябре прошлого года. Эта модель является весьма энергоэффективной, обеспечивая приличную вычислительную мощь при потреблении всего лишь 165 Вт энергии - то есть, она вдвое более энергоэффективна по сравнению с предыдущим поколением Geforce.

При этом GPU архитектуры Maxwell поддерживают грядущий DirectX 12 (включая Feature Level 12.1) и другие новейшие графические технологии компании: имитацию глобального освещения Nvidia Voxel Global Illumination (VXGI, о нёй мы писали в статье по GTX 980), новый метод сглаживания Multi-Frame sampled AA (MFAA), динамическое повышенное разрешение Dynamic Super Resolution (DSR) и др. Сочетание производительности, энергоэффективности и возможностей сделало чип GM204 самым лучшим продвинутым графическим процессором на момент его выхода.

Но всё когда-то меняется, и на замену GPU с 2048 вычислительными ядрами и 128 текстурными модулями пришёл новый графический процессор на основе этой же архитектуры Maxwell второго поколения (первое мы помним по чипу GM107, на котором основана видеокарта Geforce GTX 750 Ti) и теми же возможностями, но уже с 3072 вычислительными ядрами CUDA и 192 текстурными блоками - всё это упаковали уже в 8 миллиардов транзисторов. Понятное дело, Geforce GTX Titan X сразу же стал самым мощным решением.

На самом деле, топовый чип второго поколения Maxwell, который мы теперь знаем под кодовым именем GM200, был готов у Nvidia ещё какое-то время до его анонса. Просто не было особого смысла выпускать ещё одну топовую модель видеокарты, когда даже Geforce GTX 980 на основе GM204 прекрасно справлялась с задачей быстрейшей одночиповой видеокарты в мире. Компания Nvidia какое-то время ждала выхода более мощного решения от AMD на базе GPU, произведённого по тому же 28 нм техпроцессу, но так и не дождалась.

Вероятно, чтобы продукт совсем не «прокис» в отсутствие реальной конкуренции, его всё же решили выпустить, закрепив за собой звание компании, выпускающей самые мощные GPU. И действительно, ждать решения соперника смысла не было, ведь его отложили как минимум до июня - столько времени ждать просто невыгодно. Ну а в случае чего, всегда можно выпустить ещё более мощную видеокарту на основе этого же графического процессора, но работающего на более высокой частоте.

Но зачем вообще нужны столь мощные решения в эпоху распространения мультиплатформенных игр с довольно средними требованиями к мощности GPU? Во-первых, совсем скоро должны появиться первые игровые приложения, использующие возможности DirectX 12, пусть даже и мультиплатформенные - ведь ПК-версии таких приложений практически всегда предлагают более качественную графику, дополнительные эффекты и текстуры более высокого разрешения. Во-вторых, уже сейчас вышли DirectX 11 игры, которые могут использовать все возможности мощнейших GPU - вроде Grand Theft Auto V, про которую мы подробнее расскажем ниже.

Важно, что графические решения архитектуры Maxwell от Nvidia полностью поддерживают так называемый уровень возможностей Feature Level 12.1 из DirectX 12 - максимальный из известных на данный момент. Компания Nvidia уже давно предоставляла игровым разработчикам драйверы с поддержкой будущей версии DirectX, а теперь они стали доступны и пользователям, установившим Microsoft Windows 10 Technical Preview. Неудивительно, что именно видеокарты Geforce GTX Titan X использовались для демонстрации возможностей DirectX 12 на игровой конференции разработчиков Game Developers Conference, где модель и была впервые показана.

Так как рассматриваемая модель видеокарты от компании Nvidia основана на топовом графическом процессоре архитектуры «Maxwell» второго поколения, которую мы уже рассматривали и которая в деталях схожа с предыдущей архитектурой «Kepler», то перед прочтением данного материала полезно ознакомиться с более ранними статьями о видеокартах компании Nvidia:

Nvidia Geforce GTX 970 - Неплохая замена GTX 770
Nvidia Geforce GTX 980 - Последователь Geforce GTX 680, обгоняющий даже GTX 780 Ti
Nvidia Geforce GTX 750 Ti - Maxwell начинает с малого... несмотря на Maxwell
Nvidia Geforce GTX 680 - новый однопроцессорный лидер 3D-графики

Итак, давайте рассмотрим подробные характеристики видеоплаты Geforce GTX Titan X, основанной на графическом процессоре GM200.

Графический ускоритель Geforce GTX Titan X
Параметр	Значение
Кодовое имя чипа	GM200
Технология производства	28 нм
Количество транзисторов	около 8 млрд.
Площадь ядра	около 600 мм 2
Архитектура	Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	DirectX 12, с поддержкой уровня возможностей Feature Level 12.1
Шина памяти	384-битная: шесть независимых контроллеров памяти шириной по 64 бита с поддержкой GDDR5-памяти
Частота графического процессора	1000 (1075) МГц
Вычислительные блоки	24 потоковых мультипроцессора, включающих 3072 скалярных ALU для расчетов с плавающей запятой одинарной и двойной точности (с темпом 1/32 от FP32) в рамках стандарта IEEE 754-2008;
Блоки текстурирования	192 блока текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP)	6 широких блоков ROP (96 пикселей) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов	Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0 и DisplayPort 1.2

Спецификации референсной видеокарты Geforce GTX Titan X
Параметр	Значение
Частота ядра	1000 (1075) МГц
Количество универсальных процессоров	3072
Количество текстурных блоков	192
Количество блоков блендинга	96
Эффективная частота памяти	7000 (4×1750) МГц
Тип памяти	GDDR5
Шина памяти	384-бит
Объем памяти	12 ГБ
Пропускная способность памяти	336,5 ГБ/с
Вычислительная производительность (FP32)	до 7 терафлопс
Теоретическая максимальная скорость закраски	96 гигапикселей/с
Теоретическая скорость выборки текстур	192 гигатекселей/с
Шина	PCI Express 3.0
Разъемы	Один разъем Dual Link DVI, один HDMI 2.0 и три DisplayPort 1.2
Энергопотребление	до 250 Вт
Дополнительное питание	Один 8-контактный и один 6-контактный разъемы
Число слотов, занимаемых в системном корпусе	2
Рекомендуемая цена	$999 (США), 74990 руб (Россия)

Новая модель Geforce GTX Titan X получила наименование, продолжающее линейку премиальных решений Nvidia специфического позиционирования - к нему просто добавили букву X. Новинка пришла на замену модели Geforce GTX Titan Black, и в текущей продуктовой линейке компании располагается на самом верху. Выше её остаётся разве что двухчиповая Geforce GTX Titan Z (хотя её уже можно и не упоминать), а ниже - одночиповые модели GTX 980 и GTX 970. Рекомендованная цена на новую плату составляет $999, и это ожидаемо для платы линейки Titan, так как она является лучшим по производительности решением на рынке одночиповых видеокарт.

Рассматриваемая модель компании Nvidia сделана на базе чипа GM200, имеющего 384-битную шину памяти, а память работает на частоте 7 ГГц, что даёт пиковую пропускную способность в 336,5 ГБ/с - в полтора раза больше, чем в GTX 980. Это весьма впечатляющее значение, особенно если вспомнить новые методы внутричипового сжатия информации, используемые в Maxwell второго поколения, помогающие использовать имеющуюся ПСП куда эффективнее, чем GPU конкурента.

С такой шиной памяти, объём установленной на видеокарту видеопамяти мог быть 6 или 12 ГБ, но в случае элитной модели было принято решение по установке 12 ГБ, чтобы продолжить тренд, заданный первыми моделями GTX Titan. Этого более чем достаточно для запуска любых 3D-приложений без оглядки на параметры качества - такого объёма видеопамяти хватит абсолютно для любой существующей игры в любом разрешении экрана и при любых настройках качества, что делает видеокарту Geforce GTX Titan X особенно заманчивой с видом на перспективу - её владелец никогда не столкнётся с нехваткой видеопамяти.

Официальная цифра энергопотребления для Geforce GTX Titan X составляет 250 Вт - столько же, что и у других одночиповых решений элитной серии Titan. Интересно, что 250 Вт примерно на 50% больше по сравнению с GTX 980, на столько же выросло и количество основных функциональных блоков. Никаких проблем довольно высокое потребление не приносит, референсный кулер прекрасно справляется с рассеиванием такого количества тепла, а уж системы энтузиастов после GTX Titan и GTX 780 Ti давно готовы к подобному уровню энергопотребления.

Архитектура

Модель видеокарты Geforce GTX Titan X основана на новом графическом процессоре GM200, который включает все архитектурные возможности чипа GM204, поэтому всё сказанное в статье по GTX 980 относится в полной мере и к премиальной новинке - советуем ознакомиться сначала с тем материалом, в котором более полно рассмотрены именно архитектурные особенности Maxwell.

Графический процессор GM200 можно назвать экстремальной версией GM204, возможной в рамках технологического процесса 28 нм. Новый чип больше по размеру, значительно быстрее и более требователен к питанию. По данным компании Nvidia, «большой Maxwell» включает 8 миллиардов транзисторов, которые занимают площадь порядка 600 мм 2 - то есть, это самый большой графический процессор компании. «Большой Maxwell» имеет на 50% больше потоковых процессоров, на 50% больше блоков ROP и на 50% большую ПСП, поэтому и имеет почти в полтора раза большую площадь.

Архитектурно видеочип GM200 полностью соответствует младшей модели GM204, он также состоит из кластеров GPC, в которые собрано по несколько мультипроцессоров SM. Топовый графический процессор содержит шесть кластеров GPC, состоящих из 24 мультипроцессоров, всего он имеет 3072 вычислительных CUDA ядер, а текстурные операции (выборка и фильтрация) производятся при помощи 192 текстурных модулей. И при базовой частоте в 1 ГГц, производительность текстурных модулей составляет 192 гигатекселя/сек, что более чем на треть превышает аналогичную характеристику предыдущей мощнейшей видеокарты компании - Geforce GTX 980.

Мультипроцессор второго поколения Maxwell разбит на четыре блока CUDA-ядер по 32 штуки (всего 128 ядер на SMM), каждый из которых имеет собственные ресурсы для распределения команд, планирования обработки и буферизации потока инструкций. Благодаря тому, что каждый вычислительный блок имеет свои блоки диспетчера, вычислительные CUDA-ядра используются более эффективно, чем в Kepler, что также снижает и энергопотребление GPU. Сам по себе мультипроцессор по сравнению с GM204 не изменился:

Для улучшения эффективности использования кэшей в GPU, были сделаны многочисленные изменения в подсистеме памяти. Каждый из мультипроцессоров в GM200 имеет выделенные 96 КБ общей памяти, а кэши первого уровня и текстур объединены в 24 КБ блоки - по два блока в мультипроцессоре (всего 48 КБ на SMM). Графические процессоры предыдущего поколения Kepler имели лишь 64 КБ общей памяти, которая также выполняла функции кэш-памяти первого уровня. В результате всех изменений, эффективность CUDA-ядер Maxwell примерно в 1,4 раза выше, чем в аналогичном чипе Kepler, а энергоэффективность новых чипов примерно вдвое выше.

В целом, в графическом процессоре GM200 всё устроено точно так же, как и в рассмотренном нами в 2014 году чипе GM204. Не тронули даже вычислительные ядра, которые умеют выполнять операции с плавающей запятой двойной точности с темпом всего лишь 1/32 от скорости вычислений одинарной точности - точно как у Geforce GTX 980. Такое впечатление, что в Nvidia признали, что выпуск специализированных решений для профессионального рынка (GK210) и для игрового (GM200) вполне обоснован.

Подсистема памяти у GM200 по сравнению с GM204 усилена - она основана на шести 64-битных контроллерах памяти, что в сумме составляет 384-битную шину. Чипы памяти работают на эффективной частоте в 7 ГГц, что даёт пиковую пропускную способность в 336,5 ГБ/с, что в полтора раза выше, чем у Geforce GTX 980. Не забываем и о новых методах сжатия данных от Nvidia, которые позволяют добиться большей эффективной ПСП, по сравнению с предыдущими продуктами - на той же 384-битной шине. В обзоре Geforce GTX 980 мы тщательно рассматривали это нововведение второго поколения чипов Maxwell, которое обеспечивает им на четверть более эффективное использование видеопамяти, по сравнению с Kepler.

Как и все последние видеокарты Geforce, модель GTX Titan X имеет базовую частоту - минимальную для работы GPU в 3D-режиме, а также турбо-частоту Boost Clock. Базовая частота для новинки составляет 1000 МГц, а частота Boost Clock - 1075 МГц. Как и раньше, турбо-частота означает лишь среднюю частоту работы GPU для некоего набора игровых приложений и других 3D-задач, используемых в Nvidia, а реальная частота работы может быть и выше - она зависит от 3D-нагрузки и условий (температуры, потребления энергии и т.д.)

Получается, что частота GPU у новинки примерно на 10% выше, чем было у GTX Titan Black, но ниже, чем у GTX 980, так как большие графические процессоры всегда приходится тактовать на меньшей частоте (а GM200 по площади заметно больше, чем GM204). Поэтому общая 3D-производительность новинки будет примерно на 33% выше, чем у GTX 980, особенно если сравнивать Turbo Boost частоты.

Во всём остальном, чип GM200 ровно ничем не отличается от GM204 - по своим возможностям и поддерживаемым технологиям решения идентичны. Даже модули по работе с дисплеями и видеоданными оставили точно такими же, что и у GM204, на котором основана модель Geforce GTX 980. Соответственно, всё то, что мы писали про GTX 980 и GTX 970, в полной мере относится и к Titan X.

Поэтому по всем остальным вопросам функциональных тонкостей новинки вы можете обратиться к обзорам Geforce GTX 980 и GTX 750 Ti , в которых мы подробно писали об архитектуре Maxwell, устройстве потоковых мультипроцессоров (Streaming Multiprocessor - SMM), организации подсистемы памяти и некоторых других архитектурных отличиях. Там же вы можете ознакомиться и с функциональными возможностями, вроде аппаратной поддержки ускорения расчета глобального освещения VXGI, новых методов полноэкранного сглаживания и улучшенных возможностей графического API DirectX 12.

Решение проблем с освоением новых техпроцессов

Можно уверенно говорить о том, что на рынке видеокарт все давно устали от 28 нм техпроцесса - мы наблюдаем уже четвёртый год использования именно его, а шаг вперёд у TSMC сделать сначала не получалось вовсе, а потом вроде получилось начать 20 нм производство, но толку от него для больших GPU не было - выход годных довольно низкий, и преимуществ по сравнению с отработанным 28 нм не обнаружилось. Поэтому Nvidia и AMD пришлось выжимать из существующих возможностей как можно большее, и в случае чипов архитектуры Maxwell компания Nvidia явно преуспела в этом. По мощности и энергоэффективности GPU этой архитектуры стали явным шагом вперёд, на который AMD просто ничего не ответила - как минимум пока.

Так, из GM204 инженеры Nvidia смогли выжать гораздо больше производительности по сравнению с GK104, при том же уровне энергопотребления, хотя чип увеличился на треть, а большая плотность размещения транзисторов позволила поднять их число ещё больше - с 3,5 млрд. до 5,2 млрд. Понятно, что в таких условиях в составе GM204 оказалось куда больше исполнительных блоков, что вылилось и в большую 3D-производительность.

Но в случае самого большого чипа архитектуры Maxwell, конструкторы Nvidia не могли слишком сильно увеличивать размер чипа, по сравнению с GK110, он и так имеет площадь порядка 550 мм 2 , и увеличить его площадь на треть или хотя бы четверть не представлялось возможным - такой GPU стал бы слишком сложным и дорогим в производстве. Пришлось чем-то пожертвовать (по сравнению со старшим Kepler), и этим чем-то стала производительность вычислений с двойной точностью - её темп у GM200 точно такой же, что и у других решений Maxwell, хотя старший Kepler был универсальнее, подходя и для графических и для любых неграфических расчётов.

Такое решение далось для Kepler нелегко - уж слишком большая часть площади этого чипа была занята FP64-ядрами CUDA и другими специализированными блоками для вычислений. В случае большого Maxwell было решено обойтись графическими задачами и его сделали просто в виде укрупнённой версии GM204. Новый чип GM200 стал чисто графическим, в нём нет специальных блоков для FP64-вычислений, и их темп остался прежним - лишь 1/32 от FP32. Зато большая часть площади GK110, занятая FP64 ALU, освободилась и на их место было помещено большее количество важных для графики FP32 ALU.

Такой ход позволил заметно увеличить графическую (да и вычислительную, если брать FP32-вычисления) производительность по сравнению GK110 без роста энергопотребления и при незначительном увеличении площади кристалла - менее чем на 10%. Интересно, что Nvidia намеренно пошла на разделение графических и вычислительных чипов в этот раз. Хотя GM200 остаётся весьма производительным в FP32-вычислениях, и вполне возможен выход специализированных решений Tesla для вычислений с одинарной точностью, достаточных для многих научных задач, но Tesla K40 остаётся самой производительной для FP64-вычислений.

В этом и отличие от оригинальной Titan, кстати - первое решение линейки могло использоваться и в профессиональных целях для вычислений с двойной точностью, так как оно также имеет темп 1/3 для FP64-расчётов. И многие исследователи использовали GTX Titan в качестве начальной карты для своих CUDA-приложений и задач, при успехе переходя на решения Tesla. Вот для этого GTX Titan X уже не подойдёт, придётся ждать GPU следующих поколений. Если они не будут разделены на графические и вычислительные чипы изначально, конечно.

В картах расширения такое разделение есть уже сейчас - модель Tesla K80 содержит пару чипов GK210, не применяемых в видеокартах и отличающихся от GK110 удвоенным регистровым файлом и разделяемой памятью для большей производительности именно вычислительных задач. Получается, что GK210 можно считать исключительно «вычислительным» процессором, а GM200 - чисто «графическим» (с определённой долей условности, ведь оба GPU имеют одинаковые возможности, просто разной специализации).

Посмотрим, что получится в следующих поколениях графических архитектур компании Nvidia, производимых уже на более «тонком» техпроцессе - возможно, такое разделение в них не понадобится, по крайней мере поначалу. Или наоборот, мы сразу же увидим жёсткое разделение по моделям GPU с разной специализацией (в вычислительных моделях будет больше вычислительных возможностей, а в графических - TMU и ROP блоков, например), хотя архитектура останется единой.

Особенности конструкции видеокарты

Но вернёмся к Geforce GTX Titan X. Это мощнейшая видеокарта, предназначенная для энтузиастов ПК-игр, поэтому она должна иметь и соответствующий внешний вид - оригинальный и солидный дизайн платы и кулера. Как и предыдущие решения линейки Titan, модель Geforce GTX Titan X накрыта алюминиевым корпусом, который и придаёт тот самый премиальный вид видеокарте - она действительно смотрится солидно.

Весьма впечатляюще смотрится и система охлаждения - в конструкции кулера Titan X используется испарительная камера из медного сплава - она охлаждает графический процессор GM200. Испарительная камера соединена с большим двухслотовым радиатором из алюминиевого сплава, который рассеивает тепло, переданное от видеочипа. Вентилятор выводит нагретый воздух вне корпуса ПК, что положительно сказывается на общем температурном режиме в системе. Вентилятор работает очень тихо даже при разгоне и при длительной работе под нагрузкой, и в результате, GTX Titan X с потреблением 250 Вт является одной из самых тихих видеокарт в своём классе.

В отличие от референсной платы Geforce GTX 980, новинка не содержит специальную съёмную пластину, которой прикрыта задняя поверхность платы - это сделано для обеспечения максимального притока воздуха к PCB для её охлаждения. Для питания платы используется набор из одного 8-контактного и одного 6-контактного разъёмов дополнительного питания PCI Express.

Так как Geforce GTX Titan X предназначена для энтузиастов, предпочитающих решения с максимальной производительностью, то все компоненты новой видеокарты подбирались с этим расчётом и даже с некоторым запасом по возможностям и характеристикам.

Например, для обеспечения графического процессора в составе Geforce GTX Titan X энергией, используется 6-фазная система питания с возможностью дополнительного усиления. Для обеспечения работы GDDR5-памяти дополнительно применяется ещё одна двухфазная система питания. 6+2-фазная система питания видеокарты обеспечивает рассматриваемую модель более чем достаточным количеством энергии, даже с учётом разгона. Так, референсная плата Titan X способна подвести до 275 Вт питания к GPU при условии установки максимального значения целевого питания (power target) в 110%.

Также, для дальнейшего улучшения разгонного потенциала, было улучшено охлаждение всех компонентов новинки, по сравнению с оригинальной видеокартой Geforce GTX Titan - изменённый дизайн платы и кулера привёл к улучшению оверклокерских возможностей. В итоге, почти все образцы Titan X способны работать на частоте до 1.4 ГГц и более - при референсном же воздушном кулере.

Длина референсной платы Geforce GTX Titan X составляет 267 мм, на ней установлены следующие разъёмы для вывода изображения: один Dual-Link DVI, один HDMI 2.0 и три DisplayPort. Geforce GTX Titan X поддерживает вывод изображения на дисплеи с разрешением до 5K, и является очередной видеокартой с поддержкой HDMI 2.0, чего до сих пор нет у конкурента - это позволяет подключать новинку к 4K-телевизорам, обеспечивая максимальное качество картинки при высокой частоте обновления в 60 Гц.

Поддержка игровых разработчиков

Nvidia всегда была компанией, которая отличается очень тесной работой с производителями ПО, а особенно - игровыми разработчиками. Чего стоит только PhysX - самый популярный игровой движок физических эффектов, который применяется уже более 10 лет в более чем 500 играх. Широкое распространение PhysX связано в том числе с тем, что он интегрирован в одни из самых популярных игровых движков: Unreal Engine 3 и Unreal Engine 4. Так, на конференции игровых разработчиков Game Developers Conference 2015, компания Nvidia анонсировала свободный доступ к исходным кодам CPU-ориентированной части PhysX 3.3.3 для разработчиков на C++ в вариантах для Windows, Linux, OS X и Android.

Разработчики теперь смогут модифицировать код PhysX движка так, как они пожелают, и модификации даже могут быть затем включены в основной код Nvidia PhysX. Открыв исходники PhysX для всех желающих, Nvidia дала доступ к своему физическому движку ещё более широкому кругу разработчиков игровых приложений, которые могут использовать этот продвинутый физический движок в своих играх.

Nvidia продолжает продвигать и ещё одну свою технологию - довольно новый алгоритм имитации динамического глобального освещения VXGI, который включает поддержку специального аппаратного ускорения на видеокартах с графическими процессорами Maxwell второго поколения, таких как Geforce GTX Titan X.

Внедрение VXGI в игру позволит разработчикам обеспечить весьма качественный расчёт динамического глобального освещения в реальном времени, использующем все возможности современных GPU и обеспечивающем высочайшую производительность. Чтобы понять важность расчёта глобального освещения (рендеринга с учётом не только прямого освещения от источников света, но и его отражения от всех объектов сцены), достаточно посмотреть на пару картинок - с включенным GI и без него:

Понятно, что этот пример искусственный, и в реальности игровые дизайнеры используют специальные методы для имитации глобального затенения, расставляя дополнительные источники света или используя предварительный расчёт освещения - но до появления VXGI они или не были полностью динамическими (предварительно рассчитывались для статической геометрии) или не имели достаточную реалистичность и/или производительность. В будущих же играх вполне можно применять VXGI, и совсем не только на топовых GPU.

Техника VXGI очень понравилась игровым разработчикам. По крайней мере, многие из них попробовали метод в тестовых сценах, очень воодушевлены результатами и рассматривают возможность её включения в свои игры. А вот вам ещё одна сцена с качественным расчётом глобального освещения - по ней тоже видно, насколько важно учитывать лучи света, отражённые от всех поверхностей сцены:

Пока разработчики не внедрили VXGI в собственные движки, можно воспользоваться специальной версией движка Unreal Engine 4 VXGI GitHub, который предоставлен всем заинтересованным разработчикам - это даёт возможность быстрой интеграции VXGI в их игровые (и не только!) проекты, использующие этот популярный игровой движок - впрочем, для этого будут нужны некоторые модификации, VXGI нельзя просто «включить».

Рассмотрим ещё одну технологию Nvidia - полноэкранное сглаживание методом MFAA, обеспечивающее отличную производительность и при этом - приемлемое качество сглаживания. Мы уже писали об этом методе и лишь вкратце повторим суть и перспективы. Поддержка MFAA является одной из ключевых возможностей графических процессоров Maxwell, по сравнению с GPU предыдущих поколений. Используя возможность по программированию позиций для выборок сглаживания при методе MSAA, эти выборки меняются каждый кадр таким образом, что MFAA является практически полноценным MSAA, но при меньшей нагрузке на GPU.

В результате, картинка с включенным MFAA выглядит практически как с MSAA, но потери производительности при этом значительно ниже. К примеру, MFAA 4x обеспечивает скорость на уровне MSAA 2x, а качество сглаживания близко к MSAA 4x. Поэтому в тех играх, где производительности для достижения высокой частоты кадров недостаточно, применение MFAA будет вполне оправдано и может улучшить качество. Вот пример получаемой производительности с MSAA и MFAA на видеокарте Titan X по сравнению с обычной Titan (в 4К-разрешении):

Метод сглаживания MFAA совместим со всеми играми, использующими DirectX 10 и DirectX 11 и имеющими поддержку MSAA (за исключением редких проектов вроде Dead Rising 3, Dragon Age 2 и Max Payne 3). MFAA можно включить вручную в панели управления Nvidia. Также MFAA интегрирована в Geforce Experience, и этот метод автоматически включится для разных игр в случае оптимизации при помощи Geforce Experience. Единственной проблемой является то, что на данный момент MFAA всё ещё не совместима с технологией Nvidia SLI, что обещают исправить в будущих версиях видеодрайверов.

Современные игры на Geforce GTX Titan X

Со всей своей мощью и возможностями, Geforce GTX Titan X способен справиться не только с нынешними играми, но и будущими проектами с поддержкой грядущей версии DirectX 12. Но «поставить на колени» новинку можно и сейчас - с помощью самых требовательных современных игр при максимальных настройках качества, с включенным полноэкранным сглаживанием и высоким разрешением рендеринга - вроде 4K.

В условиях высоких разрешений и включенном сглаживании мощная подсистема памяти становится особенно важной, и у Geforce GTX Titan X с ней всё в полном порядке - 384-битный интерфейс памяти и чипы, работающие на эффективной частоте 7 ГГц обеспечивают пропускную способность в 336,5 ГБ/с - хоть это и не рекорд, но довольно прилично.

А ещё очень важно, чтобы все данные помещались в видеопамять, так как при включении MSAA в разрешении 4K во многих играх объёма видеопамяти просто не хватает - нужно более чем 4 ГБ памяти. И в Titan X есть не просто 6 ГБ, а целых 12 ГБ видеопамяти, ведь эта линейка создана для тех энтузиастов, которые не терпят компромиссов. Понятно, что с таким объёмом набортной памяти игроку не нужно задумываться о том, не снизится ли производительность игры в высоком разрешении при включении мультисэмплинга - во всех играх при любых настройках 12 ГБ будет более чем достаточно.

На данный момент, в абсолютно любой игре можно задавать любые настройки и выбирать любые разрешения - Titan X обеспечит достаточную частоту кадров при (почти) любых условиях. Вот какие игры выбрала Nvidia для демонстрации производительности своего решения:

Как видите, частота кадров в 40 FPS и более обеспечивается в большинстве самых «тяжёлых» современных игр, с включенным полноэкранным сглаживанием, в том числе таких проектах, как Far Cry 4 - в этой игре при Ultra-настройках и сглаживании в 4K-разрешении добиться приемлемой скорости рендеринга можно только на Titan X или на многочиповых конфигурациях.

А с выходом игр будущего, которые будут иметь поддержку DirectX 12, можно ожидать ещё большего роста требований к производительности GPU и видеопамяти - улучшение качества рендеринга «бесплатно» не даётся. Кстати, на тот момент Nvidia ещё не протестировала свою видеокарту Titan X в новейшей игре, вышедшей совсем недавно - ПК-версии Grand Theft Auto V. Эта серия игр является самой популярной среди современных проектов, в ней вы выступаете в роли различных криминальных элементов в декорациях города Лос-Сантос, подозрительно похожего на реальный Лос-Анджелес. ПК-версию GTAV очень ждали и она наконец-то вышла в середине апреля - через месяц после Titan X.

Даже консольные версии (речь о консолях текущего поколения, разумеется) игры Grand Theft Auto V были весьма неплохи по качеству картинки, а уж ПК-версия игры предлагает ещё несколько возможностей для её улучшения: значительно увеличенную дальность прорисовки (объектов, эффектов, теней), возможность игры при 60 FPS и более, в том числе в разрешениях вплоть до 4K. Кроме этого обещают богатый и плотный трафик, множество динамических объектов в сцене, улучшенные погодные эффекты, тени, освещение и т.д.

Применение пары технологий Nvidia GameWorks позволило ещё больше улучшить качество картинки в GTAV. Напомним, GameWorks - это специальная платформа для игровых и графических разработчиков, обеспечивающая их 3D-технологиями и утилитами, предназначенными для видеокарт Nvidia. Добавление технологий GameWorks в игры позволяет сравнительно просто добиться качественной имитации реалистичного дыма, шерсти и волос, волн, а также глобального освещения и других эффектов. GameWorks значительно облегчает задачу разработчиков, обеспечивая примерами, библиотеками и SDK, готовыми к применению в игровом коде.

Игра Grand Theft Auto V использует пару таких технологий от Nvidia: ShadowWorks Percentage-Closer Soft Shadows (PCSS) и Temporal Anti-Aliasing (TXAA), которые улучшают и так неплохую графику в игре. PCSS - это специальная техника рендеринга теней, имеющая лучшее качество, по сравнению с типичными методами мягких теней. PCSS имеет три преимущества: степень мягкости краёв теней зависит от расстояния между объектом, отбрасывающим тень и поверхностью, на которой она рисуется, также обеспечивается более качественная фильтрация, снижающая количество артефактов в виде рваных краёв теней, а использование теневого буфера позволяет грамотно обрабатывать пересечения теней от разных объектов и не допускать появления «сдвоенных» теней.

В результате при включении PCSS в игре обеспечиваются мягкие реалистичные динамические тени, куда лучшего качества, по сравнению с тем, что мы видели на игровых консолях. А для игры вроде Grand Theft Auto V с постоянно перемещающимся по горизонту ярким солнцем качество теней весьма важно, они всегда на виду. По следующим скриншотам можно оценить разницу между двумя самыми качественными методами, применяющимися в игре (алгоритм AMD против метода Nvidia):

Явно видно, что метод PCSS позволяет получить мягкие края теней, которые прогрессивно замыливаются тем больше, чем дальше расстояние между объектом, от которого тень, и поверхностью, «принимающей» тень. При этом, включение PCSS почти не сказывается на итоговой производительности в игре. Хотя этот метод обеспечивает лучшее качество и реализм теней, включение этой опции практически «бесплатно» для производительности.

Ещё одним важным дополнением к ПК-версии игры GTAV можно назвать метод сглаживания Nvidia TXAA. Temporal Anti-Aliasing - это новый алгоритм сглаживания, созданный специально для устранения проблем обычных методов сглаживания, видимых в динамике - когда отдельные пиксели мерцают. Для фильтрации пикселей на экране при помощи этого метода используются сэмплы не только внутри пикселя, но и снаружи его, также совместно с сэмплами из предыдущих кадров, что позволяет получить «киношное» качество фильтрации.

Особенно хорошо преимущество метода перед MSAA заметно на таких объектах с полупрозрачными поверхностями, как трава, листья деревьев и сетки заборов. Также TXAA помогает качественно сгладить попиксельные эффекты. В целом, метод очень качественный и приближается по качеству к профессиональным методам, применяемым в 3D-графике, но результат после TXAA получается слегка более размытый, по сравнению с MSAA, что нравится не всем пользователям.

Падение производительности от включения TXAA зависит от игры и условий, и коррелирует в основном со скоростью MSAA, который также используется в этом методе. Но по сравнению с методами сглаживания чисто постобработкой, вроде FXAA, которые обеспечивают максимальную скорость при меньшем качестве, TXAA призван максимизировать качество при некотором дополнительном падении производительности. Но при таком богатстве и детализации мира, как мы видим в Grand Theft Auto V, включение качественного сглаживания будет весьма полезным.

ПК-версия игры имеет богатые графические настройки, позволяющие получить необходимое качество картинки с требуемой производительностью. Так, GTAV на ПК обеспечивает приемлемую скорость рендеринга и его качества на всех решениях компании Nvidia, начиная примерно с Geforce GTX 660. Ну а чтобы получить полноценное наслаждение всеми графическими эффектами игры, рекомендуется использовать что-то вроде Geforce GTX 970/980 или даже Titan X.

Для проверки настроек в игру встроен тест производительности - этот бенчмарк содержит пять сцен, близких к реальному геймплею, что позволит оценить скорость рендеринга в игре на ПК с разными аппаратными конфигурациями. Но обладателям видеокарт Nvidia можно поступить проще, оптимизировав игру для собственного ПК при помощи Geforce Experience. Это ПО подберёт и настроит оптимальные настройки при сохранении играбельной скорости рендеринга - и всё это делается нажатием одной кнопки. Geforce Experience найдёт лучшее сочетание характеристик и для Geforce GTX 660 с FullHD-монитором, и для Titan X с 4К-телевизором, обеспечив лучшие настройки для конкретной системы.

Полная поддержка игры GTAV появилась в новой сборке драйверов Geforce версии 350.12 WHQL, имеющей специальный оптимизированный профиль для этого приложения. Эта версия драйверов обеспечит оптимальную производительность в игре, в том числе с использованием других технологий компании Nvidia: 3D Vision, 4K Surround, Dynamic Super Resolution (DSR), GameStream, G-SYNC (Surround), Multi Frame Sampled Anti-Aliasing (MFAA), Percentage Closer Soft Shadows (PCSS), SLI и других.

Также, специальный драйвер версии 350.12 WHQL содержит обновленные SLI-профили для нескольких игр, включая и новый профиль для Grand Theft Auto V. В дополнение к SLI-профилям, драйвер обновляет и добавляет профили и для технологии 3D Vision, и профиль для GTAV получил оценку «Excellent», что означает отличное качество стереоизображения в данной игре - обладателям соответствующих очков и мониторов стоит попробовать!

Поддержка технологий виртуальной реальности

Тема виртуальной реальности (Virtual Reality - VR) сейчас является одной из самых громких в игровой индустрии. Во многом, в возрождении интереса к VR «виновата» компания Oculus, которую затем приобрел Facebook. До некоторого времени они показывали лишь прототипы или комплекты SDK, но у них есть планы и по выпуску коммерческой версии шлема Oculus Rift в конце текущего года. Другие компании также не остаются в стороне. К примеру, известная компания Valve анонсировала планы по партнёрству с компанией HTC для выпуска собственного шлема виртуальной реальности также к концу 2015 года.

Естественно, что и производители графических процессоров видят в VR перспективу, и компания Nvidia плотно работает с поставщиками программных и аппаратных решений для виртуальной реальности для того, чтобы обеспечить максимально комфортную их работу совместно с видеокартами Geforce (а то и Tegra, кто знает?). И это - не просто маркетинговые лозунги, ведь чтобы использование VR было комфортным, нужно решить несколько проблем, в том числе снизить задержки между действием игрока (движение головы) и результирующим отображением этого движения на дисплее - слишком большой лаг не просто портит впечатление от виртуальной реальности, но может вызвать так называемую морскую болезнь (укачивание, motion sickness).

Для того, чтобы снизить эту задержку, программное обеспечение VR Direct от Nvidia поддерживает такую возможность, как асинхронное искажение времени (asynchronous time warp). С применением асинхронного искажения времени, отрендеренная некоторое время назад сцена может сдвигаться, основываясь на более поздних движениях головы игрока, которую захватили сенсоры шлема. Это сокращает задержку между действием и выводом изображения, так как GPU не нужно перерасчитывать весь кадр полностью перед сдвигом. Компания Nvidia уже предоставляет драйверную поддержку для разработчиков VR-приложений, и они могут применить асинхронное искажение времени в своём ПО.

Кроме задержки вывода, очень важным для достижения комфортного геймплея в шлеме виртуальной реальности является не просто обеспечение высокой частоты кадров, а вывод кадров для каждого глаза с максимально плавной их сменой. Соответственно, после популяризации VR-шлемов будущего поколения, многие из игроков захотят опробовать из в современных играх, весьма требовательных к мощности GPU. И в некоторых случаях придётся создавать двухчиповую SLI-конфигурацию из пары мощнейших видеокарт вроде Geforce GTX Titan X.

Чтобы обеспечить максимальный комфорт в таких случаях, Nvidia предлагает технологию VR SLI, позволяющую разработчикам игр назначить конкретный GPU из пары для каждого из глаз, чтобы снизить задержки и улучшить производительность. В таком случае, картинку для левого глаза будет рендерить один графический процессор, а для правого - второй GPU. Это очевидное решение снижает задержки и идеально для приложений виртуальной реальности.

Пока что VR SLI и asynchronous time warp недоступны в публичных драйверах Nvidia, но это и не особенно нужно, ведь для их использования требуется изменение исполнимого кода игр. А предварительные версии видеодрайверов для Geforce с поддержкой VR SLI и асинхронного искажения времени доступны для избранных партнёров Nvidia, таких как Epic, Crytek, Valve и Oculus. Ну а публичный драйвер выйдет ближе к выходу конечных VR-продуктов в продажу.

Добавим, что столь мощная видеокарта как Geforce GTX Titan X, применялась во многих демонстрациях виртуальной реальности на игровой конференции для разработчиков в этом году - Game Developers Conference 2015. Вот лишь несколько примеров: «Thief in the Shadows» - совместная разработка Nvidia, Epic, Oculus и WETA Digital – студии, создававшей визуальные эффекты в кинотрилогии «Хоббит», «Back to Dinosaur Island» - перезагрузка известной 14 лет назад демо-программы «X-Isle: Dinosaur Island» от Crytek, а также демонстрации от Valve: «Portal», «Job Simulator», «TheBluVR» и «Gallery». В общем, дело за выходом VR-шлемов в продажу, а уж Nvidia к этому будет готова.

Выводы по теоретической части

С архитектурной точки зрения, новый топовый GPU второго поколения архитектуры Maxwell получился весьма интересным. Как и его «родственники», GM200 взял всё самое лучшее из прошлых архитектур компании, получив дополнительную функциональность и все улучшения второго поколения Maxwell. Поэтому функционально новинка выглядит просто отлично, соответствуя моделям линейки Geforce GTX 900. При помощи серьёзной модернизации исполнительных блоков, инженеры компании Nvidia добились в Maxwell удвоения показателя соотношения производительности к потреблению энергии, прибавив при этом в функциональности - вспоминаем аппаратную поддержку ускорения глобального освещения VXGI и графического API DirectX 12.

Топовая видеокарта модели Geforce GTX Titan X предназначена для игроков-ультраэнтузиастов, которые хотят получить максимальное качество и производительность от самых современных ПК-игр, запущенных в высочайших разрешениях, с максимальными настройками качества, с полноэкранным сглаживанием, и всё это - с приемлемой частотой кадров. С одной стороны, столь мощный GPU требуется немногими играми, да и можно поставить пару менее дорогих видеокарт. С другой - из-за проблем многочиповых решений с увеличенными задержками и неплавностью смены кадров, многие игроки предпочтут один мощный GPU паре менее сильных. Не говоря уже о том, что одночиповая карта обеспечит ещё и меньшее энергопотребление и шум от системы охлаждения.

Естественно, в таких условиях главным вопросом Geforce GTX Titan X является цена решения. Но дело в том, что она продаётся в той нише, где понятия оправданности цены и соотношения цены и качества просто не нужны - решения максимальной производительности всегда стоят заметно дороже, чем близкие к ним, но всё же не такие производительные. И Titan X - это экстремально мощная и дорогая видеокарта, предназначенная для тех, кто готов платить за максимум скорости в 3D-приложениях.

Geforce GTX Titan X позиционируется как премиальная (люксовая, элитная - называйте как угодно) видеокарта, и к рекомендованной стоимости не должно быть никаких претензий - тем более, что предыдущие решения линейки (GTX Titan и GTX Titan Black) стоили поначалу ровно столько же - $999. Это решение для тех, кому нужен самый быстрый графический процессор из существующих, несмотря на его цену. Более того, для самых богатых энтузиастов и рекордсменов в 3D-бенчмарках, доступны системы из трёх и даже четырёх видеокарт Titan X - это просто быстрейшие видеосистемы в мире.

Вот такие запросы Titan X полностью оправдывает и обеспечивает - топовая новинка даже в одиночестве показывает высочайшую частоту кадров во всех игровых приложениях и почти во всех условиях (разрешение и настройки), а объём быстрой GDDR5-видеопамяти в 12 ГБ позволяет не думать о нехватке локальной памяти на несколько лет вперёд - даже игры будущих поколений, с поддержкой DirectX 12 и т.п., просто не смогут забить эту память настолько, что её не хватит.

Как и в случае с первым GTX Titan в 2013 году, новинка в лице GTX Titan X установила новую планку производительности и функциональности для сегмента премиальных видеокарт. В своё время GTX Titan стала довольно успешным продуктом для компании Nvidia, и нет никаких сомнений в том, что GTX Titan X повторит успех предшественницы. Тем более, что основанная на самом большом видеочипе архитектуры Maxwell модель стала самой производительной на рынке безо всяких оговорок. Так как видеокарты вроде GTX Titan X производит сама Nvidia и продаёт референсные образцы своим партнёрам, то с доступностью в магазинах нет никаких проблем с самого момента её анонса.

GTX Titan X соответствует своему высочайшему уровню по всем параметрам: мощнейший GPU семейства Maxwell, отличный дизайн видеокарт в стиле предыдущих моделей Titan, а также великолепная система охлаждения - эффективная и тихая. По скорости 3D-рендеринга это лучшая видеокарта современности, предлагающая более чем на треть большую производительность, по сравнению с лучшими моделями, вышедшими до Titan X - вроде Geforce GTX 980. И если не рассматривать двухчиповые видеосистемы (вроде пары тех же GTX 980 или одной Radeon R9 295X2 от конкурента, имеющих проблемы, присущие многочиповым конфигурациям), то Titan X можно назвать лучшим решением для небедных энтузиастов.

В следующей части нашего материала мы исследуем скорость рендеринга новой видеокарты Nvidia Geforce GTX Titan X на практике, сравнив её скорость с производительностью самых мощных видеосистем от компании AMD и со скоростными показателями предшественников производства Nvidia, сначала в нашем привычном наборе синтетических тестов, а потом и в играх.

Nvidia Geforce GTX Titan X

Самый мощный однопроцессорный ускоритель

Часть 2 — Практическое знакомство

Из-за позднего получения тестового образца нового ускорителя (и ПО к нему), а также из-за участия нашего автора Алексея Берилло в работе GTC, части этого обзора, посвященные архитектуре нового продукта Nvidia и анализу синтетических тестов, выйдут позже (примерно через неделю). А сейчас мы представляем материал, знакомящий читателей с особенностями видеокарты, а также с результатами игровых тестов.

Устройство(а)

Nvidia Geforce GTX Titan X 12288 МБ 384-битной GDDR5 PCI-E
Параметр	Значение	Номинальное значение (референс)
GPU	Geforce GTX Titan X (GM200)
Интерфейс	PCI Express x16
Частота работы GPU (ROPs), МГц	1000—1075	1000—1075
Частота работы памяти (физическая (эффективная)), МГц	1750 (7000)	1750 (7000)
Ширина шины обмена с памятью, бит	384
Число вычислительных блоков в GPU/частота работы блоков, МГц	24/1000—1075	24/1000—1075
Число операций (ALU) в блоке	128
Суммарное число операций (ALU)	3072
Число блоков текстурирования (BLF/TLF/ANIS)	192
Число блоков растеризации (ROP)	96
Размеры, мм	270×100×35	270×100×35
Количество слотов в системном блоке, занимаемые видеокартой	2	2
Цвет текстолита	черный	черный
Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»), Вт	257/98/14	257/98/14
Уровень шума (в режиме 2D/в режиме 2D (просмотр видео)/в режиме максимального 3D), дБА	20/21/29,5	—
Выходные гнезда		1×DVI (Dual-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.2
Поддержка многопроцессорной работы	SLI
Максимальное количество приемников/мониторов для одновременного вывода изображения	4	4
Дополнительное питание: количество 8-контактных разъемов	1	1
Дополнительное питание: количество 6-контактных разъемов	1	1
Максимальное разрешение 2D: DP/HDMI/Dual-Link DVI/Single-Link DVI
Максимальное разрешение 3D: DP/HDMI/Dual-Link DVI/Single-Link DVI	3840×2400/3840×2400/2560×1600/1920×1200

Комплектация локальной памятью
Картa имеeт 12288 МБ памяти GDDR5 SDRAM, размещенной в 24 микросхемах по 4 Гбит (по 12 на каждой стороне PCB). В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010) . Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain , также известная, как Island11. Синтетические тесты проводились на следующих видеокартах: Geforce GTX Titan X GTX Titan X ) Geforce GTX Titan Z со стандартными параметрами (сокращенно GTX Titan Z ) Geforce GTX 980 со стандартными параметрами (сокращенно GTX 980 ) Radeon R9 295X2 со стандартными параметрами (сокращенно R9 295X2 ) Radeon R9 290X со стандартными параметрами (сокращенно R9 290X ) Для анализа производительности новой модели видеокарты Geforce GTX Titan X были выбраны именно эти решения по следующим причинам. Geforce GTX 980 основана на графическом процессоре этой же архитектуры Maxwell, но более низкого уровня — GM204, и нам будет очень интересно оценить, что дало усложнение чипа до GM200. Ну а двухчиповая видеокарта Geforce GTX Titan Z взята просто для ориентира — как самая производительная видеокарта Nvidia, основанная на паре чипов GK110 предыдущей архитектуры Kepler. От конкурирующей компании AMD для нашего сравнения мы также выбрали две видеокарты. Они очень разные в принципе, хотя и основаны на одинаковых графических процессорах Hawaii — просто на картах разное количество GPU и они отличаются по позиционированию и цене. Ценовых конкурентов у Geforce GTX Titan X нет, поэтому мы взяли самую мощную двухчиповую видеокарту Radeon R9 295X2, хотя такое сравнение будет не слишком интересно технически. Для последнего взята быстрейшая одночиповая видеокарта конкурента — Radeon R9 290X, хотя она выпущена слишком давно и основана на GPU явно меньшей сложности. Но другого выбора из решений AMD просто нет. Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы) Мы отказались от устаревших DirectX 9 тестов, так как сверхмощные решения вроде Geforce GTX Titan X показывают в них не слишком показательные результаты, будучи всегда ограничены ПСП, филлрейтом или текстурированием. Не говоря уже о том, что двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях, а их у нас целых две. Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы. Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере. Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот. Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым. Производительность в данном тесте зависит от количества и эффективности блоков TMU, влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low». В задачах процедурной визуализации меха с большим количеством текстурных выборок, с выпуском видеочипов на базе архитектуры GCN компания AMD давно перехватила лидерство. Именно платы Radeon и по сей день являются лучшими в этих сравнениях, что говорит о большей эффективности выполнения ими этих программ. Такой вывод подтверждается и сегодняшним сравнением — рассматриваемая нами видеокарта Nvidia проиграла даже устаревшей одночиповой Radeon R9 290X, не говоря уже про ближайшего ценового конкурента от AMD. В первом Direct3D 10 тесте новая видеоплата модели Geforce GTX Titan X оказалась чуть быстрее своей младшей сестры на чипе этой же архитектуры в виде GTX 980, но отставание последней невелико — 9-12%. Такой результат объясним заметно меньшей скоростью текстурирования у GTX 980, да и по остальным параметрам она отстаёт, хотя дело явно не в производительности блоков ALU. Двухчиповая Titan Z быстрее, но не так, как Radeon R9 295X2. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: в такой ситуации что-то должно измениться, и ПСП с филлрейтом будут влиять меньше: В усложнённых условиях новая видеокарта модели Geforce GTX Titan X уже заметнее опережает младшую модель из этого же поколения — GTX 980, оказываясь быстрее уже на приличные 33-39%, что куда ближе к теоретической разнице между ними. Да и отставание от конкурентов в виде Radeon R9 295X2 и R9 290X сократилось — новинка от Nvidia почти догнала одночиповую Radeon. Впрочем, двухчиповая осталась далеко впереди, ведь чипы компании AMD предпочитают попиксельные вычисления и в подобных вычислениях очень сильны. Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга: Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis, Lost Planet и многих других. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High». Диаграмма в целом схожа с предыдущей, также без включения суперсэмплинга, и в этот раз новая Geforce GTX Titan X оказалась чуть ближе к GTX Titan Z, проигрывая двухчиповой плате на паре GPU семейства Kepler не так уж много. В разных условиях новинка на 14-19% опережает предыдущую топовую модель текущего поколения от Nvidia, и даже если брать сравнение с видеокартами AMD, то тут кое-что изменилось — в этом случае новинка GTX Titan X чуть уступает Radeon R9 290X совсем немного. Двухчиповая R9 295X2, впрочем, далеко впереди всех. Посмотрим, что изменит включение суперсэмплинга: При включении суперсэмплинга и самозатенения задача становится тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, хотя включение суперсэмплинга сказывается меньше, чем в предыдущем случае. Графические решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров работают эффективнее, по сравнению с конкурирующими платами Geforce, но новый чип GM200 изменяет ситуацию в лучшую сторону — плата Geforce GTX Titan X на чипе архитектуры Maxwell уже во всех условиях опережает Radeon R9 290X (впрочем, основанный на заметно менее сложном GPU). Двухчиповое решение на паре Hawaii осталось лидером, ну а по сравнению с другими решениями Nvidia новинка неплоха. Она показала скорость почти на уровне двухчиповой Geforce GTX Titan Z, и обогнала Geforce GTX 980 на 28-33%. Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления) Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере. Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos. Результаты предельных математических тестов чаще всего соответствуют разнице по частотам и количеству вычислительных блоков, но лишь примерно, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП. В случае теста Mineral, новая модель Geforce GTX Titan X лишь на 10% быстрее платы GTX 980 на чипе GM204 из этого же поколения, да и двухчиповая GTX Titan Z оказалась не так уж быстра в этом тесте — платам Nvidia явно что-то мешает раскрыться. Сравнение Geforce GTX Titan X с конкурирующими платами компании AMD было бы не таким печальным, если бы GPU в R9 290X и Titan X были близки по сложности. Но GM200 гораздо крупнее, чем Hawaii, и его небольшая победа вполне естественна. Обновление архитектуры Nvidia с Kepler до Maxwell привело к тому, что новые чипы в таких тестах приблизились к конкурирующим решениям от AMD. Но даже меньшее по стоимости двухчиповое решение Radeon R9 295X2 заметно быстрее. Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки: Во втором математическом тесте из RigthMark мы видим уже иные результаты видеокарт относительно друг друга. Так, новая Geforce GTX Titan X уже сильнее (на 20%) опережает GTX 980 на чипе той же графической архитектуры, да и двухчиповый Geforce очень близок к новинке — Maxwell справляется с расчётными задачами заметно лучше Kepler. Radeon R9 290X остался позади, но как мы уже писали — GPU Hawaii заметно проще, чем GM200, и такая разница логична. Но хотя двухчиповый Radeon R9 295X2 продолжает оставаться лидером в тестах математических вычислений, в целом в таких задачах новый видеочип Nvidia показал себя неплохо, хотя и не достиг теоретической разницы с GM204. Direct3D 10: тесты геометрических шейдеров В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10. Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково. Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности: Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом. Разница между результатами видеокарт на чипах Nvidia и AMD обычно есть в пользу решений калифорнийской компании, и она обусловлена отличиями в геометрических конвейерах чипов этих компаний. Вот и в данном случае, топовые видеочипы Nvidia имеют много блоков по обработке геометрии, поэтому и выигрыш налицо. В тестах геометрии платы Geforce всегда конкурентоспособнее Radeon. Новая модель Geforce GTX Titan X слегка отстаёт от двухчиповой платы GTX Titan Z на графических процессорах предыдущего поколения, но GTX 980 она обгоняет на 12-25%. Видеокарты Radeon показывают заметно отличающиеся результаты, так как R9 295X2 основана на паре GPU, и только она может поспорить с новинкой в этом тесте, а Radeon R9 290X стала аутсайдером. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер: При изменении нагрузки в этом тесте цифры изменились незначительно, для плат AMD и для решений Nvidia. И это ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются прежними. К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и это не исправлено вот уже несколько лет. Direct3D 10: скорость выборки текстур из вершинных шейдеров В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет. Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»: Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что хорошо заметно по результатам плат Nvidia, особенно в простых режимах. Новая видеокарта компании Nvidia в этом тесте показывает скорость явно ниже, чем должна — все платы Geforce оказались примерно на одном уровне, что явно не соответствует теории. Они во всех режимах явно упираются во что-то типа ПСП. Впрочем, Radeon R9 295X2 тоже далеко не вдвое быстрее R9 290X. Кстати, одночиповая плата от AMD в этот раз оказалась сильнее всех плат от Nvidia в лёгком режиме и примерно на их уровне в тяжёлом. Ну а двухчиповая Radeon R9 295X2 снова стала лидером нашего сравнения. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок: Ситуация на диаграмме слегка изменилась, одночиповое решение компании AMD в тяжелых режимах потеряло значительно больше плат Geforce. Новая модель Geforce GTX Titan X показала скорость до 14% быстрее, чем Geforce GTX 980, и выиграла у одночиповой Radeon во всех режимах, кроме самого лёгкого — из-за всё того же упора во что-то. Если сравнивать новинку с двухчиповым решением AMD, то Titan X смогла дать бой в тяжёлом режиме, показав близкую производительность, но отстав в лёгких режимах. Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту. Результаты во втором тесте вершинного текстурирования «Waves» совсем не похожи на то, что мы видели на предыдущих диаграммах. Скоростные показатели всех Geforce в этом тесте серьёзно ухудшились, и новая модель Nvidia Geforce GTX Titan X показывает скорость лишь чуть быстрее GTX 980, отставая от двухчиповой Titan Z. Если сравнивать новинку с конкурентами, то обе платы Radeon смогли показать лучшую производительность в этом тесте во всех режимах. Рассмотрим второй вариант этой же задачи: С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, но видеокарты Nvidia пострадали сильнее, в том числе и рассматриваемая модель. В выводах почти ничего не меняется, новая модель Geforce GTX Titan X до 10-30% быстрее, чем GTX 980, отстав и от двухчиповой Titan Z, и от обеих плат Radeon. Далеко впереди в этих тестах оказалась Radeon R9 295X2, и с точки зрения теории это просто необъяснимо ничем, кроме недостаточной оптимизации от Nvidia. 3DMark Vantage: тесты Feature Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10, до сих пор актуальны и интересны тем, что отличаются от наших. При анализе результатов новейшей видеокарты модели Geforce GTX Titan X в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark. Feature Test 1: Texture Fill Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр. Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Так, разница в скорости между GTX Titan X и GTX 980 оказалась равной 38% в пользу решения на базе GM200, что близко к теории, ведь у новинки в полтора раза больше блоков TMU, но работают они на меньшей частоте. Естественно, отставание от двухчиповой GTX Titan Z остаётся, так как два GPU имеют большую скорость текстурирования. Что касается сравнения скорости текстурирования новой топовой видеоплаты Nvidia с близкими по цене решениями конкурента, то тут новинка уступает двухчиповому сопернику, который является условным соседом в ценовой нише, но зато опережает Radeon R9 290X, хоть и не слишком существенно. Всё-таки с текстурированием видеокарты компании AMD до сих пор справляются чуть лучше. Feature Test 2: Color Fill Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным. Цифры второго подтеста 3DMark Vantage показывают производительность блоков ROP, без учёта величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет именно производительность ROP. Рассматриваемая нами сегодня плата Geforce GTX Titan X заметно опередила обе платы Nvidia, и GTX 980 и даже GTX Titan Z, обогнав одночиповую плату на базе GM204 аж на 45% — количество блоков ROP и эффективность их работы в топовом GPU архитектуры Maxwell отличная! Да и если сравнивать скорость заполнения сцены новой видеокартой Geforce GTX Titan X с видеокартами AMD, то рассматриваемая нами плата Nvidia в этом тесте показывает лучшую скорость заполнения сцены даже по сравнению с мощнейшей двухчиповой Radeon R9 295X2, не говоря уже про изрядно отставшую Radeon R9 290X. Большое количество блоков ROP и оптимизации по эффективности сжатия данных буфера кадра сделали своё дело. Feature Test 3: Parallax Occlusion Mapping Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss. Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров. В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата Geforce GTX Titan X оказалась более чем на треть быстрее модели, основанной на базе графического процессора той же архитектуры Maxwell. И даже двухчиповый Kepler в виде GTX Titan Z выиграл у новинки менее 10%. Одночиповая топовая плата Nvidia в этом тесте показала результат явно лучше, чем у одночиповой Radeon R9 290X, но обе очень серьёзно проигрывают двухчиповой модели Radeon R9 295X2. Графические процессоры производства компании AMD в этой задаче работают несколько эффективнее чипов Nvidia, а у R9 295X2 их целых два. Feature Test 4: GPU Cloth Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out. Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, и основными факторами влияния должны бы являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны проявляться, но увы — мы увидели очень странный результат (перепроверяли), новая видеокарта Nvidia показала не слишком высокую скорость, мягко говоря. Geforce GTX Titan X в этом подтесте показала результат хуже всех решений, отстав почти на 20% даже от GTX 980! Ну и сравнение с платами Radeon в этом тесте столь же неприглядное для новинки. Несмотря на теоретически меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности у чипов AMD, по сравнению с конкурирующими решениями, обе платы Radeon в этом тесте работают весьма эффективно и обгоняют все три платы Geforce, представленные в сравнении. Снова похоже на недостаток оптимизации в драйверах Nvidia под конкретную задачу. Feature Test 5: GPU Particles Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out. Во втором «геометрическом» тесте из 3DMark Vantage ситуация серьёзно изменилась, в этот раз все Geforce уже показывают более-менее нормальный результат, хотя двухчиповая Radeon всё равно осталась в лидерах. Новая модель GTX Titan X работает на 24% быстрее своей сестры в лице GTX 980 и примерно столько же отстаёт от двухчиповой Titan Z на GPU прошлого поколения. Сравнение новинки Nvidia с конкурирующими видеокартами от компании AMD в этот раз более позитивное — она показала результат между двумя платами от компании-соперника, и оказалась ближе к Radeon R9 295X2, имеющей два GPU. Новинка значительно опережает Radeon R9 290X и это чётко показывает нам, насколько разными могут быть два вроде бы похожих теста: имитации тканей и симуляции системы частиц. Feature Test 6: Perlin Noise Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений. В этом случае производительность решений не совсем соответствует теории, хотя и близка к тому, что мы видели в аналогичных тестах. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим иное распределение результатов, по сравнению со схожими тестами из нашего тестового пакета. Мы давно знаем, что видеочипы компании AMD с архитектурой GCN до сих пор справляются с подобными задачами лучше решений конкурента, особенно в тех случаях, когда выполняется интенсивная «математика». Но новая топовая модель компании Nvidia основана на большом чипе GM200, и поэтому Geforce GTX Titan X в данном тесте показала результат заметно выше, чем Radeon R9 290X. Если сравнивать новинку с лучшей моделью семейства Geforce GTX 900, то в этом тесте разница между ними составила почти 40% — в пользу рассматриваемой сегодня видеокарты, конечно. Это также близко к теоретической разнице. Неплохой результат для Titan X, лишь двухчиповая Radeon R9 295X2 оказалась впереди, причём далеко впереди. Direct3D 11: Вычислительные шейдеры Чтобы протестировать недавно выпущенное топовое решение компании Nvidia в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD. Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры. Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia приблизительно одинаковая, отличия наблюдались только у видеокарт на основе GPU предыдущих архитектур. Судя по нашим предыдущим тестам, результаты в задаче часто зависят не столько от математической мощи и эффективности вычислений, сколько от других факторов, вроде пропускной способности памяти. В данном случае, новая топовая видеокарта по скорости опережает одночиповые варианты Geforce GTX 980 и Radeon R9 290X, но отстаёт от двухчиповой R9 295X2, что вполне объяснимо, ведь она обладает мощью пары R9 290X. Если сравнивать новинку с Geforce GTX 980, то рассматриваемая сегодня плата калифорнийской компании на 34-36% быстрее — точно по теории. Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация. В данном тесте чаще всего наблюдается упор в скорость исполнения сложных математических вычислений, обработки геометрии и эффективность выполнения кода с ветвлениями. И в этом DX11-тесте расклад сил между решениями двух разных компаний получился совершенно иной — явно в пользу видеоплат Geforce. Впрочем, результаты пары решений компании Nvidia на разных чипах тоже странные — Geforce GTX Titan X и GTX 980 почти равны, их разделяет всего лишь 5% разницы в производительности. Двухчиповый рендеринг в этой задаче не работает, поэтому соперники (одночиповая и двухчиповая модель Radeon) примерно равны по скорости. Ну а GTX Titan X опережает их раза так в три. Похоже, что данная задача заметно эффективнее рассчитывается на графических процессорах именно архитектуры Maxwell, что мы отмечали и ранее. Direct3D 11: Производительность тесселяции Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта. Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными. Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях: В тесте простого бампмаппинга скорость плат не очень важна, так как эта задача давно стала слишком легкой, а производительность в ней упирается в ПСП или филлрейт. Сегодняшний герой обзора на 23% опережает предыдущую топовую модель Geforce GTX 980 на базе чипа GM204 и чуть-чуть уступает конкуренту в виде Radeon R9 290X. Двухчиповый вариант ещё чуть быстрее. Во втором подтесте с более сложными попиксельными расчетами новинка стала уже на 34% быстрее модели Geforce GTX 980, что ближе к теоретической разнице между ними. Зато Titan X в этот раз уже немного быстрее одночипового условного конкурента на базе одиночного Hawaii. Так как два чипа в составе Radeon R9 295X2 работают отлично, то эта задача выполняется на нём ещё быстрее. Хотя эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN выше, но выход решений архитектуры Maxwell улучшил позиции решений Nvidia. В подтесте с применением лёгкой степени тесселяции анонсированная недавно плата Nvidia снова лишь на четверть быстрее модели Geforce GTX 980 — возможно, скорость упирается в пропускную способность памяти, так как текстурирование в этом тесте почти не влияет. Если сравнивать новинку с платами от AMD в этом подтесте, то плата Nvidia снова уступает обеим Radeon, так как в этом тесте тесселяции разбиение треугольников весьма умеренное и геометрическая производительность не ограничивает общую скорость рендеринга. Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность. В этом тесте применяется уже более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Представленные в материале современные решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая высокую скорость. Но хотя в лёгких условиях графические процессоры Hawaii в составе Radeon R9 290X и R9 295X2 в количестве одной и двух штук отлично работают, в тяжёлых режимах платы Nvidia выходят далеко вперёд. Так, в самых сложных режимах представленная сегодня Geforce GTX Titan X показывает скорость уже заметно лучше, чем двухчиповый Radeon. Что касается сравнения плат Nvidia на чипах GM200 и GM204 между собой, то рассматриваемая сегодня модель Geforce GTX Titan X наращивает преимущество с ростом геометрической нагрузки, так как в лёгком режиме всё упирается в ПСП. В итоге, новинка опережает плату Geforce GTX 980 в зависимости от сложности режима до 31%. Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта. Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии, но может влиять и та же ПСП, например. Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарты Radeon показывают довольно высокий результат, особенно двухчиповая R9 295X2, даже превосходящий результат анонсированной платы Geforce GTX Titan X, но уже на следующих ступенях геометрической нагрузки производительность плат Radeon снижается, и решения Nvidia выходят вперёд. Преимущество новой платы Nvidia на видеочипе GM200 над соперниками в таких тестах уже весьма приличное, и даже многократное. Если сравнить Geforce GTX Titan X с GTX 980, то разница между их производительностью доходит до 37-42%, что отлично объясняется теорией и точно ей соответствует. Графические процессоры Maxwell заметно эффективнее работают в режиме смешанной нагрузки, быстро переключаясь от исполнения графических задач к вычислительным и обратно, и Titan X в этом тесте намного быстрее даже двухчиповой Radeon R9 295X2. Проанализировав результаты синтетических тестов новой видеокарты Nvidia Geforce GTX Titan X, основанной на новом топовом графическом процессоре GM200, а также рассмотрев и результаты других моделей видеокарт от обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемая сегодня видеокарта должна стать быстрейшей на рынке, составив конкуренцию сильнейшей двухчиповой видеокарте от компании AMD. В общем, это неплохой последователь модели Geforce GTX Titan Black — мощнейший одночип. Новая видеокарта компании Nvidia показывает довольно сильные результаты в «синтетике» — во многих тестах, хоть и не во всех. У Radeon и Geforce традиционно разные сильные стороны. В большом количестве тестов два графических процессора в составе модели Radeon R9 295X2 оказались быстрее, в том числе из-за большей итоговой пропускной способности памяти и скорости текстурирования с весьма эффективным исполнением вычислительных задач. Но в других случаях топовый графический процессор архитектуры Maxwell отыгрывается, особенно в геометрических тестах и примерах с тесселяцией. Впрочем, в реальных игровых приложениях всё будет несколько иначе, по сравнению с «синтетикой» и Geforce GTX Titan X должен показать там скорость заметно выше уровня одночиповых Geforce GTX 980 и уж тем более Radeon R9 290X. А с двухчиповой Radeon R9 295X2 новинку сравнивать сложно — у систем на базе двух и более GPU есть свои неприятные особенности, хотя прирост средней частоты кадров при должной оптимизации они обеспечивают. А вот архитектурные особенности и функциональность явно в пользу премиального решения Nvidia. Geforce GTX Titan X потребляет гораздо меньше энергии, чем тот же Radeon R9 295X2, и по энергоэффективности новая модель компании Nvidia весьма сильна — это отличительная особенность архитектуры Maxwell. Не нужно забывать о большей функциональности новинки Nvidia: тут есть поддержка уровня Feature Level 12.1 в DirectX 12, аппаратное ускорение VXGI, новый метод сглаживания MFAA и другие технологии. О рыночной точке зрения мы уже говорили в первой части — в элитном сегменте от цены зависит не так уж много. Главное, чтобы решение было максимально функциональным и производительным в игровых приложениях. Попросту — было лучшим во всём. Как раз для того, чтобы оценить скорость новинки в играх, в следующей части нашего материала мы определим производительность Geforce GTX Titan X в нашем наборе игровых проектов и сравним её с показателями конкурентов, в том числе оценим оправданность розничной цены новинки с точки зрения энтузиастов, а также узнаем, насколько она быстрее Geforce GTX 980 уже в играх.	Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek	Клавиатура Cougar 700K для рабочего компьютера предоставленa компанией Cougar

Комплектация локальной памятью

Картa имеeт 12288 МБ памяти GDDR5 SDRAM, размещенной в 24 микросхемах по 4 Гбит (по 12 на каждой стороне PCB).

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010) . Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain , также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

Geforce GTX Titan X GTX Titan X )
Geforce GTX Titan Z со стандартными параметрами (сокращенно GTX Titan Z )
Geforce GTX 980 со стандартными параметрами (сокращенно GTX 980 )
Radeon R9 295X2 со стандартными параметрами (сокращенно R9 295X2 )
Radeon R9 290X со стандартными параметрами (сокращенно R9 290X )

Для анализа производительности новой модели видеокарты Geforce GTX Titan X были выбраны именно эти решения по следующим причинам. Geforce GTX 980 основана на графическом процессоре этой же архитектуры Maxwell, но более низкого уровня — GM204, и нам будет очень интересно оценить, что дало усложнение чипа до GM200. Ну а двухчиповая видеокарта Geforce GTX Titan Z взята просто для ориентира — как самая производительная видеокарта Nvidia, основанная на паре чипов GK110 предыдущей архитектуры Kepler.

От конкурирующей компании AMD для нашего сравнения мы также выбрали две видеокарты. Они очень разные в принципе, хотя и основаны на одинаковых графических процессорах Hawaii — просто на картах разное количество GPU и они отличаются по позиционированию и цене. Ценовых конкурентов у Geforce GTX Titan X нет, поэтому мы взяли самую мощную двухчиповую видеокарту Radeon R9 295X2, хотя такое сравнение будет не слишком интересно технически. Для последнего взята быстрейшая одночиповая видеокарта конкурента — Radeon R9 290X, хотя она выпущена слишком давно и основана на GPU явно меньшей сложности. Но другого выбора из решений AMD просто нет.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Мы отказались от устаревших DirectX 9 тестов, так как сверхмощные решения вроде Geforce GTX Titan X показывают в них не слишком показательные результаты, будучи всегда ограничены ПСП, филлрейтом или текстурированием. Не говоря уже о том, что двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях, а их у нас целых две.

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в данном тесте зависит от количества и эффективности блоков TMU, влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, с выпуском видеочипов на базе архитектуры GCN компания AMD давно перехватила лидерство. Именно платы Radeon и по сей день являются лучшими в этих сравнениях, что говорит о большей эффективности выполнения ими этих программ. Такой вывод подтверждается и сегодняшним сравнением — рассматриваемая нами видеокарта Nvidia проиграла даже устаревшей одночиповой Radeon R9 290X, не говоря уже про ближайшего ценового конкурента от AMD.

В первом Direct3D 10 тесте новая видеоплата модели Geforce GTX Titan X оказалась чуть быстрее своей младшей сестры на чипе этой же архитектуры в виде GTX 980, но отставание последней невелико — 9-12%. Такой результат объясним заметно меньшей скоростью текстурирования у GTX 980, да и по остальным параметрам она отстаёт, хотя дело явно не в производительности блоков ALU. Двухчиповая Titan Z быстрее, но не так, как Radeon R9 295X2.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: в такой ситуации что-то должно измениться, и ПСП с филлрейтом будут влиять меньше:

В усложнённых условиях новая видеокарта модели Geforce GTX Titan X уже заметнее опережает младшую модель из этого же поколения — GTX 980, оказываясь быстрее уже на приличные 33-39%, что куда ближе к теоретической разнице между ними. Да и отставание от конкурентов в виде Radeon R9 295X2 и R9 290X сократилось — новинка от Nvidia почти догнала одночиповую Radeon. Впрочем, двухчиповая осталась далеко впереди, ведь чипы компании AMD предпочитают попиксельные вычисления и в подобных вычислениях очень сильны.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis, Lost Planet и многих других. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом схожа с предыдущей, также без включения суперсэмплинга, и в этот раз новая Geforce GTX Titan X оказалась чуть ближе к GTX Titan Z, проигрывая двухчиповой плате на паре GPU семейства Kepler не так уж много. В разных условиях новинка на 14-19% опережает предыдущую топовую модель текущего поколения от Nvidia, и даже если брать сравнение с видеокартами AMD, то тут кое-что изменилось — в этом случае новинка GTX Titan X чуть уступает Radeon R9 290X совсем немного. Двухчиповая R9 295X2, впрочем, далеко впереди всех. Посмотрим, что изменит включение суперсэмплинга:

При включении суперсэмплинга и самозатенения задача становится тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, хотя включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Графические решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров работают эффективнее, по сравнению с конкурирующими платами Geforce, но новый чип GM200 изменяет ситуацию в лучшую сторону — плата Geforce GTX Titan X на чипе архитектуры Maxwell уже во всех условиях опережает Radeon R9 290X (впрочем, основанный на заметно менее сложном GPU). Двухчиповое решение на паре Hawaii осталось лидером, ну а по сравнению с другими решениями Nvidia новинка неплоха. Она показала скорость почти на уровне двухчиповой Geforce GTX Titan Z, и обогнала Geforce GTX 980 на 28-33%.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего соответствуют разнице по частотам и количеству вычислительных блоков, но лишь примерно, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП. В случае теста Mineral, новая модель Geforce GTX Titan X лишь на 10% быстрее платы GTX 980 на чипе GM204 из этого же поколения, да и двухчиповая GTX Titan Z оказалась не так уж быстра в этом тесте — платам Nvidia явно что-то мешает раскрыться.

Сравнение Geforce GTX Titan X с конкурирующими платами компании AMD было бы не таким печальным, если бы GPU в R9 290X и Titan X были близки по сложности. Но GM200 гораздо крупнее, чем Hawaii, и его небольшая победа вполне естественна. Обновление архитектуры Nvidia с Kepler до Maxwell привело к тому, что новые чипы в таких тестах приблизились к конкурирующим решениям от AMD. Но даже меньшее по стоимости двухчиповое решение Radeon R9 295X2 заметно быстрее.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте из RigthMark мы видим уже иные результаты видеокарт относительно друг друга. Так, новая Geforce GTX Titan X уже сильнее (на 20%) опережает GTX 980 на чипе той же графической архитектуры, да и двухчиповый Geforce очень близок к новинке — Maxwell справляется с расчётными задачами заметно лучше Kepler.

Radeon R9 290X остался позади, но как мы уже писали — GPU Hawaii заметно проще, чем GM200, и такая разница логична. Но хотя двухчиповый Radeon R9 295X2 продолжает оставаться лидером в тестах математических вычислений, в целом в таких задачах новый видеочип Nvidia показал себя неплохо, хотя и не достиг теоретической разницы с GM204.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом.

Разница между результатами видеокарт на чипах Nvidia и AMD обычно есть в пользу решений калифорнийской компании, и она обусловлена отличиями в геометрических конвейерах чипов этих компаний. Вот и в данном случае, топовые видеочипы Nvidia имеют много блоков по обработке геометрии, поэтому и выигрыш налицо. В тестах геометрии платы Geforce всегда конкурентоспособнее Radeon.

Новая модель Geforce GTX Titan X слегка отстаёт от двухчиповой платы GTX Titan Z на графических процессорах предыдущего поколения, но GTX 980 она обгоняет на 12-25%. Видеокарты Radeon показывают заметно отличающиеся результаты, так как R9 295X2 основана на паре GPU, и только она может поспорить с новинкой в этом тесте, а Radeon R9 290X стала аутсайдером. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры изменились незначительно, для плат AMD и для решений Nvidia. И это ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются прежними.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и это не исправлено вот уже несколько лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что хорошо заметно по результатам плат Nvidia, особенно в простых режимах. Новая видеокарта компании Nvidia в этом тесте показывает скорость явно ниже, чем должна — все платы Geforce оказались примерно на одном уровне, что явно не соответствует теории. Они во всех режимах явно упираются во что-то типа ПСП. Впрочем, Radeon R9 295X2 тоже далеко не вдвое быстрее R9 290X.

Кстати, одночиповая плата от AMD в этот раз оказалась сильнее всех плат от Nvidia в лёгком режиме и примерно на их уровне в тяжёлом. Ну а двухчиповая Radeon R9 295X2 снова стала лидером нашего сравнения. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Ситуация на диаграмме слегка изменилась, одночиповое решение компании AMD в тяжелых режимах потеряло значительно больше плат Geforce. Новая модель Geforce GTX Titan X показала скорость до 14% быстрее, чем Geforce GTX 980, и выиграла у одночиповой Radeon во всех режимах, кроме самого лёгкого — из-за всё того же упора во что-то. Если сравнивать новинку с двухчиповым решением AMD, то Titan X смогла дать бой в тяжёлом режиме, показав близкую производительность, но отстав в лёгких режимах.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» совсем не похожи на то, что мы видели на предыдущих диаграммах. Скоростные показатели всех Geforce в этом тесте серьёзно ухудшились, и новая модель Nvidia Geforce GTX Titan X показывает скорость лишь чуть быстрее GTX 980, отставая от двухчиповой Titan Z. Если сравнивать новинку с конкурентами, то обе платы Radeon смогли показать лучшую производительность в этом тесте во всех режимах. Рассмотрим второй вариант этой же задачи:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, но видеокарты Nvidia пострадали сильнее, в том числе и рассматриваемая модель. В выводах почти ничего не меняется, новая модель Geforce GTX Titan X до 10-30% быстрее, чем GTX 980, отстав и от двухчиповой Titan Z, и от обеих плат Radeon. Далеко впереди в этих тестах оказалась Radeon R9 295X2, и с точки зрения теории это просто необъяснимо ничем, кроме недостаточной оптимизации от Nvidia.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10, до сих пор актуальны и интересны тем, что отличаются от наших. При анализе результатов новейшей видеокарты модели Geforce GTX Titan X в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Так, разница в скорости между GTX Titan X и GTX 980 оказалась равной 38% в пользу решения на базе GM200, что близко к теории, ведь у новинки в полтора раза больше блоков TMU, но работают они на меньшей частоте. Естественно, отставание от двухчиповой GTX Titan Z остаётся, так как два GPU имеют большую скорость текстурирования.

Что касается сравнения скорости текстурирования новой топовой видеоплаты Nvidia с близкими по цене решениями конкурента, то тут новинка уступает двухчиповому сопернику, который является условным соседом в ценовой нише, но зато опережает Radeon R9 290X, хоть и не слишком существенно. Всё-таки с текстурированием видеокарты компании AMD до сих пор справляются чуть лучше.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры второго подтеста 3DMark Vantage показывают производительность блоков ROP, без учёта величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет именно производительность ROP. Рассматриваемая нами сегодня плата Geforce GTX Titan X заметно опередила обе платы Nvidia, и GTX 980 и даже GTX Titan Z, обогнав одночиповую плату на базе GM204 аж на 45% — количество блоков ROP и эффективность их работы в топовом GPU архитектуры Maxwell отличная!

Да и если сравнивать скорость заполнения сцены новой видеокартой Geforce GTX Titan X с видеокартами AMD, то рассматриваемая нами плата Nvidia в этом тесте показывает лучшую скорость заполнения сцены даже по сравнению с мощнейшей двухчиповой Radeon R9 295X2, не говоря уже про изрядно отставшую Radeon R9 290X. Большое количество блоков ROP и оптимизации по эффективности сжатия данных буфера кадра сделали своё дело.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата Geforce GTX Titan X оказалась более чем на треть быстрее модели, основанной на базе графического процессора той же архитектуры Maxwell. И даже двухчиповый Kepler в виде GTX Titan Z выиграл у новинки менее 10%.

Одночиповая топовая плата Nvidia в этом тесте показала результат явно лучше, чем у одночиповой Radeon R9 290X, но обе очень серьёзно проигрывают двухчиповой модели Radeon R9 295X2. Графические процессоры производства компании AMD в этой задаче работают несколько эффективнее чипов Nvidia, а у R9 295X2 их целых два.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, и основными факторами влияния должны бы являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны проявляться, но увы — мы увидели очень странный результат (перепроверяли), новая видеокарта Nvidia показала не слишком высокую скорость, мягко говоря. Geforce GTX Titan X в этом подтесте показала результат хуже всех решений, отстав почти на 20% даже от GTX 980!

Ну и сравнение с платами Radeon в этом тесте столь же неприглядное для новинки. Несмотря на теоретически меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности у чипов AMD, по сравнению с конкурирующими решениями, обе платы Radeon в этом тесте работают весьма эффективно и обгоняют все три платы Geforce, представленные в сравнении. Снова похоже на недостаток оптимизации в драйверах Nvidia под конкретную задачу.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором «геометрическом» тесте из 3DMark Vantage ситуация серьёзно изменилась, в этот раз все Geforce уже показывают более-менее нормальный результат, хотя двухчиповая Radeon всё равно осталась в лидерах. Новая модель GTX Titan X работает на 24% быстрее своей сестры в лице GTX 980 и примерно столько же отстаёт от двухчиповой Titan Z на GPU прошлого поколения.

Сравнение новинки Nvidia с конкурирующими видеокартами от компании AMD в этот раз более позитивное — она показала результат между двумя платами от компании-соперника, и оказалась ближе к Radeon R9 295X2, имеющей два GPU. Новинка значительно опережает Radeon R9 290X и это чётко показывает нам, насколько разными могут быть два вроде бы похожих теста: имитации тканей и симуляции системы частиц.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом случае производительность решений не совсем соответствует теории, хотя и близка к тому, что мы видели в аналогичных тестах. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим иное распределение результатов, по сравнению со схожими тестами из нашего тестового пакета.

Мы давно знаем, что видеочипы компании AMD с архитектурой GCN до сих пор справляются с подобными задачами лучше решений конкурента, особенно в тех случаях, когда выполняется интенсивная «математика». Но новая топовая модель компании Nvidia основана на большом чипе GM200, и поэтому Geforce GTX Titan X в данном тесте показала результат заметно выше, чем Radeon R9 290X.

Если сравнивать новинку с лучшей моделью семейства Geforce GTX 900, то в этом тесте разница между ними составила почти 40% — в пользу рассматриваемой сегодня видеокарты, конечно. Это также близко к теоретической разнице. Неплохой результат для Titan X, лишь двухчиповая Radeon R9 295X2 оказалась впереди, причём далеко впереди.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать недавно выпущенное топовое решение компании Nvidia в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia приблизительно одинаковая, отличия наблюдались только у видеокарт на основе GPU предыдущих архитектур. Судя по нашим предыдущим тестам, результаты в задаче часто зависят не столько от математической мощи и эффективности вычислений, сколько от других факторов, вроде пропускной способности памяти.

В данном случае, новая топовая видеокарта по скорости опережает одночиповые варианты Geforce GTX 980 и Radeon R9 290X, но отстаёт от двухчиповой R9 295X2, что вполне объяснимо, ведь она обладает мощью пары R9 290X. Если сравнивать новинку с Geforce GTX 980, то рассматриваемая сегодня плата калифорнийской компании на 34-36% быстрее — точно по теории.

Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В данном тесте чаще всего наблюдается упор в скорость исполнения сложных математических вычислений, обработки геометрии и эффективность выполнения кода с ветвлениями. И в этом DX11-тесте расклад сил между решениями двух разных компаний получился совершенно иной — явно в пользу видеоплат Geforce.

Впрочем, результаты пары решений компании Nvidia на разных чипах тоже странные — Geforce GTX Titan X и GTX 980 почти равны, их разделяет всего лишь 5% разницы в производительности. Двухчиповый рендеринг в этой задаче не работает, поэтому соперники (одночиповая и двухчиповая модель Radeon) примерно равны по скорости. Ну а GTX Titan X опережает их раза так в три. Похоже, что данная задача заметно эффективнее рассчитывается на графических процессорах именно архитектуры Maxwell, что мы отмечали и ранее.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат не очень важна, так как эта задача давно стала слишком легкой, а производительность в ней упирается в ПСП или филлрейт. Сегодняшний герой обзора на 23% опережает предыдущую топовую модель Geforce GTX 980 на базе чипа GM204 и чуть-чуть уступает конкуренту в виде Radeon R9 290X. Двухчиповый вариант ещё чуть быстрее.

Во втором подтесте с более сложными попиксельными расчетами новинка стала уже на 34% быстрее модели Geforce GTX 980, что ближе к теоретической разнице между ними. Зато Titan X в этот раз уже немного быстрее одночипового условного конкурента на базе одиночного Hawaii. Так как два чипа в составе Radeon R9 295X2 работают отлично, то эта задача выполняется на нём ещё быстрее. Хотя эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN выше, но выход решений архитектуры Maxwell улучшил позиции решений Nvidia.

В подтесте с применением лёгкой степени тесселяции анонсированная недавно плата Nvidia снова лишь на четверть быстрее модели Geforce GTX 980 — возможно, скорость упирается в пропускную способность памяти, так как текстурирование в этом тесте почти не влияет. Если сравнивать новинку с платами от AMD в этом подтесте, то плата Nvidia снова уступает обеим Radeon, так как в этом тесте тесселяции разбиение треугольников весьма умеренное и геометрическая производительность не ограничивает общую скорость рендеринга.

Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте применяется уже более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Представленные в материале современные решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая высокую скорость. Но хотя в лёгких условиях графические процессоры Hawaii в составе Radeon R9 290X и R9 295X2 в количестве одной и двух штук отлично работают, в тяжёлых режимах платы Nvidia выходят далеко вперёд. Так, в самых сложных режимах представленная сегодня Geforce GTX Titan X показывает скорость уже заметно лучше, чем двухчиповый Radeon.

Что касается сравнения плат Nvidia на чипах GM200 и GM204 между собой, то рассматриваемая сегодня модель Geforce GTX Titan X наращивает преимущество с ростом геометрической нагрузки, так как в лёгком режиме всё упирается в ПСП. В итоге, новинка опережает плату Geforce GTX 980 в зависимости от сложности режима до 31%.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии, но может влиять и та же ПСП, например.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарты Radeon показывают довольно высокий результат, особенно двухчиповая R9 295X2, даже превосходящий результат анонсированной платы Geforce GTX Titan X, но уже на следующих ступенях геометрической нагрузки производительность плат Radeon снижается, и решения Nvidia выходят вперёд.

Преимущество новой платы Nvidia на видеочипе GM200 над соперниками в таких тестах уже весьма приличное, и даже многократное. Если сравнить Geforce GTX Titan X с GTX 980, то разница между их производительностью доходит до 37-42%, что отлично объясняется теорией и точно ей соответствует. Графические процессоры Maxwell заметно эффективнее работают в режиме смешанной нагрузки, быстро переключаясь от исполнения графических задач к вычислительным и обратно, и Titan X в этом тесте намного быстрее даже двухчиповой Radeon R9 295X2.

Проанализировав результаты синтетических тестов новой видеокарты Nvidia Geforce GTX Titan X, основанной на новом топовом графическом процессоре GM200, а также рассмотрев и результаты других моделей видеокарт от обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемая сегодня видеокарта должна стать быстрейшей на рынке, составив конкуренцию сильнейшей двухчиповой видеокарте от компании AMD. В общем, это неплохой последователь модели Geforce GTX Titan Black — мощнейший одночип.

Новая видеокарта компании Nvidia показывает довольно сильные результаты в «синтетике» — во многих тестах, хоть и не во всех. У Radeon и Geforce традиционно разные сильные стороны. В большом количестве тестов два графических процессора в составе модели Radeon R9 295X2 оказались быстрее, в том числе из-за большей итоговой пропускной способности памяти и скорости текстурирования с весьма эффективным исполнением вычислительных задач. Но в других случаях топовый графический процессор архитектуры Maxwell отыгрывается, особенно в геометрических тестах и примерах с тесселяцией.

Впрочем, в реальных игровых приложениях всё будет несколько иначе, по сравнению с «синтетикой» и Geforce GTX Titan X должен показать там скорость заметно выше уровня одночиповых Geforce GTX 980 и уж тем более Radeon R9 290X. А с двухчиповой Radeon R9 295X2 новинку сравнивать сложно — у систем на базе двух и более GPU есть свои неприятные особенности, хотя прирост средней частоты кадров при должной оптимизации они обеспечивают.

А вот архитектурные особенности и функциональность явно в пользу премиального решения Nvidia. Geforce GTX Titan X потребляет гораздо меньше энергии, чем тот же Radeon R9 295X2, и по энергоэффективности новая модель компании Nvidia весьма сильна — это отличительная особенность архитектуры Maxwell. Не нужно забывать о большей функциональности новинки Nvidia: тут есть поддержка уровня Feature Level 12.1 в DirectX 12, аппаратное ускорение VXGI, новый метод сглаживания MFAA и другие технологии. О рыночной точке зрения мы уже говорили в первой части — в элитном сегменте от цены зависит не так уж много. Главное, чтобы решение было максимально функциональным и производительным в игровых приложениях. Попросту — было лучшим во всём.

Как раз для того, чтобы оценить скорость новинки в играх, в следующей части нашего материала мы определим производительность Geforce GTX Titan X в нашем наборе игровых проектов и сравним её с показателями конкурентов, в том числе оценим оправданность розничной цены новинки с точки зрения энтузиастов, а также узнаем, насколько она быстрее Geforce GTX 980 уже в играх.

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek

Клавиатура Cougar 700K для рабочего компьютера предоставленa компанией Cougar

Первым образцом архитектуры Pascal от NVIDIA, выпущенным на рынок, стал графический адаптер GeForce GTX 1080 на базе процессора GP104. Благодаря новому техпроцессу 16 нм FinFET, равно как и оптимизациям архитектуры и схемотехники чипа, GTX 1080 позволил достигнуть уровня быстродействия в играх, примерно на 30% превышающего достижения флагманской видеокарты NVIDIA предыдущего поколения — GeForce GTX TITAN X. В то же время разработчики GTX 1080 сумели сократить энергетический бюджет ускорителя на 70 Вт относительно TDP его предшественника — с 250 до 180 Вт. Между тем тепловой пакет 250 Вт является стандартной целью для топовых игровых видеокарт NVIDIA нескольких последних поколений, поэтому появление после GTX 1080 еще более производительного продукта, который займет эту нишу в линейке Pascal, оставалось лишь вопросом времени.

Начиная с архитектуры Kepler, NVIDIA использует следующую стратегию выпуска GPU различных категорий быстродействия. Сперва дебютирует чип второго эшелона: GK104 в семействе Kepler, GM204 — в Maxwell второй версии, и теперь — GP104 в Pascal. Впоследствии NVIDIA заполняет один-два эшелона ниже, и после существенного промежутка появляется графический процессор высшей категории, ложащийся в основу наиболее производительного ускорителя, который NVIDIA может произвести, сохраняя энергопотребление в рамках 250 Вт при текущем технологическом процессе.

Пиком развития архитектуры Pascal на данный момент является процессор GP100, отличительными свойствами которого стало беспрецедентное число шейдерных ALU (3840 ядер CUDA) и 16 Гбайт памяти типа HBM2, объединенные с GPU на кремниевой подложке. GP100 используется в составе ускорителя Tesla P100, применение которого ограничено сферой суперкомпьютеров в силу специального форм-фактора с шиной NVLINK и TDP в объеме 300 Вт. В конце года также ожидается выход Tesla P100 в стандартном формате платы расширения PCI Express.

Именно чип GP100, в мечтах энтузиастов индустрии, должен был в перспективе увенчать линейку игровых адаптеров GeForce 10, а предварительно NVIDIA могла бы выпустить новый TITAN — как раз с промежуточной остановкой на этой позиции предыдущие большие GPU прибыли в геймерские ПК (GK110 в составе TITAN и GM200 — в TITAN X).

Однако на этот раз, по всей видимости, оказались правы эксперты, предрекавшие окончательное разделение линейки GPU NVIDIA на две непересекающиеся группы — чипы игрового и просьюмерского (от слов producer и consumer) направления, с одной стороны, и чипы для вычислений — с другой. Дифференцирующим фактором в данном случае является скорость GPU в операциях над числами с плавающей точкой двойной точности (FP64). В линейке Kepler разработчики уже пожертвовали этой характеристикой для всех чипов (1/24 от FP32), помимо старшего — GK110/GK210 (1/3 от FP32), с целью снизить энергопотребление GPU. В следующем поколении эта тенденция усугубилась: все процессоры Maxwell работают с FP64 на скорости 1/32 от FP32.

Ситуация с Pascal показала, что экономия на производительности FP64 не осталась временной мерой, обусловленной задержкой на техпроцессе 28 нм. NVIDIA по-прежнему нуждается в GPU для серверов, суперкомпьютеров и рабочих станций, способном оперировать FP64 на высоком уровне быстродействия. Однако для игровых видеоадаптеров эта функциональность, раздувающая транзисторный бюджет и энергопотребление GPU, является лишь обузой.

Таким образом, вместо того, чтобы перенести GP100 (очевидно дорогой в производстве чип как из-за площади, так и из-за интегрированной памяти HBM2) в игровые видеокарты, NVIDIA выпустила дополнительный продукт — GP102, сфокусированный на операциях с FP32 — основном формате чисел, применяемом и рендеринге 3D-графики, и в ряде вычислительных задач. Единственная функциональная особенность GP102 — поддержка целочисленных операций формата int8. Это важный пункт для NVIDIA, поскольку int8 широко применяется в задачах машинного обучения, которые компания сделала для себя одним из приоритетных направлений (конкретнее, один из классов таких задач — глубинное обучение). В скором будущем мы планируем выпустить отдельную статью, посвященную этой теме.

Новый TITAN X, ставший первым устройством на базе процессора GP102, позиционируется в первую очередь именно как ускоритель профессионального класса, который предназначен для исследований и коммерческих приложений, связанных с глубинным обучением. Это подтверждает и отсутствие бренда GeForce в названии карты. Однако широкие игровые возможности новинки также не подлежат сомнению. Все «Титаны», выпущенные ранее, помимо их вычислительных функций, рассматривались как игровые видеокарты премиум-класса, способные обеспечить качество графики и быстродействие, недоступные современным им моделям в основной линейке GeForce.

⇡ NVIDIA GP102

Данный GPU задуман как альтернатива суперкомпьютерному GP100, не уступающая последнему в функциях рендеринга 3D-графики и расчетах FP32. Вместе с тем создатели GP102 сократили все компоненты, не соответствующие назначению продукта.

К примеру, отдельно взятый SM (Streaming Multiprocessor — блок, объединяющей ядра CUDA вместе с блоками наложения текстур, планировщиками, диспетчерами и сегментами локальной памяти) в GP100 содержит 64 ядра CUDA для операций FP32, в то время как SM в GP102 обладает в этом отношении конфигурацией, унаследованной от Maxwell: 128 ядер CUDA. Более дробное распределение ядер CUDA в GP100 позволяет процессору одновременно исполнять больше потоков инструкций (и также групп потоков — warps — и блоков warp’ов), а общий объем таких типов хранилища внутри SM, как разделяемая память (shared memory) и регистровый файл, в пересчете на весь GPU увеличился по сравнению с архитектурой Maxwell.

Блок-схема NVIDIA GP102

Далее, в GP100 на каждые 64 ядра CUDA для операций FP32 приходится по 32 ядра для FP64, в то время как SM в GP102 обладает в этом отношении конфигурацией, унаследованной от Maxwell: 128 ядер CUDA для FP32 и 4 для FP64. Отсюда урезанная производительность GP102 в работе с операциями двойной точности.

Наконец, GP100 несет более крупный кеш второго уровня: 4096 Кбайт против 3072 Кбайт в GP102. И разумеется, в GP102 отсутствует контроллер шины NVLINK, а место контроллеров памяти HBM2 (с общей разрядностью шины в 4096 бит) занимают контроллеры GDDR5X SDRAM. 12 таких 32-битных контроллеров обеспечивают общую 384-битную шину доступа к памяти.

В остальных интересующих нас аспектах чипы GP100 и GP102 идентичны. Оба кристалла содержат 3840 FP32-совместимых ядер CUDA и 240 блоков наложения текстур, а также 96 ROP. Таким образом, с общей точки зрения структура вычислительных блоков GP102 повторяет таковую у чипа GP104, с поправкой на количественные изменения. Хотя нам все еще неизвестны некоторые параметры (объемы кеша L1, shared memory и регистрового файла), они, вероятно, одинаковы в этих двух GPU.

Кристалл GP102, произведенный по техпроцессу 16 нм FinFET на мощностях TSMC, содержит 12 млрд транзисторов на площади 471 мм 2 . Для сравнения: характеристики GP100 — 15,3 млрд транзисторов и 610 мм 2 . Это весьма существенная разница. Кроме того, если TSMC не увеличила размер фотомаски для техпроцесса 16 нм по сравнению с 28 нм, то GP100 его практически исчерпывает, в то время как облегченная архитектура GP102 позволит NVIDIA в будущем создать более крупное ядро для широкого потребительского рынка, пользуясь той же производственной линией (что, однако, вряд ли случится, если разработчики не пересмотрят свои стандарты в отношении TDP топовых моделей).

По поводу отличий архитектуры Pascal от Maxwell рекомендуем обратиться к нашему обзору GeForce GTX 1080 . В этой итерации разработчики развили достоинства предыдущего поколения и компенсировали присущие ему недостатки.

Кратко отметим следующие пункты:

улучшенная компрессия цвета с соотношениями вплоть до 8:1;
функция Simultaneous Multi-Projection геометрического движка PolyMorph Engine, позволяющая за один проход создавать вплоть до 16 проекций геометрии сцены (для VR и систем с несколькими дисплеями в конфигурации NVIDIA Surround);
возможность прерывания (preemption) в процессе исполнения draw call (при рендеринге) и потока команд (при вычислениях), которая вместе с динамическим распределением вычислительных ресурсов GPU обеспечивает полноценную поддержку асинхронных вычислений (Async Compute) — дополнительного источника быстродействия в играх под API DirectX 12 и сниженной латентности в VR;
контроллер дисплея, совместимый с интерфейсами DisplayPort 1.3/1.4 и HDMI 2.b. Поддержка высокого динамического диапазона (HDR);
шина SLI с повышенной пропускной способностью.

⇡ Технические характеристики, цена

В TITAN X не используется полностью функциональная версия графического процессора GP102: из 30 SM здесь отключены два. Таким образом, по числу ядер CUDA и текстурных блоков «Титан» совпадает с Tesla P100, где чип GP100 также частично «порезан» (3584 ядра CUDA и 224 текстурных блока).

Графический процессор новинки работает на более высоких частотах (1417/1531 МГц), чем в Tesla P100 (вплоть до 1328/1480 МГц в суперкомпьютерной версии и вплоть до 1300 МГц в форм-факторе платы PCI-Express). И все же частоты «Титана» довольно консервативны по сравнению с характеристиками GeForce GTX 1080 (1607/1733 МГц). Как мы увидим в экспериментах с разгоном, ограничивающим фактором стало энергопотребление устройства, которое NVIDIA установила на привычном уровне 250 Вт.

TITAN X оснащен 12 Гбайт памяти GDDR5X SDRAM с пропускной способность 10 Гбит/с на контакт. 384-битная шина обеспечивает передачу данных на скорости 480 Гбайт/с: по этому показателю TITAN X лишь ненамного уступает действующему рекордсмену — Radeon R9 Fury X, как и прочим продуктам AMD на базе GPU Fiji (512 Гбайт/с).

Производитель	NVIDIA
Модель	GeForce GTX TITAN	GeForce GTX TITAN Black	GeForce GTX TITAN Z	GeForce GTX TITAN X	GeForce GTX 1080	TITAN X
Графический процессор
Название	GK110	GK110	2 × GK110	GM200	GP104	GP102
Микроархитектура	Kepler	Kepler	Kepler	Maxwell	Pascal	Pascal
Техпроцесс, нм	28 нм	28 нм	28 нм	28 нм	16 нм FinFET	16 нм FinFET
Число транзисторов, млн	7 080	7 080	2 × 7080	8 000	7 200	12 000
Тактовая частота, МГц: Base Clock / Boost Clock	837/876	889/980	705/876	1 000 / 1 089	1 607 / 1 733	1 417 / 1531
Число шейдерных ALU	2 688	2 880	2 × 2880	3 072	2 560	3 584
Число блоков наложения текстур	224	240	2 × 240	192	160	224
Число ROP	48	48	2 × 48	96	64	96
Оперативная память
Разрядность шины, бит	384	384	2 × 384	384	256	384
Тип микросхем	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5X SDRAM	GDDR5X SDRAM
Тактовая частота, МГц (пропускная способность на контакт, Мбит/с)	1 502 (6 008)	1 750 (7 000)	1 750 (7 000)	1 753 (7 012)	1 250 (10 000)	1 250 (10 000)
Объем, Мбайт	6 144	6 144	2 × 6144	12 288	8 192	12 288
Шина ввода/вывода	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16
Производительность
Пиковая производительность FP32, GFLOPS (из расчета максимальной указанной частоты)	4 709	5 645	10 092	6 691	8 873	10 974
Производительность FP32/FP64	1/3	1/3	1/3	1/32	1/32	1/32
Пропускная способность оперативной памяти, Гбайт/с	288	336	2 × 336	336	320	480
Вывод изображения
Интерфейсы вывода изображения		DL DVI-I, DisplayPort 1.2, HDMI 1.4a	DL DVI-D, DL DVI-I, DisplayPort 1.2, HDMI 1.4a	DL DVI-I, DisplayPort 1.2, HDMI 1.4a		DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
TDP, Вт	250	250	375	250	180	250
Рекомендованная розничная цена на момент выхода (США, без налога), $	999	999	2 999	999	599/699	1 200
Рекомендованная розничная цена на момент выхода (Россия), руб.	34 990	35 990	114 990	74 900	— / 54 990	—

Что касается теоретических показателей быстродействия, то TITAN X стал первой однопроцессорной графической картой, превысившей отметку в 10 TFLOPS по производительности FP32. Из предыдущих продуктов NVIDIA на это был способен только TITAN Z, построенный на паре чипов GK110. С другой стороны, в отличие от Tesla P100 (и аналогично GeForce GTX 1060/1070/1080), TITAN X характеризуется весьма скромным быстродействием в расчетах двойной (1/32 от FP32) и половинной точности (1/64 от FP32), однако способен выполнять операции с числами int8 на скорости в 4 раза выше, чем с FP32. Другие GPU семейства Pascal — GP104 (GeForce GTX 1070 /1080, Tesla P4) и GP106 (GTX 1060) и GP100 (Tesla P100) также поддерживают int8 с соотношением быстродействия 4:1 относительно FP32, однако нам на данный момент неизвестно, ограничена ли эта функциональность в игровых видеокартах GeForce.

TITAN X — весьма и весьма дорогое приобретение, на которое решатся только те, кто действительно желает обладать столь совершенной видеокартой. NVIDIA увеличила цену на $200 по сравнению с предыдущими однопроцессорными моделями под этой маркой — до $1 200. На этот раз устройство не распространяется через партнерские компании и продается исключительно на веб-сайте NVIDIA в ряде избранных стран. Россия пока не входит в их число.

⇡ Конструкция

Корпус видеокарты выполнен в единой стилистике с продуктами под маркой Founders Edition линейки GeForce 10. Система охлаждения с радиальным вентилятором (турбинка) покрыта металлическим кожухом, а заднюю поверхность печатной платы защищает толстая пластина. Часть последней можно снять, дабы обеспечить беспрепятственный доступ воздуха к кулеру соседней видеокарты в режиме SLI. Забавно, что хотя TITAN X формально больше не принадлежит к семейству GeForce, именно эта надпись, подсвеченная зелеными светодиодами, по-прежнему красуется на боку видеокарты.

Конструкция кулера такая же, как у GTX 1070/1080: GPU отдает тепло радиатору с испарительной камерой, а микросхемы оперативной памяти и транзисторы преобразователя напряжения накрыты массивной алюминиевой рамой, несущей отдельный блок ребер небольшого размера.

Между прочим, как выяснил один из обладателей TITAN X, NVIDIA позволяет пользователям сменить систему охлаждения видеокарты на нечто более эффективное (например, СЖО) без потери гарантии.

⇡ Плата

Подобно референсным версиям GTX 1060/1070/1080, плата TITAN X имеет три разъема DisplayPort и по одному разъему DVI и HDMI.

Система питания построена по схеме 6+1 (количество фаз для GPU и чипов памяти). Используются два разъема дополнительного питания — шести- и восьмиконтактный, что вместе с силовыми линиями в разъеме PCI-Express обеспечивает видеокарте резерв мощности в 300 Вт.

Память типа GDDR5X SDRAM, как и на GeForce GTX 1080, набрана микросхемами Micron D9TXS со штатной эффективной частотой 10 ГГц.

⇡ Тестовый стенд, методика тестирования

Конфигурация тестовых стендов
CPU	Intel Core i7-5960X @ 4 ГГц (100 × 40)
Материнская плата	ASUS RAMPAGE V EXTREME
Оперативная память	Corsair Vengeance LPX, 2133 МГц, 4 × 4 Гбайт
ПЗУ	Intel SSD 520 240 Гбайт + Crucial M550 512 Гбайт
Блок питания	Corsair AX1200i, 1200 Вт
Система охлаждения CPU	Thermalright Archon
Корпус	CoolerMaster Test Bench V1.0
Монитор	NEC EA244UHD
Операционная система	Windows 10 Pro x64
ПО для GPU AMD
Все	Radeon Software Crimson Edition 16.8.2 Non-WHQL
ПО для GPU NVIDIA
Все	GeForce Game Ready Driver 372.54 WHQL

CPU работает на постоянной частоте. В настройках драйвера NVIDIA в качестве процессора для вычисления PhysX выбран CPU. В настройках драйвера AMD настройка Tesselation переведена из состояния AMD Optimized в Use application settings.

Бенчмарки: игры
Игра (в порядке даты выхода)	API	Настройки	Полноэкранное сглаживание
Игра (в порядке даты выхода)	API	Настройки	1920 × 1080 / 2560 × 1440	3840 × 2160
Crysis 3 + FRAPS	DirectX 11	Макс. качество. Начало миссии Swamp	MSAA 4x	Выкл.
Battlefield 4 + FRAPS		Макс. качество. Начало миссии Tashgar	MSAA 4x + FXAA High
Metro: Last Light Redux, встроенный бенчмарк		Макс. качество	SSAA 4x
GTA V, встроенный бенчмарк		Макс. качество	MSAA 4x + FXAA
DiRT Rally		Макс. качество	MSAA 4x
Rise of the Tomb Raider, встроенный бенчмарк	DirectX 12	Макс. качество, VXAO выкл.	SSAA 4x
Tom Clancy"s The Division, встроенный бенчмарк	DirectX 11	Макс. качество, HFTS выкл.	SMAA 1x Ultra
HITMAN, встроенный бенчмарк	DirectX 12	Макс. качество	SSAA 4x
Ashes of the Singularity, встроенный бенчмарк	DirectX 12	Макс. качество	MSAA 4x + Temporal AA 4x
DOOM	Vulkan	Макс. качество. Миссия Foundry	TSSAA 8TX
Total War: WARHAMMER, встроенный бенчмарк	DirectX 12	Макс. качество	MSAA 4x

Бенчмарки: декодирование видео, вычисления
Программа	Настройки
DXVA Checker, Decode Benchmark, H.264	Файлы 1920 × 1080p (High Profile, L4.1), 3840 × 2160p (High Profile, L5.1). Microsoft H264 Video Decoder
DXVA Checker, Decode Benchmark, H.265	Файлы 1920 × 1080p (Main Profile, L4.0), 3840 × 2160p (Main Profile, L5.0). Microsoft H265 Video Decoder
LuxMark 3.1 x64	Сцена Hotel Lobby (Complex Benchmark)
Sony Vegas Pro 13	Бенчмарк Sony для Vegas Pro 11, продолжительность — 65 с, рендеринг в XDCAM EX, 1920 × 1080p 24 Гц
SiSoftware Sandra 2016 SP1, GPGPU Scientific Analysis	Open CL, FP32/FP64
CompuBench CL Desktop Edition X64, Ocean Surface Simulation	—
CompuBench CL Desktop Edition X64, Particle Simulation— 64K	—

⇡ Участники тестирования

В тестировании производительности приняли участие следующие видеокарты:

NVIDIA TITAN X (1417/10000 МГц, 12 Гбайт);

⇡ Производительность : 3DMark

Синтетические тесты в среднем демонстрируют преимущество TITAN X перед GeForce GTX 1080 в 25 %. По сравнению с предыдущим поколением марки TITAN, а также Radeon R9 Fury X новый флагман предлагает на 61—63 % более высокий результат и более чем вдвое выросшую производительность, по сравнению с первой версией TITAN на базе архитектуры Kepler. Довольно высокую позицию в сравнении с ускорителем NVIDIA удерживает Radeon R9 295X2 — новинка лишь на 18 % быстрее в 3DMark.

3DMark (Graphics Score)
	Разрешение
Fire Strike	1920 × 1080	26 341	10 449	17 074	21 648	23 962	16 279
Fire Strike Extreme	2560 × 1440	13 025	4 766	7 945	10 207	10 527	7 745
Fire Strike Ultra	3840 × 2160	6 488	2 299	4 011	4 994	5 399	3 942
Time Spy	2560 × 1440	8 295	2 614	4 935	6 955	7 186	5 084
Макс.			−60%	−35%	−16%	−9%	−38%
Среднее			−64%	−38%	−20%	−15%	−39%
Мин.			−68%	−41%	−23%	−19%	−41%

⇡ Производительность: игры (1920 × 1080 , 2560 × 1440)

В тестах при сравнительно низком разрешении для столь мощного GPU новый TITAN X на 15-20 % (от режима 1080p к 1440p соответственно) превосходит GeForce GTX 1080 по средним результатам. Еще более эффектно новый флагман выглядит в сравнении с лучшими ускорителями периода 28 нм: он на 47-56 % быстрее GeForce GTX TITAN X на базе GM200 и на 67-72 % опережает Radeon R9 Fury X.

Если взять самый первый TITAN поколения Kepler, то речь идет о более чем двукратном приросте быстродействия.

1920 × 1080
	Полноэкранное сглаживание	NVIDIA TITAN X (1417/10000 МГц, 12 Гбайт)	NVIDIA GeForce GTX TITAN (837/6008 МГц, 6 Гбайт)	NVIDIA GeForce GTX TITAN X (1000/7012 МГц, 12 Гбайт)	NVIDIA GeForce GTX 1080 (1607/10008 МГц, 8 Гбайт)	AMD Radeon R9 295X2 (1018/5000 МГц, 8 Гбайт)	AMD Radeon R9 Fury X (1050/1000 МГц, 4 Гбайт)
Ashes of the Singularity	MSAA 4x	47	20	31	42	34	26
Battlefield 4	MSAA 4x + FXAA High	162	71	118	149	134	94
Crysis 3	MSAA 4x	99	45	65	79	90	60
DiRT Rally	MSAA 4x	126	57	83	101	97	65
DOOM	TSSAA 8TX	200	69	151	185	122	156
GTA V	MSAA 4x + FXAA	85	44	68	84	76	52
HITMAN	SSAA 4x	68	21	39	52	24	33
Metro: Last Light Redux	SSAA 4x	124	47	73	92	94	70
Rise of the Tomb Raider	SSAA 4x	70	28	47	62	55	41
Tom Clancy"s The Division	SMAA 1x Ultra	87	35	59	80	57	58
Total War: WARHAMMER	MSAA 4x	76	38	56	73	37	49
Макс.			−48%	−20%	−0%	−9%	−22%
Среднее			−58%	−32%	−13%	−29%	−40%
Мин.			−69%	−43%	−26%	−65%	−51%

2560 × 1440
	Полноэкранное сглаживание	NVIDIA TITAN X (1417/10000 МГц, 12 Гбайт)	NVIDIA GeForce GTX TITAN (837/6008 МГц, 6 Гбайт)	NVIDIA GeForce GTX TITAN X (1000/7012 МГц, 12 Гбайт)	NVIDIA GeForce GTX 1080 (1607/10008 МГц, 8 Гбайт)	AMD Radeon R9 295X2 (1018/5000 МГц, 8 Гбайт)	AMD Radeon R9 Fury X (1050/1000 МГц, 4 Гбайт)
Ashes of the Singularity	MSAA 4x	39	16	24	33	27	21
Battlefield 4	MSAA 4x + FXAA High	109	47	75	98	95	65
Crysis 3	MSAA 4x	63	27	40	53	59	39
DiRT Rally	MSAA 4x	93	40	60	74	71	48
DOOM	TSSAA 8TX	166	45	95	126	82	107
GTA V	SMAA	67	31	48	63	61	39
HITMAN	MSAA 4x + FXAA	43	13	24	33	12	17
Metro: Last Light Redux	SSAA 4x	71	26	43	52	54	43
Rise of the Tomb Raider	Не поддерживается	44	16	28	38	23	27
Tom Clancy"s The Division	SSAA 4x	63	24	43	58	45	44
Total War: WARHAMMER	SMAA 1x High	57	26	39	50	25	34
Макс.			−53%	−29%	−6%	−6%	−30%
Среднее			−61%	−36%	−16%	−33%	−42%
Мин.			−73%	−44%	−27%	−72%	−60%

Прим.:

⇡ Производительность: игры (3840 × 2160)

При переходе от разрешения 1440p к 4К соотношение между видеокартами NVIDIA остается прежним. TITAN X на 20 % быстрее, чем GeForce GTX 1080 и на 56 % превосходит TITAN X на базе Maxwell.

Radeon R9 Fury X, что характерно для этой модели, более эффективно справляется с тестами в 4К, что в итоге сократило преимущество «Титана» до 56 %.

3840 × 2160
	Полноэкранное сглаживание	NVIDIA TITAN X (1417/10000 МГц, 12 Гбайт)	NVIDIA GeForce GTX TITAN (837/6008 МГц, 6 Гбайт)	NVIDIA GeForce GTX TITAN X (1000/7012 МГц, 12 Гбайт)	NVIDIA GeForce GTX 1080 (1607/10008 МГц, 8 Гбайт)	AMD Radeon R9 295X2 (1018/5000 МГц, 8 Гбайт)	AMD Radeon R9 Fury X (1050/1000 МГц, 4 Гбайт)
Ashes of the Singularity	Выкл.	45	20	29	41	38	37
Battlefield 4		84	35	57	74	72	52
Crysis 3		42	18	28	36	40	29
DiRT Rally		65	26	41	50	48	33
DOOM		92	24	51	68	45	57
GTA V		55	25	39	51	49	34
HITMAN		67	21	38	53	24	33
Metro: Last Light Redux		64	23	38	47	47	38
Rise of the Tomb Raider		50	19	33	44	37	31
Tom Clancy"s The Division		38	15	25	33	26	28
Total War: WARHAMMER		43	20	30	38	20	32
Макс.			−53%	−29%	−7%	−5%	−18%
Среднее			−61%	−36%	−16%	−29%	−36%
Мин.			−74%	−45%	−27%	−64%	−51%

Прим.: В Total War: WARHAMMER не поддерживается DirectX 12 для GeForce GTX TITAN.

⇡ Производительность: декодирование видео

В GP102 интегрирован такой же аппаратный кодек, как и в двух младших GPU семейства Pascal, поэтому TITAN X демонстрирует скорость декодирования стандартов H.264 и HEVC наравне с GeForce GTX 1080, с поправкой на сниженные тактовые частоты GPU. Производительность Pascal в этой задаче является непревзойденной как по сравнению с кодеками NVIDIA в чипах Maxwell, так и с таковыми в AMD Polaris.

Прим.: поскольку в пределах одной линейки GPU декодеры обычно не различаются, на диаграммах приведено по одному устройству из каждого семейства (или больше в том случае, если это правило нарушается).

Прим. 2: GeForce GTX TITAN X , как и другие устройства на базе GPU архитектуры Maxwell, за исключением GM204 (GeForce GTX 950/960), выполняет частично аппаратное декодирование H.265, подкрепленное ресурсами CPU.

⇡ Производительность: вычисления

Соотношение между различными архитектурами в задачах GPGPU зависит от специфики каждого приложения. TITAN X по большей части обеспечивает предсказуемый прирост быстродействия по сравнению с GeForce GTX 1080, однако есть исключительные случаи, когда задача упирается в частоту графического процессора (как тест физики частиц в CompuBench CL и рендеринг в Sony Vegas): здесь преимущество на стороне GTX 1080. Напротив, новый TITAN X взял реванш в той ситуации, где GeForce GTX 1080 уступает TITAN X на базе Maxwell и Radeon R9 Fury X (трассировка лучей в LuxMark).

В тесте SiSoftware Sandra, включающем перемножение матриц и быстрое преобразование Фурье, TITAN X не знает равных в режиме FP32. Что касается FP64, то просто за счет грубой силы (большого количества ядер CUDA и высоких тактовых частот) ускоритель достиг более высоких показателей, чем оригинальный TITAN поколения Kepler и Radeon R9 Fury X — видекарты, обладающие более выгодным соотношением скорости работы с FP32 и FP64. Это в конечном счете не позволяет совсем уж сбрасывать со счетов TITAN X как ускоритель задач с вычислениями двойной точности. Впрочем, для этой цели лучше всего подходит Radeon R9 295X2. Видеокарты AMD сохраняют сильные позиции и в некоторых других тестах: расчете водной поверхности в CompuBench CL и Sony Vegas.

⇡ Тактовые частоты, энергопотребление, температура, разгон

При игровой нагрузке графический процессор TITAN X периодически достигает столь же высоких тактовых частот, как GP104 в составе GTX 1080 (1848 против 1860 МГц), однако большую часть времени пребывает в существенно более низком диапазоне (1557-1671 МГц). При этом максимальное напряжение питания GPU составляет 1,062 В (1,05 В в GTX 1080).

Вентилятор СО вращается со скоростью вплоть до 2472 об/мин. Карта требует более сильного охлаждения, чем GTX 1080, а поскольку конструкция кулера осталась неизменной, он создает больше шума. Чтобы компенсировать этот фактор, для TITAN X установили на 3 °С более высокую целевую температуру GPU.

Хотя TITAN X на базе Pascal формально обладает одинаковым TDP c TITAN X предыдущего поколения, на практике система с новой видеокартой развивает существенно большую (на 49 Вт) мощность. Впрочем, здесь может играть роль повышенная нагрузка на CPU, обслуживающий более производительный графический процессор. В FurMark, напротив, все ускорители, обладающие TDP 250 Вт (а также 275-ваттный Fury X) находятся примерно на одном уровне.

Для разгона «Титана» мы воспользовались штатной возможностью увеличить лимит мощности видеокарты на 20 %, запустили турбину СО на полную скорость (4837 об/мин) и увеличили максимальное напряжение питания GPU до 1,093 В (такое же значение, как на GTX 1080). В результате нам удалось поднять базовую частоту GPU на 200 МГц — до 1617 МГц, а эффективную частоту памяти — до 11100 МГц.

Одно это уже совсем неплохо для столь крупного чипа, однако не меньшее значение имеет повышенный лимит мощности. Разогнанный GPU поддерживает частоты в диапазоне 1974-1987 МГц, достигая максимума в 2063 МГц, а это уже не менее чем просто потрясающее достижение. Для сравнения: пиковая частота графического процессора в нашем экземпляре GTX 1080 при разгоне составила 2126 МГц.

Система с разогнанным TITAN X развивает мощность на 46 Вт больше, чем при штатном режиме работы видеокарты. Раскрученный до максимальной скорости вентилятор сбил температуру GPU на 17-20 °C, что позволяет пользователям рассчитывать на столь же эффективный разгон при более низких оборотах, обеспечивающих относительно комфортный уровень шума.

⇡ Производительность: разгон

Оверклокинг TITAN X позволяет весьма существенно увеличить быстродействие — на 14% в 3DMark и на 18-23 % в игровых бенчмарках при разрешениях 1080p и 1440p. В играх при разрешении 4К бонус достигает 26 %.

Разница между разогнанным TITAN X и GeForce GTX 1080, работающим на референсных частотах, достигает шокирующих значений — 36, 47 и 50 % в трех использованных нами разрешениях. Разумеется, сам GTX 1080 также подлежит разгону, но, как мы помним из нашего обзора референсной видеокарты, это добавляет к результатам лишь 9, 13 и 12 %. Таким образом, если сравнивать разогнанный флагман линейки GeForce 10 и разогнанный TITAN X, то преимущество последнего составит 25, 30 и 34 %.

Используя наши старые данные о производительности GeForce GTX TITAN X на чипе GM200 в разгоне, произведем аналогичные расчеты для сравнения двух поколений «Титанов». Разогнанный TITAN X на Pascal опережает своего предшественника на 75, 93 и 97 %. Когда оба ускорителя разогнаны, новинка сохраняет отрыв в 74 и 70 % при разрешениях 1440p и 2160p. От тестирования в режиме 1080p мы (как помнят критиковавшие это решение читатели) отказались в обзоре GeForce GTX TITAN X.

3DMark (Graphics Score)
	Разрешение	NVIDIA GeForce GTX 1080 (1607/10008 МГц, 8 Гбайт)	NVIDIA TITAN X (1417/10000 МГц, 12 Гбайт)
Fire Strike	1920 × 1080	21 648	26 341	31 038
Fire Strike Extreme	2560 × 1440	10 207	13 025	15 191
Fire Strike Ultra	3840 × 2160	4 994	6 488	7 552
Time Spy	2560 × 1440	6 955	8 295	8 644
Макс.			+30%	+51%
Среднее			+25%	+42%
Мин.			+19%	101	126	126
DOOM	TSSAA 8TX	185	200	200
GTA V	MSAA 4x + FXAA	84	85	96
HITMAN	SSAA 4x	52	68	77
Metro: Last Light Redux	SSAA 4x	92	124	140
Rise of the Tomb Raider	SSAA 4x	62	70	94
Tom Clancy"s The Division	SMAA 1x Ultra	80	87	117
Total War: WARHAMMER	MSAA 4x	73	76	88
Макс.			+35%	+57%
Среднее			+16%	+36%
Мин.			+0%	+8%

TITAN X позиционируется в первую очередь как ускоритель задач GPGPU, среди которых приоритетное место занимает машинное обучение благодаря поддержке формата чисел int8 в GP102 при скорости исполнения 4:1 по сравнению с операциями FP32. В большинстве вычислительных задач, опирающихся на FP32, TITAN X также обладает лидирующим быстродействием по сравнению с любыми ранее выпущенными ускорителями игрового и просьюмерского класса.

Не стоит сбрасывать со счетов и функцию работы с операциями двойной точности. Хотя карты, построенные на таких GPU, как GK110/210 от NVIDIA, а также Tahiti и Hawaii от AMD обладают лучшим соотношением FP32 и FP64 по сравнению с TITAN X , но и в этой категории он достигает по меньшей мере конкурентоспособных результатов в силу прогрессивного техпроцесса, обеспечившего видеокарте высокие тактовые частоты и огромный массив ядер CUDA.

Для нашего сайта новый TITAN X интересен в первую очередь как игровая видеокарта. В этом качестве новинка производит двоякое впечатление. С одной стороны, преимущество в 15-20% перед GeForce GTX 1080 в игровых бенчмарках не оправдывает, с точки зрения покупателя, столь высокую цену модели ($1 200) и к тому же все еще не позволяет запускать многие из современных игр в разрешении 4К с максимальными настройками качества графики при комфортной частоте смены кадров (60 FPS).

С другой стороны, ограничение TDP в 250 Вт, установленное NVIDIA, явно не соответствует возможностям GPU. При разгоне штатными средствами TITAN X легко достигает частот свыше 2 ГГц, что в конечном счете обеспечивает на 34 % более высокую производительность, чем у (также разогнанного) GeForce GTX 1080 в режиме 4К. Фактически разгон делает TITAN X первой игровой видеокартой, безоговорочно подходящей для таких настроек.

2560 × 1440
	Полноэкранное сглаживание	NVIDIA GeForce GTX 1080 (1607/10008 МГц, 8 Гбайт)	NVIDIA TITAN X (1417/10000 МГц, 12 Гбайт)	NVIDIA TITAN X (1617/11110 МГц, 12 Гбайт)
Ashes of the Singularity	MSAA 4x	33	39	48
Battlefield 4	MSAA 4x + FXAA High	98	109	146
Crysis 3	MSAA 4x	53	63	81
DiRT Rally	MSAA 4x	74	93	93
DOOM	TSSAA 8TX	126	166	183
GTA V	SMAA	63	67	86
HITMAN	MSAA 4x + FXAA	33	43	49
Metro: Last Light Redux	SSAA 4x	52	71	82
Rise of the Tomb Raider	Не поддерживается	38	44	59
Tom Clancy"s The Division	SSAA 4x	58	63	86
Total War: WARHAMMER	SMAA 1x High	50	57	74
Макс.			+36%	+58%
Среднее			+20%	+47%
Мин.
DOOM	68	92	104
GTA V	51	55	75
HITMAN	53	67	77
Metro: Last Light Redux	47	64	74
Rise of the Tomb Raider	44	50	69
Tom Clancy"s The Division	33	38	52
Total War: WARHAMMER	38	43	58
Макс.			+37%	+59%
Среднее

Предыдущая версия элитной видеокарты NVIDIA GeForce GTX TITAN X 12 Гбайт была выпущена в марте 2015 года и основывалась на графическом процессоре GM200 архитектуры Maxwell 2.0. В то время новинка отличалась колоссальным для игровых видеокарт объёмом видеопамяти, очень высокой производительностью и стоимостью ($999). Тем не менее, залихватская удаль GeForce GTX TITAN X поугасла уже спустя три месяца, когда публике была представлена столь же быстрая в играх GeForce GTX 980 Ti по куда более приемлемой стоимости ($649).

Похоже, что NVIDIA решила повторить этот путь анонсов в линейке топовых графических решений, который можно выразить последовательностью «GeForce GTX 980 –> GeForce TITAN X –> GeForce GTX 980 Ti», только теперь видеокарты основаны на ядрах GP104/102 архитектуры Pascal и выпускаются по 16-нм техпроцессу. C первой видеокартой – NVIDIA GeForce GTX 1080 – мы уже познакомились , как и с её оригинальными версиями . Теперь пришло время изучить самую новую и феноменально производительную видеокарту NVIDIA TITAN X .

Новинка стала стоить на 200 долларов дороже своей предшественницы – $1200, и, разумеется, по-прежнему позиционируется, как профессиональная видеокарта для исследований и глубинного обучения. Но, как вы наверняка понимаете, нас в первую очередь интересует её производительность в игровых приложениях и графических бенчмарках, поскольку все геймеры с нетерпением ждут анонса GeForce GTX 1080 Ti, последние признаки которого уже лишили сна особо явных адептов компании. Тем не менее, сегодня мы проверим NVIDIA TITAN X и в отдельных вычислительных бенчмарках, чтобы убедиться в её состоятельности в качестве профессиональной видеокарты.

1. Обзор супервидеокарты NVIDIA TITAN X 12 Гбайт

технические характеристики видеокарты и рекомендованная стоимость

Технические характеристики и стоимость видеокарты NVIDIA TITAN X приведены в таблице в сравнении с эталонными NVIDIA GeForce GTX 1080 и старой версией GeForce GTX TITAN X.

упаковка и комплектация

Выпуск TITAN X компания NVIDIA оставила строго за собой, поэтому упаковка видеокарты стандартная: компактная коробка, открывающаяся вверх, и вставленная в её центр видеокарта в антистатическом пакете.

В комплекте поставки ничего нет, хотя один дополнительный отсек внутри есть. Напомним, что рекомендованная стоимость NVIDIA TITAN X составляет 1200 долларов США.

дизайн и особенности печатной платы

Дизайн новой NVIDIA TITAN X стал более дерзким или даже можно сказать агрессивным, нежели дизайн GeForce GTX TITAN X. Кожух системы охлаждения с лицевой стороны видеокарты наделили дополнительными гранями, бликующими под лучами света, а заднюю часть текстолита закрыли рифлёной крышкой, выполненной из металла.

Вкупе с хромированным ротором вентилятора и такой же надписью на лицевой стороне, выглядит видеокарта действительно стильно и привлекательно. Отметим, что на верхнем торце NVIDIA TITAN X оставлены светящиеся символы «GEFORCE GTX», хотя в самом названии видеокарты их уже нет.

Длина эталонной видеокарты составляет стандартные 268 мм, высота – 102 мм, а толщина – 37 мм.

Видеовыходы на дополнительно перфорированной треугольными отверстиями панели, следующие: DVI-D, три DisplayPort версии 1.4 и один HDMI версии 2.0b.

В этом плане у новинки никаких изменений в сравнении с GeForce GTX 1080 нет.

Для создания разнообразных SLI-конфигураций на видеокарте предусмотрены два разъёма. Поддерживаются 2-way, 3-way и 4-way SLI варианты объединения видеокарт с использованием как новых жёстких соединительных мостиков, так и старых гибких.

Если эталонная GeForce GTX 1080 имеет только один восьмиконтактный разъём для дополнительного питания, то TITAN X получила в дополнение ещё и шестиконтактный разъём, что не удивительно, ведь заявленный уровень энергопотребления видеокарты составляет 250 ватт, как и у предшествующей ей модели GeForce GTX TITAN X. Мощность рекомендованного блока питания для системы с одной такой видеокартой должна составлять не менее 600 ватт.

Эталонная печатная плата NVIDIA TITAN X намного сложнее чем плата GeForce GTX 1080 , что вполне логично, учитывая возросшие требования по питанию, увеличенный объём видеопамяти и более широкую шину обмена с ней.

Система питания графического процессора пятифазная с использованием силовых элементов Dr.MOS и тантал-полимерных конденсаторов. Ещё две фазы питания отведены на видеопамять.

За управление питанием графического процессора отвечает контроллер uP9511P производства uPI Semiconductor.

Обеспечение функций мониторинга осуществляет контроллер INA3221 производства Texas Instruments.

Выполненный по 16-нм нормам, кристалл графического процессора GP102 имеет площадь 471 мм2, выпущен на 21-й неделе 2016 года (конец мая) и относится к ревизии А1.

Не считая архитектурных улучшений линейки GPU Pascal, в сравнении с графическим процессором GM200 видеокарты NVIDIA GeForce GTX TITAN X в новом GP102 содержатся на 16,7% больше универсальных шейдерных процессоров, а их общее количество равно 3584. Преимущество по этому показателю над GP104 видеокарты GeForce GTX 1080 составляет впечатляющие 40%. Такой же расклад и по числу текстурных блоков, которых у нового TITAN X 224 штуки. Дополняют количественные показатели GP102 96 блоков растровых операций (ROPs).

Частоты графического процессора также выросли. Если у GeForce GTX TITAN X базовая частота GPU в 3D-режиме составляла 1000 МГц и могла форсироваться до 1076 МГц, то у новой TITAN X базовая частота равна 1418 МГц (+41,8%), а заявленная boost-частота – 1531 МГц. На деле, по данным мониторинга, частота графического процессора кратковременно возрастала до 1823 МГц, а в среднем составила 1823 МГц. Это очень серьёзный прирост в сравнении с предшественником. Добавим, что при переходе в 2D-режим частота графического процессора снижается до 139 МГц с одновременным снижением напряжения с 1,050 В до 0,781 В.

NVIDIA TITAN X оснащается 12 Гбайт памяти стандарта GDDR5X, набранными двенадцатью микросхемами производства компании Micron (маркировка 6KA77 D9TXS), распаянными только на лицевой стороне печатной платы.

В сравнении с предшествующей GeForce GTX TITAN X на GM200, частота памяти новой TITAN X на GP102 составляет 10008 МГц, то есть на 42,7% выше. Таким образом при не изменившейся ширине шины обмена с памятью, составляющей 384 бит, пропускная способность памяти TITAN X достигает внушительных 480,4 Гбайт/с, что лишь чуть меньше нынешнего рекордсмена в этой области – AMD Radeon R9 Fury X с её высокоскоростной HBM и 512 Гбайт/с. В 2D-режиме частота памяти снижается до 810 эффективных мегагерц.

Итог обзору аппаратной части новой видеокарты подведёт информация из утилиты GPU-Z.

Выкладываем мы и BIOS видеокарты , считанный и сохранённый с помощью этой же утилиты.

система охлаждения – эффективность и уровень шума

Система охлаждения NVIDIA TITAN X идентична кулеру NVIDIA GeForce GTX 1080 Founders Edition.

В её основе лежит никелированный алюминиевый радиатор с медной испарительной камерой в основании, который отвечает за охлаждение графического процессора.

По площади этот радиатор небольшой, а межрёберное расстояние не превышает двух миллиметров.

Таким образом не трудно предположить, что эффективность охлаждения графического процессора этим радиатором будет серьёзно зависима от скорости вращения вентилятора (что, собственно, и подтвердилось далее).

На охлаждение микросхем памяти и элементов силовых цепей отведена металлическая пластина с термопрокладками.

Для проверки температурного режима работы видеокарты в качестве нагрузки мы использовали девятнадцать циклов стресс-теста Fire Strike Ultra из пакета 3DMark.

Для мониторинга температур и всех прочих параметров применялась программа MSI Afterburner версии 4.3.0 Beta 14 и новее, а также и утилита GPU-Z версии 1.12.0. Тесты проводились в закрытом корпусе системного блока , конфигурацию которого вы сможете увидеть в следующем разделе статьи, при комнатной температуре 23,5~23,9 градусов Цельсия.

Прежде всего мы проверили эффективность охлаждения NVIDIA TITAN X и её температурный режим при полностью автоматической регулировке скорости вентилятора.

Автоматический режим (1500~3640 об/мин)

Как видим по графику мониторинга, температура графического процессора видеокарты NVIDIA TITAN X очень быстро добралась до отметки 88-89 градусов Цельсия, а затем, благодаря сравнительно резкому повышению скорости вентилятора с 1500 до 3500 об/мин, стабилизировалась на отметке 86 градусов Цельсия. Далее по ходу теста скорость вращения вентилятора ещё увеличилась до 3640 об/мин. Вряд ли кто из нас с вами ожидал от эталонной видеокарты с тепловым пакетом 250 ватт иных температурных показателей, которые практически не отличаются от GeForce GTX TITAN X.

При максимальной скорости вентилятора температура графического процессора видеокарты NVIDIA TIAN X снижается на 12-13 градусов Цельсия в сравнении с режимом автоматической регулировки.

Максимальная скорость (~4830 об/мин)

В обоих режимах работы вентилятора NVIDIA TITAN X является очень шумной видеокартой. К слову, NVIDIA не лишает владельцев этой модели видеокарты гарантии при замене эталонного кулера на альтернативные варианты.

оверклокерский потенциал

При проверке оверклокерского потенциала NVIDIA TITAN X мы увеличили предел по питанию на максимально возможные 120%, температурный предел повысили до 90 градусов Цельсия, а скорость вентилятора вручную зафиксировали на 88% мощности или 4260 об/мин. Спустя несколько часов тестов, удалось выяснить, что без потери стабильности и появления дефектов изображения базовую частоту графического процессора можно увеличить на 225 МГц (+15,9%), а эффективную частоту видеопамяти – на 1240 МГц (+12,4%).

В результате частоты разогнанной NVIDIA TITAN X в 3D-режиме составили 1643-1756/11248 МГц .

Ввиду значительного разброса частот GPU во время теста температурного режима разогнанной видеокарты, тест из пакета 3DMark вновь рапортовал о нестабильности TITAN X.

Несмотря на данный факт, все 19 циклов этого теста, а также все игры тестового набора были успешно пройдены, а по данным мониторинга частота ядра разогнанной видеокарты увеличивалась вплоть до 1987 МГц.

88% мощности (~4260 об/мин)

С учётом разгона эталонной NVIDIA TITAN X можно предположить, что оригинальные GeForce GTX 1080 Ti будут разгоняться ещё лучше. Впрочем, время покажет.

2. Тестовая конфигурация, инструментарий и методика тестирования

Тестирование видеокарт было проведено на системе следующей конфигурации:

системная плата: ASUS X99-A II (Intel X99 Express, LGA2011-v3, BIOS 1201 от 11.10.2016);
центральный процессор: Intel Core i7-6900K (14 нм, Broadwell-E, R0, 3,2 ГГц, 1,1 В, 8 x 256 Kбайт L2, 20 Мбайт L3);
система охлаждения CPU: Phanteks PH-TC14PЕ (2 Corsair AF140, ~900 об/мин);
термоинтерфейс: ARCTIC MX-4 (8,5 Вт/(м*К));
оперативная память: DDR4 4 x 4 Гбайт Corsair Vengeance LPX 2800 МГц (CMK16GX4M4A2800C16) (XMP 2800 МГц/16-18-18-36_2T/1,2 В или 3000 МГц/16-18-18-36_2T/1,35 В);
видеокарты:

NVIDIA TITAN X 12 Гбайт 1418-1531(1848)/10008 МГц и с разгоном до 1643-1756(1987)/11248 МГц;
Gigabyte GeForce GTX 1080 G1 Gaming 8 Гбайт 1607-1746(1898)/10008 МГц и с разгоном до 1791-1930(2050)/11312 МГц;
NVIDIA GeForce GTX 980 Ti 6 Гбайт 1000-1076(1189)/7012 МГц и с разгоном до 1250-1326(1437)/8112 МГц;

диск для системы и игр: Intel SSD 730 480GB (SATA-III, BIOS vL2010400);
диск для бенчмарков: Western Digital VelociRaptor (SATA-II, 300 Гбайт, 10000 об/мин, 16 Мбайт, NCQ);
архивный диск: Samsung Ecogreen F4 HD204UI (SATA-II, 2 Тбайт, 5400 об/мин, 32 Мбайт, NCQ);
звуковая карта: Auzen X-Fi HomeTheater HD;
корпус: Thermaltake Core X71 (четыре be quiet! Silent Wings 2 (BL063) на 900 об/мин);
панель управления и мониторинга: Zalman ZM-MFC3;
блок питания: Corsair AX1500i Digital ATX (1500 Вт, 80 Plus Titanium), 140-мм вентилятор;
монитор: 27-дюймовый Samsung S27A850D (DVI, 2560 х 1440, 60 Гц).

Разумеется, прежних версий видеокарты TITAN X у нас остаться не могло, поэтому сравнивать новинку мы будем с двумя другими видеокартами, но вовсе не медленными. Первой из них будет оригинальная Gigabyte GeForce GTX 1080 G1 Gaming, которую мы протестировали на частотах эталонной NVIDIA GeForce GTX 1080, а также при разгоне до 1791-1930/11312 МГц.

Отметим, что пиковая частота графического процессора этой видеокарты при разгоне достигала отметки 2050 МГц.

Второй видеокартой тестирования является эталонная NVIDIA GeForce GTX 980 Ti, производительность которой мы протестировали как на номинальных частотах, так и при разгоне до 1250-1326(1437)/8112 МГц.

Поскольку при своём выходе GeForce GTX 980 Ti в играх продемонстрировала производительность, равную прежней GeForce GTX TITAN X , то такое сравнение вполне можно считать сравнением двух разных TITAN X. Добавим, что пределы по питанию и температуре на всех видеокартах были увеличены до максимально возможных, а в драйверах GeForce был выставлен приоритет максимальной производительности.

Для снижения зависимости производительности видеокарт от скорости платформы 14-нм восьмиядерный процессор при множителе 40, опорной частоте 100 МГц и активированной на третий уровень функции Load-Line Calibration был разогнан до 4,0 ГГц при повышении напряжения в BIOS материнской платы до 1,2095 В.

При этом 16 гигабайт оперативной памяти функционировали на частоте 3,2 ГГц с таймингами 16-16-16-28 CR1 при напряжении 1,35 В.

Тестирование, начатое 20 октября 2016 года, было проведено под управлением операционной системы Microsoft Windows 10 Professional со всеми обновлениями на указанную дату и с установкой следующих драйверов:

чипсет материнской платы Intel Chipset Drivers – 10.1.1.38 WHQL от 12.10.2016 ;
Intel Management Engine Interface (MEI) – 11.6.0.1025 WHQL от 14.10.2016 ;
драйверы видеокарт на графических процессорах NVIDIA – GeForce 375.57 WHQL от 20.10.2016 .

Поскольку видеокарты в сегодняшнем тестировании весьма производительные, то от тестов в разрешении 1920 х 1080 пикселей было решено отказаться и использовалось только разрешение 2560 х 1440 пикселей. Разрешения ещё выше, к сожалению, имеющийся монитор не поддерживает. Впрочем, учитывая результаты в последних новинках, сожалеть о недоступности более высоких разрешений не приходится. Для тестов использовались два режима качества графики: Quality + AF16x – качество текстур в драйверах по умолчанию с включением анизотропной фильтрации уровня 16х и Quality + AF16x + MSAA 4х(8х) с включением анизотропной фильтрации уровня 16х и полноэкранного сглаживания степени 4x или 8x, в случаях, когда среднее число кадров в секунду оставалось достаточно высоким для комфортной игры. В отдельных играх, в силу специфики их игровых движков, были использованы иные алгоритмы сглаживания, что будет указано далее в методике и на диаграммах. Включение анизотропной фильтрации и полноэкранного сглаживания выполнялось непосредственно в настройках игр. Если же данные настройки в играх отсутствовали, то параметры изменялись в панели управления драйверов GeForce. Там же была принудительно отключена вертикальная синхронизация (V-Sync). Кроме указанного, никаких дополнительных изменений в настройки драйверов не вносилось.

Видеокарты были протестированы в одном графическом тесте, одном VR-тесте и пятнадцати играх, обновлённых до последних версий на дату начала подготовки материала. В сравнении с нашим предыдущим тестом видеокарт из тестового набора исключены старые и не ресурсоёмкие Thief и Sniper Elite III, но включены новые Total War: WARHAMMER и Gears of War 4 с поддержкой API DirectX 12 (теперь таких игр в наборе пять). Кроме того, в следующих статьях о видеокартах в списке появится ещё одна новая игра с поддержкой API DirectX 12. Так что, теперь список тестовых приложений выглядит следующим образом (игры и далее результаты тестирования в них расположены в порядке их официального выхода):

3DMark (DirectX 9/11) – версия 2.1.2973, тестирование в сценах Fire Strike, Fire Strike Extreme, Fire Strike Ultra и Time Spy (на диаграмме приведён графический балл);
SteamVR – тест на поддержку «виртуальной реальности», за результат принималось число протестированных кадров за время теста;
Crysis 3 (DirectX 11) – версия 1.3.0.0, все настройки качества графики на максимум, степень размытости средняя, блики включены, режимы с FXAA и с MSAA 4x, двойной последовательный проход заскриптованной сцены из начала миссии Swamp продолжительностью 105 секунд;
Metro: Last Light (DirectX 11) – версия 1.0.0.15, использовался встроенный в игру тест, настройки качества графики и тесселяция на уровне Very High, технология Advanced PhysX в двух режимах тестирования, тесты с SSAA и без сглаживания, двойной последовательный прогон сцены D6;
Battlefield 4 (DirectX 11) – версия 1.2.0.1, все настройки качества графики на Ultra, двойной последовательный прогон заскриптованной сцены из начала миссии TASHGAR продолжительностью 110 секунд;
Grand Theft Auto V (DirectX 11) – build 877, настройки качества на уровне Very High, игнорирование предложенных ограничений включено, V-Synс отключена, FXAA активировано, NVIDIA TXAA выключено, MSAA для отражений выключено, мягкие тени NVIDIA;
DiRT Rally (DirectX 11) – версия 1.22, использовался встроенный в игру тест на трассе Okutama, настройки качества графики на максимальный уровень по всем пунктам, Advanced Blending – On; тесты с MSAA 8x и без сглаживания;
Batman: Arkham Knight (DirectX 11) – версия 1.6.2.0, настройки качества на уровне High, Texture Resolutioin normal, Anti-Аliasing on, V-Synс отключена, тесты в двух режимах – с активацией двух последних опций NVIDIA GameWorks и без них, двойной последовательный прогон встроенного в игру теста;
(DirectX 11) – версия 4.3, настройки качества текстур на уровне Very High, Texture Filtering – Anisotropic 16X и прочие максимальные настройки качества, тесты с MSAA 4x и без сглаживания, двойной последовательный прогон встроенного в игру теста.
Rise of the Tomb Raider (DirectX 12) – версия 1.0 build 753.2_64, все параметры на уровень Very High, Dynamic Foliage – High, Ambient Occlusion – HBAO+, тесселяция и прочие методики улучшения качества активированы, по два цикла теста встроенного бенчмарка (сцена Geothermal Valley) без сглаживания и с активацией SSAA 4.0;
Far Cry Primal (DirectX 11) – версия 1.3.3, максимальный уровень качества, текстуры высокого разрешения, объёмный туман и тени на максимум, встроенный тест производительности без сглаживания и с активацией SMAA;
Tom Clancy’s The Division (DirectX 11) – версия 1.4, максимальный уровень качества, все параметры улучшения картинки активированы, Temporal AA – Supersampling, режимы тестирования без сглаживания и с активацией SMAA 1X Ultra, встроенный тест производительности, но фиксация результатов FRAPS;
Hitman (DirectX 12) – версия 1.5.3, встроенный тест при настройках качества графики на уровне «Ультра», SSAO включено, качество теней «Ультра», защита памяти отключена;
Deus Ex: Mankind Divided (DirectX 12) – версия 1.10 build 592.1, все настройки качества вручную выставлены на максимальный уровень, тесселяция и глубина резкости активированы, не менее двух последовательных прогонов встроенного в игру бенчмарка;
Total War: WARHAMMER (DirectX 12) – версия 1.4.0 build 11973.949822, все настройки качества графики на максимальный уровень, отражения включены, неограниченная видеопамять и SSAO активированы, двойной последовательный прогон встроенного в игру бенчмарка;
Gears of War 4 (DirectX 12) – версия 9.3.2.2, настройки качества на уровне Ultra, V-Synс отключён, все эффекты активированы, вместо не поддерживаемого игрой сглаживания использовалось масштабирование разрешения на 150% (до 3840 х 2160), двойной последовательный прогон встроенного в игру бенчмарка.

Если в играх реализована возможность фиксации минимального числа кадров в секунду, то оно также отражалось на диаграммах. Каждый тест проводился дважды, за окончательный результат принималось лучшее из двух полученных значений, но только в случае, если разница между ними не превышала 1%. Если отклонения прогонов тестов превышали 1%, то тестирование повторялось ещё как минимум один раз, чтобы получить достоверный результат.

3. Результаты тестов производительности

На диаграммах результаты тестирования видеокарт без разгона выделены зелёной заливкой, а при разгоне – тёмно-бирюзовым цветом. Поскольку все результаты на диаграммах имеют общую закономерность, то каждую из них отдельно мы комментировать не будем, а анализ проведём по сводным диаграммам в следующем разделе статьи.

3DMark

SteamVR

Crysis 3

Metro: Last Light

Battlefield 4

Grand Theft Auto V

DiRT Rally

Batman: Arkham Knight

Tom Clancy"s Rainbow Six: Siege

Rise of the Tomb Raider

Far Cry Primal

Tom Clancy’s The Division

Hitman

Deus Ex: Mankind Divided

Total War: WARHAMMER

Так как Total War: WARHAMMER мы тестируем впервые, то приведём настройки, при которых данная игра будет тестироваться сегодня и в последующих наших статьях про видеокарты.

И далее результаты.

Gears of War 4

Также приведём и настройки новой игры Gears of War 4, впервые включённой в тестовый набор.

Результаты получились следующие.

Дополним построенные диаграммы итоговой таблицей с результатами тестов с выведенными средним и минимальным значением числа кадров в секунду по каждой видеокарте.

На очереди – сводные диаграммы и анализ результатов.

4. Сводные диаграммы и анализ результатов

На первой паре сводных диаграмм мы предлагаем сравнить производительность новой NVIDIA TITAN X 12 Гбайт на номинальных частотах и эталонной NVIDIA GeForce GTX 980 Ti 6 Гбайт также на номинальных частотах. Результаты последней видеокарты приняты за начальную точку отсчёта, а средний FPS видеокарты NVIDIA TITAN X отложен в процентах от неё. Преимущество новой видеокарты, вне всяких сомнений, впечатляет.

В наших тестовых условиях и настройках NVIDIA TITAN X быстрее NVIDIA GeForce GTX 980 Ti, как минимум, на 48%, а максимальные значения её превосходства достигают ошеломляющих 85%! Учитывая, что GeForce GTX 980 Ti в играх была фактически равна прежнему GeForce TITAN X, то можно сказать, что NVIDIA TITAN X на столько же быстрее своего предшественника. Прогресс полноценного графического процессора Pascal невероятен, жаль, что пока всё это весьма дорого, но уже мерцающие на горизонте GeForce GTX 1080 Ti будут заметно доступнее (вопрос только в том, что именно в них урежут?). Итак, в среднем по всем играм в разрешении 2560 х 1440 пикселей NVIDIA TITAN X быстрее NVIDIA GeForce GTX 980 Ti на 64,7% в режимах без использования сглаживания и на 70,4% при активации различных алгоритмов сглаживания.

Теперь оценим на сколько NVIDIA TITAN X на номинальных частотах опережает Gigabyte GeForce GTX 1080 G1 Gaming с частотной формулой, приведённой под уровень эталонных версий GeForce GTX 1080.

И вновь очень приличный прирост производительности! Как минимум, новинка быстрее GeForce GTX 1080 на 19%, а в Rise of Tomb Raider её преимущество достигает внушительных 45,5%. В среднем по всем играм NVIDIA TITAN X быстрее на 27,0% в режимах без сглаживания и на 32,7% при его активации.

Теперь давайте помечтаем, что NVIDIA при выпуске GeForce GTX 1080 Ti не станет урезать топовый Pascal по числу блоков и количеству шейдерных процессоров, и одновременно её партнёры выпустят оригинальные версии с повышенными частотами. На сколько в таком случае ещё вырастет производительность флагмана? Ответ на следующей сводной диаграмме.

Разгон NVIDIA TITAN X на 15,9% по ядру и на 12,4% по видеопамяти ускоряет и без того умопомрачительно быструю видеокарту на 12,9% в режимах без сглаживания и на 13,4% при активации АА. Если вернуться к первой сводной диаграмме, то несложно предположить, что оригинальные GeForce GTX 1080 Ti могут оказаться вдвое быстрее эталонных GeForce GTX 980 Ti или GeForce GTX TITAN X. Конечно, такое сравнение не объективно, ведь все знают, что оригинальные GeForce GTX 980 Ti зачастую способны разгоняться до 1,45-1,50 ГГц по ядру, а значит преимущество потенциальных GeForce GTX 1080 Ti не будет столь высоким. Тем не менее, даже 60-70% прироста производительности к флагману предыдущего поколения не могут не впечатлять. Где у нас с вами подобный прирост в центральных процессорах или оперативной памяти? Нет там ничего подобного, даже в топовом сегменте. А у NVIDIA такие возможности уже есть!

5. Вычисления на GPU

Сначала производительность новой видеокарты NVIDIA TITAN X мы протестируем в тесте CompuBench CL версии 1.5.8. Первые два теста – это распознавание лиц, основанное на алгоритме Виолы–Джонса, и базирующийся на вычислении вектора движения TV-L1 Optical Flow.

И вновь производительность NVIDIA TITAN X впечатляет. В номинальном режиме работы новинка опережает эталонную GeForce GTX 980 Ti на 66,6% в тесте Face Detection и на 90,4% в бенчмарке TV-L1 Optical Flow. Преимущество над GeForce GTX 1080 также довольно заметное, а разгон нового «Титана» ускоряет эту видеокарту ещё на 8,1-12,1%. Впрочем, примерно такой же прирост производительности и у двух других видеокарт тестирования при повышении частот.

Далее у нас на очереди тест прорисовки движения волн водной поверхности по быстрому дискретному преобразованию Фурье – Ocean Surface Simulation, а также тест физической симуляции частиц Particle Simulation.

Отличительной особенностью этой пары тестов стала относительная близость результатов GeForce GTX 980 Ti и GeForce GTX 1080, похоже, что ядро Maxwell легко сдаваться не собирается. А вот перед новой TITAN X обе эти видеокарты пасуют, проигрывая от 42,6 до 54,4%.

Намного плотнее результаты в тесте Video Composition.

Разогнанная Gigabyte GeForce GTX 1080 G1 Gaming даже умудряется догнать номинальную NVIDIA TITAN X, хотя последняя демонстрирует двадцатипроцентное преимущество над GeForce GTX 980 Ti.

Зато в симуляции майнинга криптовалюты Bitcoin мы вновь видим колоссальное преимущество NVIDIA TITAN X.

Новинка опережает GeForce GTX 980 Ti почти вдвое и на 30,4% быстрее Gigabyte GeForce GTX 1080 G1 Gaming на частотах эталонной NVIDIA GeForce GTX 1080. Такими темпами прироста производительности у NVIDIA и до видеокарт на графических процессорах AMD останется совсем чуть-чуть.

Далее у нас на очереди GPGPU тест из утилиты AIDA64 Extreme версии 5.75.3981 Beta. Из полученных результатов мы построили диаграммы по операциям с плавающей запятой с одинарной и двойной точностью.

Если ранее NVIDIA GeForce GTX TITAN X опережала в этих тестах первую версию GeForce GTX TITAN на 62% , то новая TITAN X на ядре Pascal превосходит предшественницу сразу на 97,5%! За любыми другими результатами теста AIDA64 GPGPU вы можете обращаться в тему обсуждения статьи в нашей конференции.

В завершении протестируем наиболее сложную сцену последнего LuxMark 3.1 – Hotel Lobby.

Отметим, что старенькая GeForce GTX 980 Ti «не даёт спуску» Gigabyte GeForce GTX 1080 G1 Gaming в этом тесте, но TITAN X опережает её сразу на 58,5%. Феноменальная производительность! Всё же жаль, что NVIDIA пока задерживает выпуск GeForce GTX 1080 Ti, и особо жаль, что её в этом никто пока не подгоняет.

6. Энергопотребление

Измерение уровня энергопотребления проводилось с помощью блока питания Corsair AX1500i через интерфейс Corsair Link и одноимённую программу версии 4.3.0.154. Измерялось энергопотребление всей системы в целом без учёта монитора. Измерение было проведено в 2D-режиме при обычной работе в Microsoft Word или интернет-сёрфинге, а также в 3D-режиме. В последнем случае нагрузка создавалась с помощью четырёх последовательных циклов вступительной сцены уровня Swamp из игры Crysis 3 в разрешении 2560 х 1440 пикселей при максимальных настройках качества графики с использованием MSAA 4Х. Энергосберегающие технологии центрального процессора отключены.

Давайте сравним уровень энергопотребления систем с протестированными сегодня видеокартами на диаграмме.

Несмотря на колоссальный прирост производительности везде и всюду, компании NVIDIA удалось удержать тепловой пакет новой TITAN X с ядром Pascal в тех же пределах, что и у прежней версии TITAN X – 250 ватт, поэтому уровень энергопотребления систем с этими видеокартами отличается несущественно. Так, в номинальном режиме работы конфигурация с NVIDIA TITAN X потребляет на 41 ватт больше, чем с видеокартой NVIDIA GeForce GTX 980 Ti, а при разгоне обеих видеокарт эта разница сокращается до 23 ватт. Вместе с тем, отметим, что система с Gigabyte GeForce GTX 1080 G1 Gaming экономичнее обеих версий TITAN X, а на частотах эталонной GeForce GTX 1080 едва не укладывается в предел 400 ватт, и это с учётом того, что в конфигурации присутствует прилично разогнанный восьмиядерный процессор. Экономичнее новинка и в 2D-режиме.

Заключение

Поскольку на сегодняшний день видеокарты NVIDIA в лице GeForce GTX 1080 и GTX 1070 занимают единоличное лидерство по производительности в верхнем ценовом сегменте, то выпуск ещё более производительной TITAN X мы вполне можем считать самой что ни на есть демонстрацией своего технологического превосходства над единственным конкурентом. Причём, демонстрация эта в полной мере удалась, ведь, находясь в том же тепловом пакете, преимущество новинки над флагманской видеокартой NVIDIA предыдущего поколения в игровых тестах порой достигает 85%, а в среднем составляет около 70%! Не менее впечатляющим выглядит прирост производительности и в вычислениях, что, как мы знаем, первостепенно для видеокарт NVIDIA серии TITAN.

Разница в производительности с GeForce GTX 1080 немного скромнее и составляет 27-33%, зато прирост производительности от разгона у TITAN X выше (около 13% против 10% у GeForce GTX 1080), а значит при появлении GeForce GTX 1080 Ti на основе того же GP102 мы вправе рассчитывать на ещё более высокие частоты и, как следствие, прирост производительности. Отрицательным моментом в анонсе TITAN X является двухсотдолларовое повышение рекомендованной стоимости, однако, на наш взгляд, у потенциальных потребителей таких видеокарт 20-процентный рост стоимости не вызовет серьёзных проблем. Ну, а геймеры поскромнее с нетерпением ждут появления GeForce GTX 1080 Ti, как и её «красного» конкурента.

Кроме того, отметим, что, несмотря на ошеломляющую производительность в играх, сама NVIDIA позиционирует TITAN X, в первую очередь, как эффективный инструмент для обучения нейросетей и решения задач, связанных с алгоритмами Deep Learning (глубинное обучение). Эти алгоритмы сегодня активно используются в самых разных областях: распознавание речи, изображений, видео, составление гидрометеорологических прогнозов, постановка более точных медицинских диагнозов, составление высокоточных карт, робототехника, самоуправляемые автомобили и так далее. Поэтому можно сказать, что возможности новой видеокарты NVIDIA TITAN X безграничны и удовлетворят любых пользователей.

Благодарим компанию NVIDIA и лично Ирину Шеховцову
за предоставленную на тестирование видеокарту .

Появление крупного GPU на базе архитектуры Maxwell было неизбежно, вопрос только в том, когда это произойдет и в какой форме. В итоге оправдалось предположение, что GM200 повторит путь своего аналога из семейства Kepler — GK110, дебютировав в составе ускорителя под маркой TITAN.

NVIDIA GeForce GTX TITAN X

Времени на тестирование новой видеокарты в этот раз было крайне мало, поэтому обзор будет сжатым. Отбросив необязательные рассуждения, перейдем сразу к делу. Архитектура Maxwell, по сравнению с Kepler, характеризуется упрощенным и оптимизированным строением потоковых мультипроцессоров (SMM), что позволило радикально уменьшить площадь SMM, сохранив 90% прежней производительности. Кроме того, GM200 принадлежит ко второй итерации архитектуры Maxwell, как и выпущенные ранее чипы GM204 (GeForce GTX 970/980) и GM206 (GeForce GTX 960). А следовательно, обладает более производительным геометрическим движком PolyMorph Engine версии 3.0 и поддерживает на уровне «железа» некоторые вычислительные функции, которые, вероятно, войдут в новый feature level Direct3D 12, а также необходимы для аппаратного ускорения технологии глобального освещения VXGI, разработанной NVIDIA. За более подробным описанием архитектуры Maxwell первого и второго поколения отсылаем читателей к обзорам GeForce GTX 750 Ti и GeForce GTX 980 .

Блок-схема графического процессора NVIDIA GM200

Качественно графический процессор GM200 и более младшие GPU в линейке не отличаются друг от друга, за исключением того, что только GM206 имеет выделенный блок декодирования видео, сжатого по стандарту H.265 (HEVC). Различия сугубо количественные. GM200 включает беспрецедентное число транзисторов — 8 млрд, поэтому вычислительных блоков в нем в полтора-два раза больше, чем в GM204 (в зависимости от того, какие именно считать). Кроме того, вернулась в строй 384-битная шина памяти. По сравнению с чипом GK110 новый флагманский GPU не столь устрашающе могуч, но, к примеру, число ROP здесь вдвое больше, что делает GM200 отлично подготовленным к 4К-разрешению.

В плане поддержки вычислений двойной точности GM200 ничем не отличается от GM204. Каждый SMX содержит только четыре ядра CUDA, совместимых с FP64, поэтому совокупная производительность при такой нагрузке составляет 1/32 от FP32.

⇡ Технические характеристики, цена

В TITAN X используется наиболее мощная версия ядра GM200 с полным набором активных вычислительных блоков. Базовая частота GPU составляет 1000 МГц, Boost Clock — 1076 МГц. Память работает на стандартной для продуктов на базе Maxwell частоте 7012 МГц. А вот объем невиданный для игровых видеокарт — 12 Гбайт (а TITAN X — это в первую очередь игровая видеокарта, по крайней мере до появления GM200 в основной, «номерной» линейке GeForce).

Рекомендованные розничные цены на TITAN X были объявлены в последние часы перед публикацией обзора. Для рынка США установлена цена в 999 долларов — столько же, сколько в свое время стоил первый TITAN на базе GK110.

Прим.: цены в таблице для GeForce GTX 780 Ti и TITAN Black приведены на момент снятия с производства последних.

Модель

Графический процессор

Видеопамять

TDP, Вт

РРЦ* для рынка США (без налогов), $

Кодовое название

Число транзисторов, млн

Тактовая частота, МГц: Base Clock / Boost Clock

Число ядер CUDA

Число текстурных блоков

Разрядность шины, бит

Тип микросхем

Тактовая частота: реальная (эффективная), МГц

Объем, Мбайт

GeForce GTX 780 Ti

GeForce GTX TITAN Black

GeForce GTX 980

GeForce GTX TITAN X

⇡ Конструкция

Начиная с самого первого «Титана» NVIDIA использует в топовых видеокартах, с некоторыми вариациями, одну и ту же систему охлаждения. TITAN X выделяется в ряду своих предшественников только абсолютно черным корпусом (лишь две вставки на боках остались неокрашенными).

NVIDIA GeForce GTX TITAN X

Задняя пластина, которой в порядке эксперимента оснастили GeForce GTX 980, в TITAN X вновь отсутствует, несмотря на то, что на оборотной стороне платы распаяна часть микросхем памяти. Хотя чипам GDDR5 дополнительное охлаждение, в общем-то, и не требуется.

NVIDIA GeForce GTX TITAN X, вид сзади

Зато вернулся радиатор с испарительной камерой, который в GTX 980 был заменен более простым вариантом.

NVIDIA GeForce GTX TITAN X, система охлаждения

Видеокарта обладает тремя разъемами DisplayPort и по одной штуке — HDMI и Dual-Link DVI-I.

⇡ Плата

Дизайн печатной платы, что совершенно неудивительно, вызывает ассоциации с серией видеоадаптеров на чипе GK110. Преобразователь напряжения построен по схеме 6+2 (число фаз для питания GPU и микросхем памяти соответственно). Питание подается через один восьмиконтактный и один шестиконтактный разъем. А вот контроллер питания графического процессора ON Semiconductor NCP81174 мы здесь видим впервые.

24 микросхемы памяти SK hynix H5GQ4H24MFR-R2C со штатной частотой 7 ГГц расположены на обеих сторонах платы.

NVIDIA GeForce GTX TITAN X, печатная плата, передняя сторона

NVIDIA GeForce GTX TITAN X, печатная плата, задняя сторона

Тестовый стенд, методика тестирования

Энергосберегающие технологии CPU во всех тестах отключены. В настройках драйвера NVIDIA в качестве процессора для вычисления PhysX выбирается CPU. В драйверах AMD параметр Tesselation переводится из состояния AMD Optimized в Use application settings.

Бенчмарки: синтетические
Программа	Настройки		Разрешение
3DMark 2011	Тест Extreme	-	-
3DMark	Тест Fire Strike (не Extreme)	-	-
Unigine Heaven 4	DirectX 11, макс. качество, тесселяция в режиме Extreme	AF 16x, MSAA 4x	1920 × 1080 / 2560 × 1440

Бенчмарки: игры
Программа	Настройки	Анизотропная фильтрация, полноэкранное сглаживание	Разрешение
Far Cry 3 + FRAPS	DirectX 11, макс. качество, HDAO. Начало миссии Secure the Outpost	AF, MSAA 4x	2560 × 1440/3840 × 2160
Tomb Raider. Встроенный бенчмарк	Макс. качество	AF 16x, SSAA 4x	2560 × 1440/3840 × 2160
Bioshock Infinite. Встроенный бенчмарк	Макс. качество. Postprocessing: Normal	AF 16x, FXAA	2560 × 1440/3840 × 2160
Crysis 3 + FRAPS	Макс. качество. Начало миссии Post Human	AF 16x, MSAA 4x	2560 × 1440/3840 × 2160
Metro: Last Light. Встроенный бенчмарк	Макс. качество	AF 16x, SSAA 4x	2560 × 1440/3840 × 2160
Company of Heroes 2. Встроенный бенчмарк	Макс. качество	AF, SSAA 4x	2560 × 1440/3840 × 2160
Battlefield 4 + FRAPS	Макс. качество. Начало миссии Tashgar	AF 16x, MSAA 4x + FXAA	2560 × 1440/3840 × 2160
Thief. Встроенный бенчмарк	Макс. качество	AF 16x, SSAA 4x + FXAA	2560 × 1440/3840 × 2160
Alien: Isolation	Макс. качество	AF 16x, SMAA T2X	2560 × 1440/3840 × 2160

Участники тестирования

В тестировании производительности приняли участие следующие видеокарты:

NVIDIA GeForce GTX TITAN X (1000/7012 МГц, 12 Гбайт);

⇡ Тактовые частоты, энергопотребление, температура, разгон

GM110 работает на базовой частоте, до которой никогда не поднимался GK110 в референсных спецификациях. Кроме того, GPU Boost действует весьма агрессивно, поднимая частоту вплоть до 1177 МГц. При этом процессор довольствуется напряжением 1,174 В — более низким относительно топовых продуктов на базе GK110.

Настройки BIOS позволяют увеличить лимит мощности до 110% и добавить 83 мВ к максимальному напряжению на GPU. На деле напряжение поднимается только до 1,23 В, но одновременно открываются несколько дополнительных ступенек частоты/VID: разница между базовой частотой и максимальной частотой, зарегистрированной в динамике, возрастает до 203 МГц.

Разгон видеокарты позволил достигнуть базовой частоты в 1252 МГц, а в динамике наблюдались частоты вплоть до 1455 МГц. Видеопамять смогла прибавить 1,2 ГГц, успешно работая на эффективной частоте 8 212 МГц.

	Base Clock, МГц	Макс. Boost Clock, МГц	Base Clock, МГц (разгон)	Макс. зарегистрированная Boost Clock, МГц (разгон)
GeForce GTX TITAN X	1000	1177 (+177)	1252	1455 (+203)
GeForce GTX 980	1127	1253 (+126)	1387	1526 (+139)
GeForce GTX TITAN Black	889	1032 (+143)	1100	1262 (+162)
GeForce GTX TITAN	836	1006 (+145)	966	1150 (+184)
GeForce GTX 780 Ti	876	1020 (+144)	986	1130 (+144)
GeForce GTX 780	863	1006 (+143)	1053	1215 (+162)
GeForce GTX 770	1046	1176 (+130)	1190	1333 (+143)

По энергопотреблению TITAN X близок к GTX 780 Ti и намного превосходит GTX 980. Вопреки ожиданиям, в Crysis 3 нет существенной разницы между TITAN X и Radeon R9 290X, а вот в FurMark R9 290X (как и R9 280X) разогревается сильнее и заметно превосходит TITAN X.

Разгон TITAN X увеличивает мощность на 5-25 Вт в зависимости от того, на результаты какого теста опираться — FurMark или Crysis 3.

Максимальная температура, которая допустима для GPU, определяется настройками BIOS, поэтому TITAN X не выходит за рамки установленных 83° C. При этом турбина системы охлаждения раскручивается на 49% от максимальной скорости — до 2339 об/мин. На первый взгляд это довольно много, но на самом деле шум от кулера вполне приемлемый.

⇡ Производительность: синтетические тесты

TITAN X впечатляет с первого же теста. По сравнению с GTX 780 Ti и Radeon R9 290X видеокарта в полтора раза производительнее.
С Radeon R9 280X и GeForce GTX 770 — адаптерами на базе некогда топовых GPU — разница более чем двукратная.

Все вышесказанное справедливо и для 3DMark 2013 года.

Unigine Heaven 4

TITAN X сохраняет преимущество около 50% перед GTX 780 Ti и Radeon R9 290X при разрешении WQHD. Кстати, в отличие от 3DMark, GTX 980 в этом тесте ничуть не лучше GTX 780 Ti.
При разрешении Ultra HD ранее выпущенные видеоадаптеры сократили расстояние, и все же TITAN X на голову превосходит всех соперников.

⇡ Производительность: игры

В этот раз мы отступим от стандартной формы описания игровых тестов. Расписывать для каждой игры, какая видеокарта быстрее, в случае с TITAN X совершенно бессмысленно. Во всех играх новый «Титан» с колоссальным отрывом опережает соперников. Количественные показатели стремятся к формуле: TITAN X на 30-50% быстрее, чем GeForce GTX 780 Ti и Radeon R9 290X, и зачастую вдвое быстрее по сравнению с Radeon R9 280X и GeForce GTX 770. Единственная интрига — выискивать колебания внутри этого коридора в ту или иную сторону. Кроме того, есть уникальный случай: TITAN X наслаждается частотой смены кадров 24 FPS в Far Cry 4 при разрешении Ultra HD и сглаживании MSAA 4x, в то время как соперники не могут выбраться из ямы в 5-7 FPS (а GeForce GTX 770 — и того меньше). Тут, по всей видимости, «Титану» пригодился объем памяти в 12 Гбайт, и даже 4 Гбайт, которыми оснащен Radeon R9 290X, для таких настроек в FC4 недостаточно.

Tomb Raider

Bioshock Infinite

Crysis 3

⇡ Производительность: вычисления

Декодирование видео (DXVA Checker, Decode Benchmark)

Выделенный декодер H.264 в GM200 такой же, как и в других чипах семейства Maxwell. Производительности его более чем достаточно для воспроизведения видео с разрешением вплоть до Ultra HD и частотой смены кадров 60 Гц и выше.
Среди дискретных видеоадаптеров AMD подобным может похвастаться только Radeon R9 285. GeForce GTX 780 Ti способен выдать до 35 FPS при разрешении 3840 × 2160.
CPU с 6-8 ядрами x86 лучше подходят для быстрого декодирования с целью конвертации видео, однако блок фиксированной функциональности выполняет эту работу с меньшим энергопотреблением, да и, наконец, просто дается в нагрузку к мощнейшему GPU.

Единственным GPU с полностью аппаратным декодированием H.265 является GM206 в составе GeForce GTX 960. Остальные представители архитектуры Maxwell, а также Kepler часть операций выполняют на конвейере декодера H.264. Остальное ложится на центральный процессор.
Производительности всех этих адаптеров при хорошем CPU вполне достаточно для воспроизведения видео с любым разумным разрешением и частотой смены кадров. Для работы на скорость лучше подходит GTX 960 или мощный CPU.

Luxmark: Room (Complex Benchmark)

Архитектура Maxwell в этой задаче демонстрирует удивительный прирост производительности по сравнению с Kepler, благодаря чему TITAN X удвоил скромный результат GeForce GTX 780 Ti и оставил далеко позади Radeon R9 290X. Впрочем, это еще не значит, что результаты LuxMark репрезентативны относительно любых задач трассировки лучей.
Разница между TITAN X и GeForce GTX 980 не такая огромная, как в игровых тестах.

Sony Vegas Pro 13

Видеоадаптеры AMD сохраняют лидерство в задаче рендеринга видео. А TITAN X ничем не выделяется в группе наиболее производительных устройств NVIDIA.

CompuBench CL: Ocean Surface Simulation

TITAN X отнимает пальму первенства у Radeon R9 290X и компенсирует неудачу GeForce GTX 980, которому этот тест дается на удивление трудно.

CompuBench CL: Particle Simulation

Здесь, напротив, GTX 980 сделал большой шаг вперед от GTX 780 Ti, а TITAN X закрепил успех. Radeon R9 290X не идет ни в какое сравнение с флагманом NVIDIA.

SiSoftware Sandra 2015: Scientific Analysis

В условиях двойной точности (FP64) ускорители AMD по-прежнему не знают равных, и даже Radeon R9 280X на базе далеко не нового GPU может дать фору TITAN X.
Среди «зеленых» TITAN X предсказуемо лидирует по производительности в FP64, в особенности по сравнению с откровенно слабым GTX 980.
В вычислениях FP32 TITAN X резко выделяется из всех видеокарт NVIDIA. Лишь она обеспечивает уровень производительности, сопоставимый с таковым у Radeon R9 290X.

⇡ Выводы

Если учесть, что производство дискретных GPU все еще остается в рамках техпроцесса 28 нм, результаты GeForce GTX TITAN X выглядят просто фантастически. При таком же TDP, как у видеоадаптеров на базе GK110, TITAN X достигает 130-150% быстродействия таких ускорителей, как GTX 780 Ti и Radeon R9 290X. Если взять первые 28-нанометровые GPU — GK104 (GTX 680, GTX 770) и Radeon R9 280X, то TITAN X зачастую превосходит их в два раза.

TITAN X, как и его предшественники на этой позиции, чрезвычайно дорог для видеокарты на одиночном GPU. Позиционирование не изменилось по сравнению с предыдущими «Титанами». Во-первых, это альтернатива SLI-конфигурациям из двух дискретных GeForce GTX 980: пусть потенциальная производительность тандема выше, одиночный GPU обладает более предсказуемым быстродействием. Во-вторых, компактные ПК, в которых нет места для двух видеокарт. И наконец, неграфические вычисления (GP-GPU). Хотя производительность FP64 в GM200 ограничена 1/32 от производительности FP32, TITAN X отчасти компенсирует это ограничение грубой силой GPU. Кроме того, вычисления FP32 преобладают в «просьюмерской» нагрузке (тот же Ray Tracing, ускорение рендеринга видео), а в этой дисциплине GM200 по меньшей мере не уступает лучшим продуктам AMD, а часто и превосходит так же, как в игровых тестах.