Первый 28nm четырехъядерный процессор AMD x86-64

02.03.2013, 04:28

Шрифт: A- A+

Редактировать статью

 

Первый 28nm четырехъядерный процессор AMD x86-64
 
  
 
• Создание юнита для развертывания в разнообразных системах на кристалле для различных
применений
• Охват широкого спектра приложений от 5W до 25W
• Достойный преемник ядра "Bobcat" x86-64
 
Сравнение ядер
 
Архитектура
 
• добавлены усовершенствования ISA
- SSE4.1, SSE4.2
- Расширенные векторные расширения
- AES, CLMUL
- MOVBE
- XSAVE / XSAVEOPT
- F16C, Bmi1
• 4x32B кэш буфер
• Улучшенный кэш предварительной выборки инструкций для IPC
• Добавлен аппаратный делитель целых чисел
• L2 предвыборка
• Улучшенная задержка входа / выхода C6 и CC6 
• Оценка типичных улучшения IPC над "Bobcat":> 15% *
• Более 92% флопс в типичных приложениях
 
Технология
 
TSMC 28nm объемный HKMG
• 3 Вт решение:
HVT / RVT / LVT
• Увеличение длины для каждого Vt
• BT имеет 10 металлический стек
• JG использует 11 металлический стек
- Stdcells блокирует большинство M2
- Дополнительный слой 2x добавлен, чтобы компенсировать потери треков
 
Обзор реализации
 
• Фокус на плотности
- Использование высокой плотность и 9 Track библиотеки
- Использование 1x металлов для увеличения маршрутизации ресурсов
- Реализация использования больших единиц для уменьшения случаев превышения границ
• Ядро имеет 1.25 миллиона экземпляров
• L2I имеет 0.6 миллиона экземпляров
• Стандартный дизайн авторазмещения и маршрутизации
• JG ядро имеет 2 уникальных пользовательских массивов
• Достигнутая частота кремния > 1.85Ghz
• Встроенное питание памяти
• Питание через юниты, ориентированные на перегруженность маршрутизации
 
План вычислительного юнита
 
План ядра
 
Силовое ядро
 
 
Массив пользовательской памяти
 
 
Силовое ядро памяти
 
 
Контурная IR-карта питания JG ядра
• Отображает худший случай во время динамического анализа IR
• Заголовок IR падает <20 мВ; общее падение IR в рамках проектных пределов
 
IR-карта вычислительных единиц
 
• ИК-карта отображает выделение областей с большими падениями
• Отображает худший случай во время динамического анализа IR
 
Обзор цепи
 
Уменьшение количества пользовательских массив из BT
- модуль RAM массива
- модуль ROM массива 
• Фокус на мобильности процесса
• Используется высокая скорость провалов в верхних критических путях
• Массивы используют предохранитель программирования для гибкости и повторного использования
 
Высокая скорость пиков
 
Предохранитель RAM
 
 
• Целью является повторное использование массива RAM, 51 экземпляр в JG ядре, 276 экземпляров в рамках вычислительного блока
• Использование предохранителя для настройки дизайна
 
Предохранители тайминга массивов
 
 
• FUSE1 (адрес чтения) и FUSE3 (Прочитанные данные)
использованы для модуляции половины цикла доступа / записи
• Эти предохранители контролируют программируемые клетки задержки и могут
быть установлены на макро экземпляры
 
Предохранители тайминга массивов чтения
 
• Четыре настройки для обоих наборов предохранителей
• Диапазон Задержки от 5-18% от тактового периода
 
Предохранитель хранителя данных
 
 
Включение сигнала хранителя может быть отложено до улучшения производительности или может быть превращено в состояние Always ON для улучшенной помехоустойчивости
 
Предохранитель широких импульсов
 
• Длительность импульса обрезается в соответствии с параметрами предохранителя
• Длительность импульса составляет ~ 50% от такта при настройках по умолчанию
• Длительность импульса регулируется путем объединения частоты записи и ее
задержки
• длительность импульса для не настройки по умолчанию является частотно
независимой
 
Распределение частоты CU-уровня
 
• Согласованние частоты задержки для всех конечных точек для минимизации задержки
• Частота каждого блока независимо закрыта для снижения динамического энергопотребления
• Поддерживается рабочая частота  L2D 1/2 без добавления дополнительных этапов
 
Дизайн DFS
 
• Разделение частоты для различных режимов работы
• Рабочий регулятор цикла для независимого управления рабочим циклом в каждом блоке
 
Основные распределения частоты и CTS
 
• Низкий скос рекомбинантной сетки дизайна
• Сетка управляется настраиваемыми пользовательскими клетками для большей управляемости
• Многоточечные CTS пункты
• Удаление неиспользуемых S1/S2 уровней
 
Методология таймингов
 
• Первичная оптимизация конструкции используется для увеличения скорости
и области
• Multi-Vt оптимизация создает множественное постразмещение для сокращения утечки
• Использование симуляции Монте-Карло для расчета понижения мощности
- Убеждение, что клетки с большим разбросом получают достаточный запас
- Убеждение, что для Si-критических путей устанавливается Low Vt
• Исключение клеток с сигма / среднее соотношением хуже, чем набор floor
- Разрешение работы при более низких напряжениях и ускорение сроков проведения
закрытия
 
Результаты кремния
 
Питание
 
• Динамическое
- Уменьшение количества частоты по сравнению с шипами BT
- Удаление неиспользуемых S1/S2 инверторов
- Перемещение таймеров к низкому Вт по сравнению с BT
- Закрытие L2 таймеров, когда к ним не обращаются
• Статическое
- Всегда включенный буфер позволяет использовать более длинные HVT
- использование Vt настроено в пользовательских массивов
- Измеренние кремния показывает, мощность закрытой утечки JG <10 мВт
 
Заключение
 
• "Ягуар" является первым объемным 28nm процессором AMD  
• четырехъядерный процессор с общим L2
• Значительно выше МПК и частота, чем у BT
• Устройство построено для повторного использования в нескольких SoC
• Разработка методов увеличения мобильности процесса
• Фокус на высокую плотность и меньшую площадь кристалла
• Низкое энергопотребление
• Конфигурируемый дизайнПервый 28nm четырехъядерный процессор AMD x86-64
• Создание юнита для развертывания в разнообразных системах на кристалле для различных
применений
• Охват широкого спектра приложений от 5W до 25W
• Достойный преемник ядра "Bobcat" x86-64

 

Изображения к материалу:

Чтобы написать здесь комментарий необходимо

КОММЕНТАРИИ: 0 СВЕРНУТЬ


    Нет комментариев. Ваш будет первым!




Система Orphus