Обсуждение статьи iXBT.com: "Процессоры Intel Sandy Bridge — �

Ilya Albrekht
не понятно откуда берётся ограничение в 4 мопа за такт — это не жёсткое ограничение, а разумное. Если в П3 и П-М между декодером и планировщиком не было никакого буфера, то какой смысл генерировать более 3-х мопов/такт, а уж тем более 6-7?

не понятно как декодер определит как надо уложить команды на декодеры чтобы на выходе получилось не более 4х мопов за такт (хотя тут может помочь ILD, в случае если он может сказать сколько мопов породит каждая команда) — именно. Предекодер также является классификатором, определяющим сложность команды и ещё несколько параметров (например, является ли она сериализующей).

декодер может декодировать больше, но держать некое количество мопов в своих буферах — у самого декодера буфера нет, но если он таки может вытаскивать до 6(7) мопов/такт, то встаёт вопрос, а куда деваются остальные после 3(4)-го на ЦП до Core2 (Nehalem).

как тогда понимать фразу — Олег, возможно, взял её у Фога, а вот как тот получил цифру 4, причём аж для П-Про, у которого PMC было с гулькин нос — фиг знает. По идее, между декодером и разместителем должен был быть буфер как минимум в 6 мопов, чтобы разместить мопы, которые не могут быть приняты на переименование — полагая, что можно декодировать до 6 мопов/такт, а принимать от нуля (если ROB полон). Ни в одном описании всех вариантов архитектуры P6 нет указания на такой буфер.

Или "обработать" не включает в себя "записать в IDQ" — у П3 не было IDQ

В принципе, начиная с Nehalem записать 7 мопов/такт в IDQ можно (в SB — ещё и в 18-моповый буфер записи L0m). Выше я написал, как это проверить, если есть PMC с событием типа «переполнение IDQ».

Означает ли это, что сложный декодер выдат первые четыре мопа за 1й такт (в предположении декодер может выдавать только 4 пома за такт) и микросиквенсер выдаст оставшиеся 1-3 мопа в следующем такте? — если этой команде всего требуется 5-7 мопов, то да. Секвенсер может и 4/такт выдать. По сути максимальная производительность декодера могла бы быть 4+4+4*1 мопов, если бы секвенсер, сложный транслятор и 0-й простой транслятор могли работать одновременно. А так получается максимум 7.

In both Sandy Bridge and Nehalem, the decoders can emit at most 4 uops per cycle - no matter what mix of instructions are being decoded — ага, т.е. есть вероятность, что декодер в Nehalem был по сути ухудшен по макс. IPC относительно Core 2 (если там было 7)

Но это надо уточнить.

или до 7 мопов за 2 такта в случае "супер сложной" инструкции — если вы имеете ввиду микрокодовую, то и 8 за 2 такта будет. 4 за первый из транслятора и 4 за второй из ПЗУ. Есть команды, требующие десятков мопов.

"Выплёвывает" в IDQ тока по 4 мопа за такт — на данный момент у меня есть в этом сомнение