Библиотека сайта rus-linux.net
Сборка сервера под высоконагруженные задачи: железо, архитектура, надёжность
Серверное железо — это не просто «мощный десктоп». Архитектура, выбор платформы и баланс компонентов здесь куда важнее, чем в пользовательских системах. Самое частое заблуждение — гнаться за тактовой частотой процессора. В серверных задачах куда важнее количество ядер, объём кэша L3 и пропускная способность шины памяти.
Прежде чем выбирать конкретные компоненты, полезно посмотреть, как формируются готовые GPU сервера под разные нагрузки — это помогает понять логику подбора: почему под ML берут одну платформу, а под CAD — другую, и как меняется состав системы в зависимости от задачи.
Процессор: EPYC против Xeon
AMD EPYC в последних поколениях уверенно доминирует в большинстве серверных бенчмарков. Большое количество ядер (до 128 на сокет в Genoa), поддержка 12-канальной памяти и высокая пропускная способность PCIe 5.0 делают его фаворитом для задач ML, виртуализации и больших баз данных. Архитектура chiplet позволяет масштабировать производительность линейно — особенно ценно при плотной виртуализации.
Intel Xeon Scalable сохраняет преимущества в ряде специализированных задач — SAP HANA, некоторых финансовых вычислениях и сценариях с низкой задержкой в однопоточных операциях. Встроенные ускорители Intel AMX и QAT дают преимущество в специфических нагрузках.
Двухпроцессорные конфигурации на EPYC — оптимальный выбор для максимального масштабирования: до 256 ядер и 12 ТБ оперативной памяти в одном сервере при правильном подборе платформы.
Оперативная память: ECC и объём
В серверах используется память с поддержкой ECC — исправления одиночных битовых ошибок и обнаружения двойных. Это критически важно для СУБД, медицинских расчётов, финансовых систем — там, где недопустимы сбои. Registered DIMM (RDIMM) позволяют набирать большие объёмы без снижения стабильности — то, что невозможно на десктопных платформах.
Частота памяти влияет не только на задержки, но и на пропускную способность — особенно в задачах с высоким параллелизмом. Под ML-задачи рекомендуется не менее 512 ГБ RAM при конфигурации с 8 GPU — иначе CPU-часть пайплайна становится узким местом при загрузке данных.
Хранилище: NVMe, SAS и смешанные пулы
Для операционной системы и горячих данных — NVMe в RAID 1, предпочтительно с Enterprise-сертификацией. Для хранения больших датасетов и архивов — SAS-массивы с RAID 6 обеспечивают надёжность при разумной стоимости гигабайта.
Смешанный пул с NVMe в качестве кэш-уровня и SAS/SATA для холодного хранения — классическое решение, хорошо зарекомендовавшее себя в production. ZFS или LVM-cache позволяют управлять таким пулом без специализированного RAID-контроллера. Под базы данных OLTP All-Flash на NVMe — единственный разумный выбор для высокого IOPS.
Сеть и интерконнект
Для одиночного сервера достаточно 10GbE. При построении кластера — 25GbE или InfiniBand, особенно при передаче больших объёмов данных между узлами при распределённых вычислениях. Разница между 10GbE и InfiniBand HDR по производительности распределённого обучения может быть кратной.
Отдельная сеть управления через IPMI или BMC — обязательный элемент. Она позволяет перезагрузить, переустановить систему и диагностировать железо без физического доступа — критично для удалённых дата-центров и ночных инцидентов.
Резервирование и отказоустойчивость
Горячая замена дисков и блоков питания минимизирует простой при обслуживании. Резервный PSU в схеме 1+1 — стандарт для production. Дублирование сетевых интерфейсов с bonding закрывает риски от выхода из строя порта или кабеля.
Мониторинг через IPMI (температуры, SMART дисков, ошибки памяти) позволяет предсказывать отказы до того, как они произошли. Интеграция с Zabbix или Prometheus через IPMI/Redfish — стандартная практика зрелых команд эксплуатации.
/files/upload/iblock/bee/beef480dd36f938d8040badd3becec36.png)
