Наши партнеры

Мои книги

"OpenOffice.org - открытый офис для Linux и Windows"

"Свободная система для свободных людей (обзор истории операционной системы Linux)"

"Система виртуальных машин фирмы VMWARE"

Библиотека сайта rus-linux.net

Сборка сервера под высоконагруженные задачи: железо, архитектура, надёжность

Серверное железо — это не просто «мощный десктоп». Архитектура, выбор платформы и баланс компонентов здесь куда важнее, чем в пользовательских системах. Самое частое заблуждение — гнаться за тактовой частотой процессора. В серверных задачах куда важнее количество ядер, объём кэша L3 и пропускная способность шины памяти.

Прежде чем выбирать конкретные компоненты, полезно посмотреть, как формируются готовые GPU сервера под разные нагрузки — это помогает понять логику подбора: почему под ML берут одну платформу, а под CAD — другую, и как меняется состав системы в зависимости от задачи.

Процессор: EPYC против Xeon

AMD EPYC в последних поколениях уверенно доминирует в большинстве серверных бенчмарков. Большое количество ядер (до 128 на сокет в Genoa), поддержка 12-канальной памяти и высокая пропускная способность PCIe 5.0 делают его фаворитом для задач ML, виртуализации и больших баз данных. Архитектура chiplet позволяет масштабировать производительность линейно — особенно ценно при плотной виртуализации.

Intel Xeon Scalable сохраняет преимущества в ряде специализированных задач — SAP HANA, некоторых финансовых вычислениях и сценариях с низкой задержкой в однопоточных операциях. Встроенные ускорители Intel AMX и QAT дают преимущество в специфических нагрузках.

Двухпроцессорные конфигурации на EPYC — оптимальный выбор для максимального масштабирования: до 256 ядер и 12 ТБ оперативной памяти в одном сервере при правильном подборе платформы.

Оперативная память: ECC и объём

В серверах используется память с поддержкой ECC — исправления одиночных битовых ошибок и обнаружения двойных. Это критически важно для СУБД, медицинских расчётов, финансовых систем — там, где недопустимы сбои. Registered DIMM (RDIMM) позволяют набирать большие объёмы без снижения стабильности — то, что невозможно на десктопных платформах.

Частота памяти влияет не только на задержки, но и на пропускную способность — особенно в задачах с высоким параллелизмом. Под ML-задачи рекомендуется не менее 512 ГБ RAM при конфигурации с 8 GPU — иначе CPU-часть пайплайна становится узким местом при загрузке данных.

Хранилище: NVMe, SAS и смешанные пулы

Для операционной системы и горячих данных — NVMe в RAID 1, предпочтительно с Enterprise-сертификацией. Для хранения больших датасетов и архивов — SAS-массивы с RAID 6 обеспечивают надёжность при разумной стоимости гигабайта.

Смешанный пул с NVMe в качестве кэш-уровня и SAS/SATA для холодного хранения — классическое решение, хорошо зарекомендовавшее себя в production. ZFS или LVM-cache позволяют управлять таким пулом без специализированного RAID-контроллера. Под базы данных OLTP All-Flash на NVMe — единственный разумный выбор для высокого IOPS.

Сеть и интерконнект

Для одиночного сервера достаточно 10GbE. При построении кластера — 25GbE или InfiniBand, особенно при передаче больших объёмов данных между узлами при распределённых вычислениях. Разница между 10GbE и InfiniBand HDR по производительности распределённого обучения может быть кратной.

Отдельная сеть управления через IPMI или BMC — обязательный элемент. Она позволяет перезагрузить, переустановить систему и диагностировать железо без физического доступа — критично для удалённых дата-центров и ночных инцидентов.

Резервирование и отказоустойчивость

Горячая замена дисков и блоков питания минимизирует простой при обслуживании. Резервный PSU в схеме 1+1 — стандарт для production. Дублирование сетевых интерфейсов с bonding закрывает риски от выхода из строя порта или кабеля.

Мониторинг через IPMI (температуры, SMART дисков, ошибки памяти) позволяет предсказывать отказы до того, как они произошли. Интеграция с Zabbix или Prometheus через IPMI/Redfish — стандартная практика зрелых команд эксплуатации.