Библиотека сайта rus-linux.net
Использование высокопроизводительных Linux-систем в крупномасштабных исследовательских проектах
Оригинал: "HPC Research Projects Find Muscle in Linux Lab Partner "Автор: Carla Schroder
Дата публикации: 08 June 2012
Перевод: Н.Ромоданов
Дата перевода: июнь 2012 г.
Linux и FOSS являются ключевыми игроками в области науки и исследований, и вместе они широко используются в крупнейших научно-исследовательских проектах в мире. Ниже описаны четыре проекта, в которых рассказано о четырех различных способах использования Linux в крупномасштабных исследованиях.
ЦЕРН прошел полный цикл
В начале - был ЦЕРН и там работал Тим Бернерс-Ли (Tim Berners-Lee), который затем изобрел World Wide Web и отдал его миру. У нас уже был Интернет, текст заполонял FidoNets, Nethacks, Usenets и CompuServe. World Wide Web все это приукрасил или сделал более доступным.
Затем появился Линус Торвальдс (Linus Torvalds) и его знаменитое объявление в группе новостей Usenet comp.os.minix от 25 августа 1991 года:
"Привет всем, кто использует minix -
Я делаю (бесплатную) операционную систему (просто хобби, она не будет такой большой и профессиональной, как gnu) для клонов 386 (486) AT".
Крошечному Linux не понадобилось много времени с тем, чтобы стать полезным, а системе Linux, открытому исходному коду и открытым сетевым протоколам — что стать причиной удивительного роста сети интернет. Конечно, эта история более запутана — в ней решающие роли сыграли Ричард Столлман (Richard Stallman), изобретатели языков программирования, UNIX, Тео де Раадт (Theo de Raadt), энтузиасты, поддерживающие дистрибутивы, а также многие другие.
Перенесемся на несколько лет вперед и увидим, что ЦЕРН теперь пожинает плоды своего вклада в подпитку всей этой удивительной творческой инициативы, и теперь в некоторых самых больших в мире вычислительных проектах полагается на Linux. ЦЕРН является пионером в распределенных вычислениях на сеточных вычислительных структурах (grid computing) и руководит проектом LHC Computing Grid (LCG). Это гигантская всемирная сеть, с помощью которой реализовано хранение и управление данными, получаемыми на Большом адронном коллайдере, который, как говорят, генерирует 15 петабайт данных в год. Программное обеспечение, поддерживающее работу среднего слоя системы, работает на Scientific Linux и может устанавливаться на других дистрибутивах, хотя оно было опробовано только на SL. В ЦЕРНе на более чем 50000 собственных серверах и рабочих станциях используюется как Scientific Linux, так и его собственные вариант Scientific Linux CERN.
Рис.1: Большой адронный коллайдер. Фото предоставлено Wikimedia Commons.
Мы, простые смертные, можем, благодаря проекту LHC@home, тоже принять участие.
CERN всегда был сторонником открытости: открытые стандарты, протоколы и открытый доступ к информации. Здесь следуют политике открытого доступа и здесь подписана Берлинская декларация.
BOINC
Открытая инфраструктура сетевых вычислений Беркли Berkeley Open Infrastructure for Network Computing (BOINC) является популярным программным обеспечением, реализующим средний слой для сеточных вычислительных структур (grid computing). Помните, когда "grid" или "сетка" было ключевым словом дня? Как быстро все меняется. Это программное обеспечение было создано для поддержки проекта SETI@Home и, конечно, оно было быстро взято на вооружение в других проектах. Как говорится на сайте BOINC: "Используйте время простоя вашего компьютера (Windows, Mac или Linux) для лечения болезней, изучения глобального потепления, открытия пульсаров и для многих других научных исследований". Просто установите и настройте BOINC, а затем выберите проект или несколько проектов, которые хотите поддержать. Некоторые из них звучат совершенно по-космически, например, Milkyway@home (млечный путь дома) и Orbit@home (орбита дома). Проект FreeHAL связан с искусственным интеллектом, а мировое сообщество World Community Grid (мировое соотбщенисво сеточных структур) проводит "гуманитарные исследования болезней, стихийных бедствий и голода". Основные пакеты уже должны быть в репозиториях дистрибутивов. Можно легко внести свой вклад в развитие науки.
Облачный Cloud BioLinux
Есть множество способов предоставления вычислительных ресурсов и ресурсов хранения данных для ресурсоемкого перемалывания данных их молотилок, обрабатывающих данных, и с помощью сервиса Cloud BioLinux облачные технологий направляются для анализа генома. В результате у нас появляется еще один тип облаков. У нас есть IaaS, т. е. Infrastructure as a Service — сервис инфраструктур. PaaS является Platform as a Service, т.е. сервисом платформ, и SaaS, Software as a Service — сервис программного обеспечения. Canonical предоставляет нам MaaS, Metal as a Service — железо и аппаратное обеспечение в качестве сервиса, и Джон Бекон (Jono Bacon) придумал ему ответвление Heavy Metal as a Service — сервис ХевиМеталл (конечно, шутка, но, возможно, хорошая). Облачный BioLinux можно назвать сервис науки - Science as a Service, Scaas.
Облачный BioLinux является бесплатным проектом, созданным сообществом и работающим на локальном компьютере или в сервисе Amazon Web Services (AWS). Предлагается несколько различных образов для установки: для VirtualBox, образ для Eucalyptus, инструментарий командной строки для AWS, и рабочий стол FreeNX в качестве полной настольной системы BioLinux (рис.2).
Рис.2: Облачный рабочий стол BioLinux
В руководстве пользователя, которое может оказаться полезным, дается несколько хороших советов по работе с сервисом Amazon EC2, имеющим гибкую ценовую политику, которая может кусаться в случае, если вы не понимаете, как она работает. С вас взымается плата до тех пор, пока работает ваш экземпляр сервиса, который может работать и после того, как вы выйдите из системы. Для того, чтобы остановить счетчик, вы должны остановить свой экземпляр сервиса. После завершения работы сервиса исчезает все - системное программное обеспечение и данные. Другая маленькая ловушка заключается в том, что если у вас почасовая оплата и вы запустили свой экземпляр сервиса с 8:55 и по 9:05, то вы получите счет за два часа. Мораль: расценки EC2 описаны хорошо и есть ряд параметром, поэтому убедитесь, что вам известно, что вы используете.
Техасский компьютерный центр передовых исследований
Системы высокопроизводительные вычислений High Performance Computing (HPC) Systems при Университете штата Техас в Остине имеют два из самых крупнейших в мире кластеров Linux. (Самые большие, вероятно, Google и Facebook). В одном кластере используется аппаратура Sun Constellation, а в другой кластер представляет собой конгломерат серверов PowerEdge от Dell. Оба кластера являются блейд-системами.
Кластер фирмы Sun называется Ranger, замечательное миролюбивое имя для компьютера, похожего на мамонта. В нем 3936 узлов, 62 976 ядер, 123 ТБ памяти и его производительность 579,4 терафлопа в секунду. Это 579400000000000 операций в секунду. Бьюсь об заклад, что на нем Tux Racer летает быстрее мухи. Операционная система - CentOS Linux.
Название системы Dell - Lonestar. Она немного слабее, чем система Ranger: 22 656 ядер, 44 ТБ памяти и производительность только 302 терафлопа в секунду. В обоих кластерах есть сеть über InfiniBand и используется высокопроизводительная распараллеливаемая распределенная файловая система Lustre. Везде в гигантских системах используется файловая система Lustre: в крупных центрах обработки данных, суперкомпьютерах и у провайдеров интернет-услуг. Lustre — еще одно достижении инженерии фирмы Sun Microsystems.
90% ресурсов систем Ranger и Lonestar предназначены для консорциума Extreme Science and Engineering Discovery Environment (XSEDE). Этот консорциум объединяет 16 суперкомпьютеров и мощных систем визуализации и анализа данных, расположенных в США и предназначенных для поддержки научных исследований. Они объединены сетью XSEDENet с пропускной способностью 10 Гбит/сек.