что такое резервирование времени

Риски ЦОД: резервирование инженерных систем

Начинать чинить надо, пока не сломалось — сломанное поддаётся ремонту гораздо неохотней.
Юрий Татаркин

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времениПосле того как обеспечены надежные стены и крыша над головой для ЦОД (статья «Риски ЦОД: выбираем месторасположение»), следующим шагом на пути обеспечения его отказоустойчивости должно стать резервирование инженерных систем. Строя дата-центры более 10 лет, мы убедились, что не все заказчики в полной мере осознают важность дублирования основных коммуникаций. Космические корабли и те падают, а оборудование в ЦОД в идеале должно работать 365 дней в году и 24 часа в сутки. Любая вышедшая из строя или нуждающаяся в профилактике деталь должна быть заменена без остановки работы всех критичных сервисов.

Как справедливо отметили наши читатели, далеко не всем компаниям нужен надежный ЦОД. Для некоторых его бесперебойная работа не предмет переживаний, а многие предпочтут хранить свои данные в публичном облаке. Данный паблик предназначен в большей степени для тех, кто по тем или иным соображениям безопасности или проходимости каналов связи сделал свой выбор в пользу собственного дата-центра и работы сервисов с уровнем доступности не менее трех девяток (простоя не более 1,6 часов в год).

Отказоустойчивость и резервирование: что говорит мировой опыт?

Согласно стандартам Uptime Institute выделяют четыре уровня отказоустойчивости инфраструктуры ЦОДа:

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времени
Использование классификации Tier подразумевает, что все инженерные системы и компоненты ЦОД, вплоть до запаса топлива для дизель-генератора, воспринимаются как единое целое. Наличие хотя бы одного нерезервированного компонента приводит к снижению уровня отказоустойчивости и увеличению возможных часов простоя ЦОД. Количество таких компонентов, а также статистика по плановым и внеплановым отказам дата-центров в год влияют на допустимое время простоя. Например, для ЦОД уровня Tier I характерно внеплановое отключение 1,2 раза в год. Плюс, из-за отсутствия резервных систем дата-центр не будет работать еще два раза по двенадцать часов во время планового обслуживания. В итоге суммарное время простоя будет рассчитываться как: 12+12+4х1,2=28,8 часов.

Для расчета уровня отказоустойчивости в процентах нужно: ((t работы — t простоя )×100%)/ t работы, где
t работы – максимальное количество часов работы ЦОД в год (24 часа в сутки 365 дней в году).
t простоя – это время планового простоя ЦОД в год.

Классифицируя способы резервирования, принято выделять следующие схемы: N+1, 2N и 2(N+1). Применение схем N+1 и N+2 по сравнению с 2N дают значительную экономию бюджета и при неплохом уровне отказоустойчивости (разом все элементы системы вряд ли выйдут из строя). Однако, нужно помнить, что с ростом числа рабочих единиц (N), согласно теории вероятности, доступность системы ухудшается. В ситуации большого количества элементов (большого N, например, источников бесперебойного питания) уместнее использовать схему 2N, когда каждый компонент системы полностью задублирован. Это позволит в разы увеличить отказоустойчивость и снизить время простоя. В то же время, ни N+1, ни 2N не резервируют систему в целом, а потому не исключают опасность аварии на участке между зарезервированными элементами системы. Поэтому Tier IV рекомендует использовать 2 независимые схемы, каждая из которой полностью задублирована, 2(N+1).

Неиссякаемая энергия

Основой надежной работы ЦОД является электроснабжение: бесперебойное (источники бесперебойного питания – ИБП) и гарантированное (дизель-генераторные установки – ДГУ). В момент исчезновения напряжения городской сети ИБП должны поддержать питание оборудования до полного запуска ДГУ, который сможет обеспечить электроэнергией весь ЦОД.
Для того чтобы ЦОД не встал в отсутствии электроснабжения, крайне важно, во-первых, зарезервировать ИБП, а, во-вторых, проводить регулярные сервисные работы.

К каким рискам может привести наличие только одного ИБП – в целом понятно. В лучшем случае мы не сможем провести тестирование источника, в худшем – получим простой ЦОД. Но порой даже наличие нескольких ИБП не дает свободу действий. Так в одной организации источников в ЦОДе было два, но каждый питал только свою группу серверов, а не служил резервом друг для друга. При проведении технического обслуживания у сервис-инженера прихватило спину. Падая, он каким-то образом умудрился обесточить выход ИБП. И, по закону подлости, выключившийся в разгар рабочего дня источник обесточил группу серверов с наиболее критичными приложениями.

«Боевой» запуск дизель-генератора (ПБ) – проверка возможности запуска дизель-генератора в автоматическом режиме при пропадании внешней сети. Производится с помощью имитации полного отключения внешнего питания ЦОД. Время от отключения питания до запуска дизель-генератора серверное оборудование работает от батарей ИБП (обычно 1-3 минуты).

Запуск дизель-генератора под нагрузкой (ПН) – проверка способности дизель-генератора поддерживать питание подключенного к нему оборудования. Производится ручным переключением нагрузки на генератор (с помощью панели управления) после его запуска и выхода на нормальную работу. На время переключения АВР серверное оборудование работает от батарей ИБП (около 0,3-1 сек.). Кстати, для переключения нагрузки на ДГУ лучше использовать мотор-приводы, они хоть и работают медленнее, но срок службы и надежность у них выше.

Для предотвращения нежелательных простоев нужны регулярные комплексные сервисные работы. В одном из ЦОД проверки проводились только в отношении ДГУ. ИБП исправно показывал 10 минут автономии, но его никто не обслуживал. Возраст батарей к тому времени перевалил за 5 лет, и во время одного из боевых запусков они смогли проработать лишь 29 секунд. В то время как ДГУ завелась и смогла принять на себя нагрузку спустя только 33 секунды. Ко всему прочему, все оборудование было запитано от одного ИБП (от второго было решено отказаться еще на этапе реализации из-за бюджетных ограничений). В итоге – падение ЦОД. Полное восстановление всех вычислительных систем заняло около 12 часов.

Основные ошибки:
• Отказ на стадии реализации от второго ИБП. Трудные времена закончились, но второй ИБП так и не был приобретен.
• Отсутствие комплексного обслуживания всех инженерных систем ЦОД. При регулярном сервисном обслуживании ИБП об их неудовлетворительном состоянии стало бы известно заранее.
• Отсутствие регламентов планового обслуживания ЦОД и хаос при его эксплуатации.

Пути миграции тока

Ваши ИБП зарезервированы и вы регулярно их обслуживаете? Молодцы, но не вздумайте на этом останавливаться! Зарезервируйте еще и кабельные линии электроснабжения ЦОД, и установите 2 АВР, которые полностью резервируют друг друга. В идеале, они должны быть подключены к разным независимым электрощитам. В крайнем случае можно протянуть две линии и от одной щитовой, чтобы не получилось ситуации, как у одного из наших заказчиков.

При внедрении системы диспетчеризации в небольшой, но значимый ЦОД необходимо было поставить трансформаторы тока на основной ввод. Проблема была в том, что ввод был только один, а обесточить дата-центр было нельзя. После всех подготовительных работ питание было отключено. Пока оборудование ЦОД работало от батарей, монтажники трудились не покладая рук, а инженер, вытирая пот со лба, считал минуты на дисплее ИБП.

Основные ошибки:
• Система диспетчеризации была незаслуженно забыта при проектировании.
• Линия питания ЦОД не была зарезервирована.

Стало жарко

Система «чиллер-фанкойл» – система кондиционирования воздуха, в которой теплоносителем между центральной холодильной машиной (чиллером) и локальными теплообменниками (фанкойлами) служит охлажденная жидкость, циркулирующая под относительно низким давлением – обыкновенная вода (в тропическом климате) или водный раствор этиленгликоля (в умеренном и холодном климате).

Не стоит забывать и о резервировании систем кондиционирования. За последние два месяца довелось увидеть два проекта охлаждения ЦОД с использованием системы чиллер-фанкойл без резервирования трассы между чиллерами и сухими охладителями. Использование данного решения в реальной жизни с высокой долей вероятности приводит к простою ЦОД. В случае замены теплоносителя (что не редкость), только резервная трасса может сохранить работоспособность системы охлаждения, а значит и всего дата-центра.

Еще очень важный момент – разделение внешнего и внутреннего контуров охлаждения. Так в одном проекте на кровле седьмого этажа предлагалось установить два двухтонных чиллера, бак аккумулятор холода, мощную подкачивающую насосную станцию. Подача и обратка длиной двести метров была запланирована напрямую с крыши до блоков охлаждения в ЦОД, который находился в цоколе. В итоге, при даже небольшом прорыве трубы или неплотных соединениях внутренних блоков охлаждения все десять тонн этиленгликоля под давлением могли затопить ЦОД и электрощитовую заказчика.

Не забывайте о резервировании не только вычислительного оборудования, но и основных инженерных систем, и пусть ваш ЦОД работает вечно!

Источник

Как сделать недорогую, но надежную систему единого времени на предприятии

Для чего нужно точное время?

Из функций, которые позволяет выполнять сервер времени, можно назвать корректное формирование хронологии событий в системах управления для ведения соответствующих логов, журналов, архивирования информации, построения трендов, графиков и пр.

В системах видеонаблюдения таймсервер обеспечивает привязку отснятых видеозаписей к астрономическому времени. Также устройство позволяет безошибочно сопоставлять информацию от разных информационных систем на предприятии. Например, это могут быть системы видеонаблюдения и системы безопасности, такие как СКУД, системы РЗА и независимые системы телемеханики и пр.

Ряд протоколов информационного обмена используют метки времени напрямую в составе пакетов передаваемых данных. К таким протоколам можно отнести МЭК-101/104, применяемые в современных системах телемеханики.

Одним из важных требований, предъявляемых в ряде промышленных приложений, являются требования информационной безопасности, исключающие выход в Интернет для выполнения функции синхронизации времени.

В силу своей простоты и ряда исторических причин для решения задачи синхронизации времени наибольшее распространение получил протокол NTP. В качестве NTP-клиентов на предприятии, помимо серверов, архивных и операторских станций систем управления, могут выступать контроллеры и HMI-панели, сетевое оборудование систем связи (управляемые коммутаторы, маршрутизаторы и пр).

Протокол NTP

Network time protocol (NTP) — это сетевой протокол для синхронизации часов в компьютерных системах по сетям передачи данных с коммутацией пакетов и переменной задержкой (латентностью). Высокая популярность протокола объясняется активным развитием систем на основе Ethernet. Одним из ключевых преимуществ протокола является возможность передачи меток времени непосредственно по сети передачи данных, что позволяет отказаться от отдельной шины точного времени, как например в системах 1PPS или IRIG–B. Протокол был разработан в 1985 году и является одним из старейших Интернет-протоколов, используемых в настоящее время.

NTP обеспечивает приемлемую точность синхронизации для большинства приложений. Протокол может поддерживать время с точностью до десятков миллисекунд в сети Интернет и до 0,2 мс в локальных сетях при идеальных условиях. Асимметричные маршруты передачи данных и перегрузка сети могут привести к ошибкам в 100 мс и более.

NTP синхронизирует устройства относительно всемирного координированного времени (UTC). При этом протокол учитывает появление високосной секунды в результате неравномерности вращения Земли, но никакой информации о местных часовых поясах или переходе на летнее время не передает.

Структура системы

NTP использует иерархическую систему источников точного времени. Каждый уровень иерархии называется Stratum (стратой, слоем) и ему присваивается номер, начинающийся с 0 для эталонных часов на вершине иерархии. Сервер времени на слое N синхронизируется от серверов на уровне N-1. Число N представляет собой расстояние от эталонных часов и используется для предотвращения цикличности в процессе синхронизации. Stratum не всегда является показателем качества или надежности. Например, можно найти источники времени на слое 3, которые имеют более высокое качество, чем источники времени на слое 2.

В качестве эталонных часов на Stratum 0 выступают системы спутниковой навигации (ГЛОНАСС, GPS и пр.), атомные часы или радиопередатчики. Раз в секунду они генерируют импульсный сигнал (1PPS), который вызывает прерывание и генерирует метку времени на подключенных устройствах. Устройства слоя 0 также известны как опорные часы. Серверы NTP не могут позиционировать себя в системе как Stratum 0. Если в пакете передачи данных в поле Stratum установлен 0, это указывает на неопределенный слой.

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времени
Логическая структура системы синхронизации на основе NTP

На этом слое находятся устройства, системное время которых синхронизировано с точностью до нескольких микросекунд от эталонных часов. Серверы времени на этом уровне могут работать в одноранговом режиме с другими серверами Stratum 1 для резервирования и проверки точности. Их также называют первичными серверами времени.

Это устройства, которые синхронизируются по сети от серверов уровня 1. Часто устройства уровня 2 опрашивают несколько серверов уровня 1. Компьютеры Stratum 2 также могут быть одноранговыми с другими компьютерами Stratum 2, чтобы обеспечить более стабильное и надежное время для всех устройств в группе одноранговых узлов.

Максимальное теоретическое число слоев равно 15; Stratum 16 используется для указания того, что устройство не синхронизировано. Механизмы протокола NTP на каждом устройстве системы взаимодействуют таким образом, чтобы построить кратчайший путь к серверам Stratum 1 для всех клиентов. Это позволяет минимизировать накопленную задержку в передаче данных и повысить точность синхронизации. В основе алгоритма построения связующего дерева с минимальной длиной пути лежит алгоритм Беллмана-Форда.

Метки времени

Последняя версия протокола NTPv4 вводит 128-битный формат представления времени: 64 бита для секунд и 64 бита для долей секунды, что дает временную шкалу более 584 млрд лет и разрешение в 0,05 аттосекунд. Дополнительно было введено 32-битное поле номера эры, которое устранило даже ставшей теоретической проблему окончания каждой эпохи.

Алгоритм синхронизации часов

Клиент NTP регулярно опрашивает один или несколько серверов. При этом он вычисляет смещение времени и круговую задержку. Смещение времени θ представляет собой разницу в абсолютном времени между часами сервера и клиента и определяется по формуле:

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времени

Круговая задержка δ определяется как время передачи сигнала по линиям связи от клиента к серверу и обратно. Это время, затраченное на отправку сигнала, плюс время, которое требуется для подтверждения, что сигнал был получен:

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времени

где t0 — метка времени клиента для передачи пакета запроса,
t1 — метка времени сервера приема пакета запроса,
t2 — метка времени сервера для передачи ответного пакета,
t3 — метка времени клиента приема ответного пакета.

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времени
Алгоритм расчета смещения времени и круговой задержки

Вычисляемые значения θ и δ пропускаются через фильтры и подвергаются статистическому анализу. Выбросы из общей выборки отбрасываются и оценка временного смещения производится на основе оставшихся значений. Зная величины смещения времени и круговую задержку клиент подстраивает собственное время, чтоб добиться θ равного нулю.

Точная синхронизация достигается, когда входящие и исходящие маршруты между клиентом и сервером симметричны, то есть имеют одинаковую задержку. Если маршруты несимметричны, то существует систематическое смещение в половину разницы между временем передачи пакета от клиента к серверу и обратно.

Механизмы передачи

В большинстве случаев протокол NTP использует классическую клиент-серверную модель работы, в которой клиент отправляет запрос и через некоторое время получает ответ от сервера. Однако протокол допускает работу и в одноранговых системах, где два одноранговых узла (peer) рассматривают друг друга как потенциальный источник времени. Этот режим работы также называют симметричным. Для сетевого взаимодействия NTP использует протокол UDP, по умолчанию работая на порту 123. Для передачи данных могут быть использованы различные механизмы – unicast, broadcast, multicast и manycast.

Протокол NTP для передачи данных чаще всего использует режим Unicast. В этом режиме данные передаются от одного устройства сети к другому индивидуально. В Unicast пакетах в качестве IP-адреса назначения используется конкретный адрес устройства, для которого этот пакет предназначен.

Этот режим удобен в тех случаях, когда малое количество NTP-серверов обслуживает большое количество клиентов. В этом режиме сервер периодически рассылает пакеты, используя широковещательный адрес подсети. Клиент, настроенный на синхронизацию таким способом, получает широковещательный пакет сервера и производит синхронизацию с ним.

Этот режим имеет ряд особенностей. Во-первых, режим Broadcast обеспечивает меньшую точность синхронизации по сравнению с Unicast. Во-вторых, широковещательные пакеты могут передаваться только в рамках одной подсети. Кроме того, для защиты от злоумышленников желательно использовать методы аутентификации.

Режим Multicast работает аналогично Broadcast. Разница заключается в том, что для доставки пакетов используется не широковещательный адрес подсети, а адрес Multicast-группы. Для клиентов и серверов задается групповой IP-адрес, который они используют для синхронизации времени. Это делает возможным синхронизацию групп машин, расположенных в различных подсетях, при условии, что соединяющие их маршрутизаторы поддерживают протокол IGMP и настроены на передачу группового трафика.

Этот режим является нововведением последней версии (v4) протокола NTP. Режим Manycast функционирует как режим Multicast только с неизвестными IP-адресами серверов NTP. Путем рассылки Multicast-сообщений клиент ищет в сети Manycast-сервера, получает от каждого из них образцы времени и производит выбор трех «лучших», с которыми будет производить синхронизацию. В случае выхода из строя одного из серверов клиент автоматически обновляет свой список.

Для передачи образцов времени клиенты и серверы, работающие в Manycast-режиме, также используют адреса Multicast-групп. Клиенты и серверы, использующие один и тот же адрес, формируют одну ассоциацию. Количество ассоциаций определяется количеством используемых Multicast-адресов.

Версии протокола

С момента своего появления в 1985 года протокол начал активно развиваться и уже к 1992 году сменил четыре версии (от NTPv0 до NTPv3). Каждая новая версия добавляла функционал и оптимизировала его работу, но оставляла неизменным формат данных и сохраняла совместимость различных версий между собой. Последняя четвертая версия протокола датирована 2010 годом. NTP продолжает развитие и в наши дни, ведутся работы по созданию решения, технически схожего с более точным протоколом PTP (Precision Time Protocol).

Одновременно с NTPv3 в 1992 году была представлена более простая версия протокола – SNTP (Simple NTP). В протоколе SNTP используется одинаковый с протоколом NTP формат передачи и представления данных. При этом SNTP не касается алгоритмов работы сервера, а упрощает алгоритмы работы клиентов. Именно поэтому протокол чаще всего используется во встраиваемых системах и устройствах, не требующих высокой точности.

Разница между NTP и SNTP заключается в методах определения оптимальных серверов для синхронизации и методе коррекции времени. Так NTP позволяет клиенту использовать математический алгоритм пересечений (переработанную версию алгоритма Марзулло) для выбора нескольких лучших серверов в сети и плавно корректировать свое время. В SNTP для синхронизации используется один предопределенный NTP сервер, в то время как другие могут являться лишь резервными на случай потери связи с основным устройством. При этом клиент, использующий SNTP, способен корректировать время только скачком по факту получения ответа от сервера.

Типовая схема системы синхронизации и ее недостатки

Традиционно система точного времени на промышленных объектах строится на основе NTP-сервера, состоящего из головного устройства, монтируемого в одном шкафу с сетевым оборудованием, и выносной антенны, которая устанавливается на улице и подключается к серверу при помощи коаксиального кабеля. При этом на головном устройстве имеется несколько сетевых интерфейсов (Ethernet или RS-232/485) для подключения клиентов в одной или нескольких сетях.

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времени
Типовая схема системы точного времени

Если посмотреть на это решение более внимательно, то в нем можно выделить несколько недостатков. Во-первых, в такой системе отсутствует полноценное резервирование. Несмотря на то, что головное устройство обладает несколькими сетевыми интерфейсами и способно обеспечивать точное время в нескольких сетях, его сбой или выход из строя приведет к потере источника точного времени на всем объекте. Полное же резервирование головного устройства в подобном решении сделает без того дорогую систему синхронизации еще дороже.

Вторым недостатком можно назвать необходимость установки сервера времени в шкафу. Для больших проектов это не является минусом, но для небольших локальных систем управления это может стать серьезной проблемой.

Также к недостаткам можно отнести необходимость применения выносной антенны и коаксиального кабеля. Почему? Прежде всего, стоимость качественной GPS/ГЛОНАСС антенны с длинным кабелем и защитой от грызунов легко может перевалить за 10 000 руб. в ценах 2020 года. При этом коаксиальные кабели имеют ограниченную длину для передачи сигналов спутниковых систем. При длине более 50 м сигнал будет значительно затухать, что является серьезным ограничивающим фактором в больших зданиях.

Главным же недостатком традиционного подхода в создании систем синхронизации является его высокая стоимость (часто более 150 000 рублей), что существенно сказывается на смете не только небольших проектов, но и вполне крупных.

Как сделать систему дешевле и надежнее

Безусловным трендом современных технологий является создание более компактных и простых для пользователя электронных устройств. В этом плане сервера точного времени не являются исключением.

Всё решение, связанное с системой синхронизации, включая GPS/ГЛОНАСС антенну, может уместиться в небольшую коробочку, как это сделано в
FL TIMESERVER от Phoenix Contact. Устройство выполнено по принципу smart-антенны, то есть совмещает в себе непосредственно функционал сервера времени и антенну GPS/ГЛОНАСС приемника. Конструктивное исполнение – это единственное, что отличает его от привычных решений.

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времени
Сервер времени FL TIMESERVER NTP

В плане функционала никаких отличий нет: устройство способно принимать метки времени и данные геолокации от спутниковых систем навигации (ГЛОНАСС, GPS) и транслировать эту информацию для клиентов в сети Ethernet.

что такое резервирование времени. Смотреть фото что такое резервирование времени. Смотреть картинку что такое резервирование времени. Картинка про что такое резервирование времени. Фото что такое резервирование времени
Система точного времени на основе решения Phoenix Contact

При использовании подобного решения система синхронизации значительно упрощается и позволяет избавиться от недостатков традиционного подхода. FL TIMESERVER имеет только один порт Ethernet, но при необходимости использовать несколько интерфейсов достаточно подключить его в коммутатор или же использовать несколько smart-антенн. В этом случае мы получим полноценное резервирование серверов времени, а не только его сетевого интерфейса. При этом конечное решение все равно окажется дешевле многих существующих аналогов. FL TIMESERVER можно вынести за пределы сетевого шкафа или шкафа автоматизации, сэкономив место внутри. В этом решении не требуется отдельная антенна, здесь она уже встроена и к сети предприятия мы можем подключаться обычным Ethernet кабелем. В свою очередь это позволяет вынести сервер времени на расстояние до 100 м от основного оборудования без опасения, что сигнал затухнет. Самым главным преимуществом подобного решения является совсем другой порядок цен. Стоимость одного сервера времени менее 300 евро, что делает его удобным в применении как в небольших, так и в крупных проектах.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *