что такое инфраструктура данных
Что такое ИТ-инфраструктура
В общем смысле ИТ-инфраструктура — это комплекс взаимосвязанных компонентов, с помощью которого можно организовать информационную среду и управлять ей.
Если у вас дома есть хотя бы один компьютер, который подключен к интернету, значит у вас уже есть домашняя ИТ-инфраструктура. На уровне компании ИТ-инфраструктура включает компоненты, которые нужны для внутреннего взаимодействия и предоставления сервиса.
Из чего состоит
Инфраструктура информационных технологий может состоять из следующих компонентов:
Компоненты объединяются в три базовые группы: сеть, аппаратное и программное обеспечение. Рассмотрим их подробнее.
Аппаратная часть
Аппаратное обеспечение — это физическая часть всей платформы. Помимо серверов, компьютеров или маршрутизаторов, сюда входят и те элементы, которые помогают поддерживать функционирование машин и устройств. К таким элементам можно отнести элементы питания, охлаждения, коммутации, а также помещения, которые под них выделены.
Основным элементом является сервер. Он позволяет сотрудникам использовать ресурсы совместно. В качестве сервера может выступать офисный или игровой компьютер, но его комплектующие недостаточно надёжны, так как не рассчитаны на работу в безостановочном режиме. Идеальный вариант — серверные комплектующие, ведь они специально проектируются для непрерывной работы. Это стоит учитывать при создании инфраструктуры на собственных мощностях компании.
Программная часть
В программное обеспечение входят все приложения, которые используются для внутренних целей и для предоставления услуг клиентам. ПО необходимо для работы аппаратного части и управления ей. Операционные, CMS и CRM-системы, веб-серверы, почтовые клиенты относятся к программному обеспечению.
Сеть обеспечивает внутреннюю и внешнюю связь между устройствами и элементами системы. Она включает в себя аппаратные и программные элементы, которые необходимы для функционирования и защиты сети. К ним относятся: коммутаторы, маршрутизаторы, серверы, брандмауэры, а также всё то, что помогает обеспечивать и защищать передачу данных.
Эти части лежат в основе работы любой IT-инфраструктуры. Однако компоненты нужно подбирать индивидуально в зависимости от потребностей. Рассмотрим, на что стоит обратить внимание при формировании информационной среды компании.
ИТ-инфраструктура компании: особенности
Инфраструктура информационной системы является не только фундаментом, но и ключевым активом современной компании. От безопасности, надёжности и гибкости системы зависит конкурентоспособность и эффективность работы. Это влияет на доходность и успешность бизнеса. Поэтому ИТ-инфраструктура в бизнесе должна удовлетворять актуальным потребностям рынка, а её создание и развитие — это сложный трудоёмкий процесс, который требует привлечения опытных специалистов. Ошибки на этапе проектирования и запуска могут привести к проблемам безопасности, производительности и взаимодействия в будущем.
Поэтому важно правильно выбрать компоненты и тип информационной системы.
Традиционная и облачная
Выше мы рассказывали о традиционной инфраструктуре, в которой все компоненты принадлежат одной компании и располагаются в её собственных помещениях. Чем инфраструктура больше, тем сложнее и затратнее её поддерживать. Сейчас можно создать облачную инфраструктуру, что позволит сэкономить ресурсы.
Облачная структура похожа на традиционную, но все элементы расположены в системе поставщика услуг, который занимается обслуживаем. Управление информационной инфраструктурой возможно, если у вас есть компьютер с доступом в интернет.
Iaas (Infrastructure as a Service) — инфраструктура как услуга. Не нужно разворачивать собственные серверы, готовить под них помещения, добиваться масштабируемости и следить за остальными составляющими. Об этом уже позаботился поставщик услуг.
Что такое ИТ-инфраструктура?
Инфраструктура информационных технологий (или ИТ-инфраструктура) означает объединение компонентов, необходимых для работы корпоративных ИТ-сервисов и ИТ-сред, а также управления ими.
Почему ИТ-инфраструктура играет важную роль
Технологии лежат в основе практически всех аспектов современного предприятия — от организации работы сотрудников до операционной деятельности, производства товаров и оказания услуг. Правильно настроенное сетевое взаимодействие позволяет оптимизировать технологии с целью улучшения обмена информацией, повышения эффективности и продуктивности.
Гибкая, надежная и безопасная ИТ-инфраструктура помогает предприятию добиться поставленных целей и получить конкурентное преимущество на рынке. Однако ошибки в ходе внедрения ИТ-инфраструктуры могут привести к проблемам взаимодействия, производительности и безопасности, включая системные сбои и утечку данных. Реализованная должным образом инфраструктура может рассматриваться как фактор, определяющий прибыльность бизнеса.
ИТ-инфраструктура помогает компаниям решить следующие задачи:
Как работают компоненты ИТ-инфраструктуры?
ИТ-инфраструктура включает в себя взаимосвязанные элементы и состоит из двух базовых групп компонентов — аппаратного и программного обеспечения. Программное обеспечение, например операционная система, необходимо для работы аппаратного обеспечения. Операционная система управляет системными ресурсами и устройствами. Кроме того, ОС обеспечивает взаимодействие между приложениями и физическими ресурсами с помощью сетевых компонентов.
Аппаратное обеспечение
К аппаратным компонентам относятся:
• центры обработки данных
• объекты физической инфраструктуры
Программное обеспечение
К программным компонентам относятся:
• системы управления контентом (CMS)
• системы управления взаимосвязями с клиентами (CRM)
• системы планирования ресурсов предприятия (ERP)
Объекты физической инфраструктуры
Объекты физической инфраструктуры или материально-техническая база обеспечивают физическое пространство для размещения сетевого оборудования, серверов и центров обработки данных. К ним также относятся кабельные сети в офисных зданиях, необходимые для связывания компонентов ИТ-инфраструктуры в единую систему.
Сеть
Сети состоят из коммутаторов, маршрутизаторов, концентраторов и серверов. Коммутаторы предназначены для подключения сетевых устройств, например маршрутизаторов, серверов и других коммутаторов, в локальных сетях. Маршрутизаторы обеспечивают передачу пакетов и данных между устройствами, расположенными в разных локальных сетях. Концентраторы объединяют несколько сетевых устройств в один компонент.
Сервер
Сервер — основной компонент аппаратного обеспечения, необходимый для ИТ-инфраструктуры предприятия. Серверы представляют собой компьютеры, обеспечивающие совместное использование ресурсов для разных пользователей.
Серверный зал/центр обработки данных
Для размещения нескольких серверов в организациях предусмотрены специальные помещения — серверные залы или центры обработки данных. Как правило, центры обработки данных являются ядром сети.
Виды инфраструктуры
Существует два основных вида ИТ-инфраструктуры: традиционная и облачная.
Традиционная инфраструктура
Традиционная ИТ-инфраструктура состоит из обычных аппаратных и программных компонентов: объектов физической инфраструктуры, центров обработки данных, серверов, сетевых устройств, настольных компьютеров и корпоративных приложений. Как правило, для настройки такой инфраструктуры требуется больше ресурсов, физического пространства и затрат по сравнению с другими видами инфраструктуры. Традиционная инфраструктура обычно устанавливается локально для внутрикорпоративного или частного использования.
Облачная инфраструктура
ИТ-инфраструктура на основе облачных вычислений подобна традиционной инфраструктуре. Однако конечные пользователи могут получить доступ к инфраструктуре через Интернет и использовать вычислительные ресурсы без установки локальных компонентов за счет виртуализации. Технология виртуализации связывает физические серверы, за обслуживание которых отвечает поставщик услуг, независимо от их географического расположения. Затем она разделяет и абстрагирует ресурсы, например ресурсы системы хранения данных, чтобы предоставить к ним доступ для пользователей практически в любой точке мира, где есть соединение с Интернетом. Такую общедоступную облачную инфраструктуру еще называют общедоступным облаком.
Оптимальная ИТ-инфраструктура
Конфигурация ИТ-инфраструктуры зависит от потребностей и целей бизнеса, однако некоторые задачи являются универсальными для любого предприятия. Оптимальная инфраструктура может обеспечить высокопроизводительную систему хранения данных, сеть с малым временем отклика, безопасность, оптимизированную глобальную сеть, средства виртуализации и нулевое время простоя.
Ресурсы
Продолжение диалога на тему ИТ-инфраструктуры
Узнайте, как использовать преимущества тенденций в сфере ИТ путем улучшения взаимодействия между ИТ и другими подразделениями организации. Эти тенденции можно использовать для обеспечения функций и возможностей с целью создания конкурентных преимуществ для бизнеса как в краткосрочной, так и в долгосрочной перспективе.
ИТ-инфраструктура предприятия. Как это работает?
Содержание:
Определение
Простой инфраструктурой можно назвать персональный компьютер с установленным программным обеспечением и подключением к интернету.
Состав ИТ-инфраструктуры
СКС (структурированные кабельные системы) являются фундаментом ИТ-инфраструктуры предприятия. Объединяют в одну цепь ПК и оборудование, а также передают данные.
ИБП (источник бесперебойного питания) защищает от аварии рабочие процессы, устройства компании при кратковременном отключении основного источника.
АТС (автоматическая телефонная станция) представляет собой совокупность устройств, способных в автоматическом режиме передавать сигнал вызова от абонента к абоненту.
Задачи ИТ-инфраструктуры
превентивные меры от сбоев во внутренних бизнес-процессах организации;
реализация проверенных решений для быстрой масштабируемости предприятия;
обеспечение безопасности хранения данных;
прозрачность и эргономичность системы управления;
снижение расходов на создание активов и их дальнейшее обслуживание.
Мониторинг ИТ-инфраструктуры
Многие думают, что для мониторинга ИТ-инфраструктуры обязательно приобретать дорогие решения. Но откуда данное предубеждение? Мы изучили самые популярные приложения для мониторинга и отобрали наиболее удобные и эффективные. Надо признаться: анализ приложений был трудоемкой, сложной задачей, но этот вопрос в дальнейшем окупает все усилия.
Что же такое “мониторинг ИТ-инфраструктуры”? Это система отслеживания параметров инфраструктуры, которая помогает удерживать значения различных показателей в пределах нормы, своевременно устранять сбои и работать над профилактикой их возникновения.
При выборе средства мониторинга ИТ-инфраструктуры предприятия необходимо учитывать следующие критерии:
функционал инструментов (должен соответствовать техническим требованиям и учитывать запросы бизнеса);
уровень подготовки ИТ-специалистов.
Ниже приведены распространенные инструменты мониторинга информационной среды предприятия.
Nagios
Nagios является одной из основных систем мониторинга ИТ-инфраструктуры. Она имеет открытый код, а также способна предоставлять информацию по рабочим станциям конечного пользователя, информационным сервисам и активным сетевым компонентам. Также имеется возможность получить коммерческую Nagios XI, которая имеет новые возможности, удобные веб-интерфейсы. Данные интерфейсы позволяют работать с информационными панелями, включающими обзор хостов, сервисов, устройств сети. Задача модернизации ИТ-инфраструктуры решается за счет формирования графика тенденций и визуально информативных инструментов планирования мощности.
Основной перечень возможностей данной системы мониторинга ИТ-инфраструктуры:
вывод полной схемы информационной структуры;
автоматический перезапуск приложений;
ограничение доступа с целью управления видимостью для отдельных пользователей (решает задачу предоставления доступа к элементам ИТ-инфраструктуры, связанным с конкретной зоной ответственности)
возможность расширения архитектуры.
Zabbix
Zabbix может похвастаться понятной инсталляцией, но конфигурирование потребует вникания в процесс, особенно в случае настройки специального режима проверки.
Основной перечень возможностей данной системы мониторинга ИТ-инфраструктуры:
анализ серверов Java приложений посредством технологии Java Management Extensions;
защита интерфейсов пользователей на стороне клиента от нежелательных действий;
увеличение функциональности с помощью внешних скриптов (языки программирования: Python, Java, PHP, др.);
способность объединения с прочими ИТ-инструментами системного менеджмента.
Cacti
Cacti входит в список основных приложений для мониторинга ИТ-инфраструктуры. Имеет открытый программный код. Данное приложение легко взаимодействует с операционными системами Linux, Windows. Cacti генерирует статистические данные за конкретные интервалы времени и дает возможность отображения их в графическом виде.
Основной перечень возможностей данной системы мониторинга ИТ-инфраструктуры:
инструмент формирования функций CDEF, либо шаблон графиков Cacti предоставляют возможность создания огромного количества элементов графика;
автозаполнение для графиков;
файловая поддержка RRD;
удобство использования приложения;
функция выборочного сбора пользовательских данных.
Перспективы
Сегодня облачные решения становятся все более популярны. Во многих организациях они стали корпоративной нормой в решении тех или иных бизнес-задач. Мониторинг ИТ-инфраструктуры с помощью облачных инструментов проще внедрить, но потребуется особое внимание к приватности данных, контроле доступа.
Быстродействие приложений определяет рентабельность предприятия. Уже скоро инструменты управления производительностью приложений займут свое законное место в портфеле инструментов ИТ-специалиста. Ключевым параметром, который влияет на параметры процессов бизнеса и способность удерживать клиентов, является так называемая «отзывчивость» приложений.
Но необходимо учитывать, что рынок меняется и компаниям требуется все быстрее получать результат. Как следствие, бизнес-сообщество переходит на скорые (agile) методы разработки, позволяющие сократить срок выпуска ПО.
Можно смело утверждать, что решения, казавшиеся вчера смелыми проектами передовых компаний, уже сегодня становятся нормой бизнес-процессов. Мы же помогаем бизнесу идти в ногу со временем.
Перспективные архитектуры для современных инфраструктур данных
На сегодняшний день базы данных класса Massive Parallel Processing — это отраслевой стандарт для хранения Больших Данных и решения разнообразных аналитических задач на их основе.
Сценарии использования mpp-баз разнообразны: они могут быть и «рабочей лошадкой» корпоративного BI, и инструментом централизации данных из сотен источников в одном DWH, и даже использоваться для «горячего» взаимодействия с ML-моделями, работающими в продуктивном окружении.
Данный класс технологий — необходимый элемент в инструментарии современного Data Engineer.
На демо-занятии мы подробно разберем, что же такое mpp-БД, какие решения есть сегодня на рынке и даже углубимся в практический пример использования одной их самых инновационных mpp-систем на сегодня: ClickHouse.
Как IT-индустрия мы исключительно хорошо умеем создавать большие и сложные программные системы. Но сейчас мы начинаем наблюдать рост массивных и сложных систем, построенных вокруг данных, для которых основная ценность системы для бизнеса заключается в анализе этих данных, а не непосредственно в программном обеспечении. Мы видим стремительные изменения, спровоцированные этой тенденцией, во всей индустрии, что включает появление новых специальностей, сдвиги в пользовательской финансовой активности и появление новых стартапов, предоставляющих инфраструктуру и инструменты для работы с данными.
Многие из самых быстрорастущих инфраструктурных стартапов сегодня создают продукты для управления данными. Эти системы позволяют принимать решения на основе данных (аналитические системы) и управлять продуктами на основе данных, в том числе с помощью машинного обучения (оперативные системы). Они варьируются от конвейеров, по которым передаются данные, до решений для их хранения, SQL-движков, которые анализируют данные, дашбордов для мониторинга, которые упрощают понимание данных — от библиотек машинного обучения и data science до автоматизированных конвейеров данных, каталогов данных и т.д.
И все же, несмотря на весь этот импульс и энергию, мы обнаружили, что все еще существует огромная неразбериха в отношении того, какие технологии являются ведущими в этой тенденции и как они используются на практике. За последние два года мы поговорили с сотнями основателей, лидер ов в сфере корпоративных данных и других экспертов, в том числе опросили более 20 практикующих специалистов по их текущим стекам данных, в попытке систематизировать новые передовые практики и сформировать общий словарь по инфраструктуре данных. В этой статье мы расскажем о результатах этой работы и продемонстрируем вам технологи, продвигающие индустрию вперед.
Инфраструктура данных включает…
Этот доклад содержит эталонные архитектуры инфраструктуры данных, составленные в результате обсуждений с десятками практиков. Огромное спасибо всем, кто участвовал в этом исследовании!
Стремительный рост рынка инфраструктуры данных
Одной из основных причин, из-за которых был составлен этот доклад, является стремительный рост инфраструктуры данных за последние несколько лет. По данным Gartner, расходы на инфраструктуру данных достигли в 2019 году рекордного показателя в 66 миллиардов долларов, что составляет 24% — и эта цифра растет — всех расходов на программное обеспечение для инфраструктуры. По данным Pitchbook, 30 крупнейших стартапов по созданию инфраструктуры данных за последние 5 лет привлекли более 8 миллиардов долларов венчурного капитала на общую сумму 35 миллиардов долларов.
Венчурный капитал, привлеченный наиболее показательными стартапами в области инфраструктуры данных в 2015-2020 гг.
Примечание: Любые инвестиции или портфельные компании, упомянутые или описанные в этой презентации, не являются репрезентативными для всего объема инвестиций во все инвестиционные каналы, управляемые a16z, и нет никаких гарантий, что эти инвестиции будут прибыльными или что другие инвестиции, сделанные в будущем, будут иметь аналогичные характеристики или результаты. Список инвестиций, сделанных фондами под управлением a16z, доступен здесь: https://a16z.com/investments/.
Гонка за данными также отражается на рынке труда. Аналитики данных, инженеры по обработке данных и инженеры по машинному обучению возглавили список самых быстрорастущих специальностей Linkedin в 2019 году. По данным NewVantage Partners 60% компаний из списка Fortune 1000 имеют директоров по обработке и анализу данных, по сравнению с 12% в 2012 году, и согласно исследованию роста и прибыльности McKinsey эти компании значительно опережают своих коллег.
Что наиболее важно, данные (и системы данных) напрямую влияют на бизнес-показатели — не только в технологических компаниях Кремниевой долины, но и в традиционных отраслях.
Унифицированная архитектура инфраструктуры данных
Из-за энергии, ресурсов и роста рынка инфраструктуры данных решения и передовые методы для инфраструктуры данных также развиваются невероятно быстро. Настолько, что трудно получить целостное представление о том, как все части сочетаются друг с другом. И это именно то, на что мы намеревались пролить здесь свет.
Мы опросили практиков из ведущих организаций, работающих с данными: (а) как выглядели их внутренние технологические стеки, и (б) что бы они изменили, если бы им нужно было создавать новый с нуля.
Результатом этих обсуждений стала следующая диаграмма эталонной архитектуры:
Unified Architecture for Data Infrastructure
Унифицированная архитектура для инфраструктуры данных
Примечание: Исключает транзакционные системы (OLTP), обработку логов и SaaS-приложения для аналитики. Перейдите сюда, чтобы просмотреть версию в высоком разрешении.
Столбцы диаграммы определены следующим образом:
Эта архитектура включает очень большое количество элементов — гораздо больше, чем вы можете найти в большинстве производственных систем. Это попытка сформировать целостную картину унифицированной архитектуры практически для всех вариантов использования. И хотя самые искушенные пользователи располагают чем-то похожим на это, большинство — нет.
Остальная часть этой статьи посвящена разбору этой архитектуры и того, как она чаще всего реализуется на практике.
Аналитика, AI/ML и грядущая конвергенция?
Инфраструктура данных на высоком уровне служит двум целям: помочь бизнес-лидерам принимать более обоснованные решения с помощью данных (аналитические варианты использования) и встроить аналитику данных в клиентские приложения, в том числе с помощью машинного обучения (оперативные варианты использования).
Вокруг этих вариантов использования выросли две параллельные экосистемы. Основу аналитической экосистемы составляют хранилища данных (data warehouse). Большинство хранилищ данных хранят данные в структурированном формате и предназначены для быстрого и простого получения выводов на основе обработки основных бизнес-метрик, обычно с помощью SQL (хотя Python становится все более популярным). Озеро данных (data lake) является основой оперативной экосистемы. Сохраняя данные в необработанном виде, он обеспечивает гибкость, масштабируемость и производительность, необходимые для специализированных приложений и более сложных задач обработки данных. Озера данных работают на широком спектре языков, включая Java/Scala, Python, R и SQL.
У каждой из этих технологий есть свои ярые приверженцы, а выбор одной из них оказывает значительное влияние на остальную часть стека (подробнее об этом позже). Но что действительно интересно, так это то, что у современных хранилищ и озер данных становится все больше общих черт — обе предлагают стандартные хранилища, собственное горизонтальное масштабирование, полуструктурированные типы данных, ACID-транзакции, интерактивные SQL запросы и т. д.
Важный вопрос на будущее: находятся ли хранилища и озера данных на пути к конвергенции? То есть станут ли они взаимозаменяемыми в стеке? Некоторые эксперты считают, что это все-таки происходит и способствует упрощению технологического и вендорного многообразия. Другие считают, что параллельность экосистем сохранится из-за различий в языках, сценариях использования или других факторов.
Архитектурные сдвиги
Инфраструктура данных подвержена широким архитектурным сдвигам, происходящим в индустрии программного обеспечения, включая переход к облаку, бизнес-моделям с открытым исходным кодом, SaaS и так далее. Однако помимо них существует ряд изменений, которые уникальны для инфраструктуры данных. Они продвигают архитектуру вперед и часто дестабилизируют рынки (например, ETL-инструменты) в процессе.
Новые возможности
Формируется набор новых возможностей обработки данных, которые нуждаются в новых наборах инструментов и базовых систем. Многие из этих трендов создают новые категории технологий (и рынки) с нуля.
Схемы построения современной инфраструктуры данных
Чтобы сделать архитектуру как можно более действенной, мы попросили экспертов систематизировать набор общих «схем» (blueprints) — руководств по внедрению для организаций, работающих с данными, в зависимости от размера, сложности, целевых вариантов использования и применения.
Здесь мы предоставим обзор трех обобщенных схем. Мы начнем со схемы современной бизнес-аналитики, которая фокусируется на облачных хранилищах данных и аналитических вариантах использования. Во второй схеме мы рассматриваем мультимодальную обработку данных, охватывая как аналитические, так и оперативные варианты использования, построенные на основе озера данных. В окончательной схеме мы подробно рассмотрим оперативные системы и новые компоненты AI и ML стека.
Три обобщенных схемы
Схема 1: современная бизнес-аналитика
Эта схема постепенно становится вариантом по умолчанию для компаний с относительно небольшими командами и бюджетами. Предприятия также все чаще переходят с устаревших хранилищ данных на эту схему, пользуясь преимуществами гибкости и масштабируемости облака.
Основные варианты использования включают отчеты, дашборды и специальный анализ, в основном с использованием SQL (и некоторого количества Python) для анализа структурированных данных.
К сильным сторонам этой модели относятся низкие первоначальные инвестиции, скорость и простота начала работы, а также широкая доступность кадров. Этот план менее приемлем для команд, у которых есть более сложные потребности в данных, включая обширную data science, машинное обучение или приложения для потоковой передачи / с низкой задержкой.
Схема 2: мультимодальная обработка данных
Новейшие озера данных, поддерживающие как аналитические, так и оперативные варианты использования, также известные как современная инфраструктура для Hadoop-беженцев
Эта модель наиболее часто встречается на крупных предприятиях и технологических компаний с сложными, высокотехнологичными потребностями в обработке данных.
Сценарии использования включают в себя как бизнес-аналитику, так и более продвинутые функции, включая оперативный AI/ML, аналитику, чувствительную к потоковой передаче / задержке, крупномасштабные преобразования данных и обработку различных типов данных (включая текст, изображения и видео) с использованием целого набора языков (Java/Scala, Python, SQL).
Схема 3: Искусственный интеллект и машинное обучение.
Совершенно новый, еще развивающийся стек для поддержки надежной разработки, тестирования и эксплуатации моделей машинного обучения.
Большинство компаний, занимающихся машинным обучением, уже используют некоторую часть технологий из этого шаблона. Серьезные специалисты по машинному обучению часто реализуют полную схему, полагаясь на собственные разработки в качестве недостающих инструментов.
Смотря в будущее
Инфраструктура данных претерпевает быстрые фундаментальные изменения на архитектурном уровне. Создание современного стека данных включает в себя разнообразный и постоянно растущий набор вариантов. И сделать правильный выбор сейчас важнее, чем когда-либо, поскольку мы продолжаем переходить от программного обеспечения, основанного исключительно на коде, к системам, которые объединяют код и данные для обеспечения ценности. Эффективные возможности обработки данных теперь являются главной ставкой для компаний во всех секторах, и выигрыш в данных может обеспечить твердое конкурентное преимущество.
Мы надеемся, что эта статья послужит ориентиром, который поможет организациям, работающим с данными, понять текущее состояние дел, реализовать архитектуру, которая наилучшим образом соответствует потребностям их бизнеса, и спланировать будущее в условиях непрекращающейся эволюции в этой сфере.