дата хаб что это
Что такое Data Hub?
Что такое Data Hub?
Data Hub — это современная, информационно-центрическая архитектура СХД, которая помогает предприятиям консолидировать и совместно использовать данные для поддержки рабочих сред аналитики и ИИ. Если вы продолжаете получать доступ к данным с помощью соединений «точка — точка» с независимыми бункерами, преобразование вашей инфраструктуры в Data Hub значительно рационализирует поток данных по всей организации.
Как Data Hub может консолидировать разрозненные хранилища данных
Для современных предприятий данные служат источником важных сведений и инноваций. Но большинство данных находится в разрозненных хранилищах, фрагментированы и недоступны для аналитиков и приложений ИИ. Часть данных находится в хранилищах данных, часть — теряется в озерах. Нарушается единство данных и снижается скорость обмена ими. Почему же в СХД так сложно объединить данные на общей платформе? Проблема в том, что у каждого приложения свои требования к данным, из-за этого разрозненные хранилища данных разрастаются.
Data Hub разработан в первую очередь не для хранения, а для объединения и предоставления данных. Объединение данных означает, что одни и те же данные могут быть доступны одновременно для нескольких приложений с сохранением целостности. Предоставление данных означает, что каждое приложение имеет полный необходимый доступ к ним со скоростью, которая нужна современной компании. Data Hub устраняет устаревшие барьеры инфраструктуры, где приложения получают свои разрозненные хранилища и реплицированные наборы данных.
Преимущества Data Hub
Общие преимущества Data Hub:
Cogent DataHub™
Новое поколение решений для управления данными в режиме реального времени.
DataHub OPC Tunneller ™
Безопасное подключение данных OPC без необходимости решать проблемы с DCOM.
DataHub OPC Logger ™
Удобный обмен данными (чтение/запись) с любыми ODBC-совместимыми базами данных.
DataHub WebView ™
Мощное резидентное приложение для создания и надежной работы веб-страниц, отображающих данные в режиме реального времени.
Найдите надежное решение для Ваших задач
Инструментальные средства Cogent DataHub от подключения данных до пользовательского интерфейса не зависят от поставщика, защищают текущие инвестиции и предоставляют возможности для будущих приобретений аппаратных средств или программного обеспечения на основе технической целесообразности, а не ограничений по конкретному поставщику. Постройте уверенную работу с данными в режиме реального времени в абсолютно разных областях применения.
Решения для систем управления и АСУ ТП
Уверенная работа с данными в реальном времени. Повышение производительности. Добавление стоимости для существующих систем.
Решения для встраиваемых систем
Интеграция встроенных систем с заводскими и бизнес-системами, визуализация данных в Интернет, работа с отраслевыми стандартами.
Решения для финансовых систем
Совместное использование данных в Excel в режиме реального времени по сети или через веб-соединение.
Новости
Сделает ли протокол OPC UA промышленный IoT лучше?
Эндрю Томас, основатель компании Skkynet представляет серию статей о промышленном Интернете Вещей. Представляем вам восьмую публикацию. Читать далее
Реализовывая мечту
Чуть больше года назад я с женой и сыном приехал в Клайпеду(Литва) реализовывать мечту. Идея заключается в создании IT HUBа. IT — потому что сейчас идёт век технологий, даже сельское хозяйство использует информационные технологии. HUB — это место которое концентрирует в себе различные взаимодействия, знакомства, связи, идеи и их реализации.
Сама идея ИТ Хаба подразумевает большие инвестиции, но на старте их не было, поэтому большой проект я разделил на несколько маленьких и реализовывать их вместе с ребятами, из которых и состоит наше пространство.
На мой взгляд проще всего было реализовать одну из составляющих (развлечение) — это Anticafe, место где молодёжь собирается, встречается, находит что-то новое.
За базу была взята идея антикафе — это общественное заведение где плата берётся за время, а всё остальное бесплатно. И немного модернизирована. Добавили возможность заниматься йогой, ходить на курсы, мастер классы, можно спеть в караоке или просто посмотреть кино на большом экране. Помимо стандартных приставок с большими экранами мы добавили виртуальную реальность. Школу шахмат и букшэринг. Музыкальная комната — которая должна перерасти в студию звукозаписи.
Второй шаг был создание CoWorking(работа), зоны где любой желающий, фрилансер или компания может прийти и поработать в дружественной атмосфере, к которой прилагается вся необходимая инфраструктура.
Мы предоставляем не только место для молодых и амбициозных ребят, но и даём возможность пользоваться мощными компьютерами, программным обеспечением, которое необходимо им для работы. Обучаем и подсказывает, когда это необходимо.
В коворкинге могут работать как фрилансеры, так и отдельные сотрудники из крупных компаний. Сейчас я работаю над реализацией ещё одной части проекта IT HUB. Это привлечение специалистов из России.
Шаг 2.1 В погоне за Startup’ами
Первое направление — это привлечение российских стартапов, которые хотят переехать в Европу. В нашем пространстве уже расположились несколько таких стратрапов, но о них в следующих статьях. Литва одна из первых в странах Балтии запустила стартап визу.
Второе направление — это мотивация сотрудников средних и больших компаний. К нам можно отправлять сотрудников на пару месяцев или больше как бонус за хорошую работу. Для нас это обмен опытом. Для ребят это отдых и смена обстановки. Для полной реализации части по привлечению специалистов, у нас ещё не реализован проект гостевой дом. Для того чтобы у ребят не возникало проблем с жильём в первое время. Или тем кому понравится могли бы оставаться и жить в нём. Пока ищем инвесторов.
И третья часть которая начинает реализовываться в данное время — это Fablab(развитие). Мастерская в которую можно прийти и воспользоваться инструментами для реализации своего проекта.
В фаблабе можно использовать 3D принтеры, паяльные станции, фрезерный станок, лазерная резка, инструменты, радиодетали для сборки прототипов. На базе фаблаба можно проводить мастер классы и воркшопы, лекции для юных конструкторов.
На мой взгляд это стратегически правильное решение, с того момента как мы приехали Клайпеда стала культурной столицей Литвы, кандидат на культурную столицу Евросоюза. Клайпеда один из самых крупных портов в Балтике, здесь НЕТ метро и пробок, поэтому свободное время вы можете тратить на себя. Здесь прекрасное море и Куршская коса. Здесь очень большое русскоговорящее сообщество и именно поэтому я до сих пор не выучил Литовский язык.
И самое главное почему я и мы всё это делаем. У нашего сообщества есть миссия, мы точно знаем, что у каждого из нас есть уникальная способность и мы ставим своей целью найти её и развить. Так что бы человек всегда мог профессионально заниматься своим любимым делом и получать от этого удовольствие.
Артур Хачуян (SocialDataHub) – об анализе данных для выявления лидеров мнений на Big Data Conference
Редактор медиа РБ.РУ
По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.
В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия доступен по ссылке.
Представитель SocialDataHub Артур Хачуян рассказал, как с помощью анализа данных выявить лидеров мнений.
Благодаря сервису Penxy презентацию SocialDataHub можно не только посмотреть, но и послушать:
После презентации все желающие смогли задать вопросы спикеру через сервис WhenSpeak. Ниже приводим полный текст интервью с Артуром Хачуяном.
Откуда картинки для фона?
Закупаем на стоках. У нас все презентации такие – корпоративный стиль «пиксель-арт».
Может ли ваша система предсказывать, а не просто анализировать хайп?
Да, можем, и сейчас у нас порядка 5-7 клиентов (рекламных агентств), кто это мониторит. Но, к сожалению, сейчас мы можем только предсказать, что что-то выйдет в тренд, а вот как долго продлится – предсказать очень сложно.
Чем вы собираете данные?
Мы собираем данные с помощью веб-парсинга. На данный момент 57 тысяч виртуальных эмуляторов браузеров (наша обертка над Selenium) собирают социальные сети. У нас полная копия ВК и ОК без медиаконтента, полная копия русскоязычного сегмента «Фейсбука» и «Инстаграма», а также копии «Твиттера», «Тумблера» и других.
Мы также собираем Stories, YouTube, Periscope и каналы мессенджеров, блоги, форумы, поисковую выдачу, государственные реестры (юрлица, ФССП, база судопроизводства), различные сервисы («Авито», Airbnb, «Юла», «Циан») и мобильные приложения — Youdo, Tinder, Badoo. От появления чего-то в открытом интернете до того, как это будет собрано, обработано, проанализировано и структурировано, по внутренним нормативам у нас должно пройти 4 минуты, клиентам отдаем минимальные срезы раз в 5 минут.
Для Роскомнадзора на текущий момент данные соцсетей и их внешнее использование – очень актуальная тема. Вы сказали, что данные спарсили. Как к вашей деятельности относится Роскомнадзор? Например, относительно ВКонтакте и Одноклассников?
Мы не нарушаем 152 Федеральный закон, так как не являемся оператором персональных данных. Пользователи нам их не отдают, как, например, банкам или страховым. Мы анализируем только то, что находится в открытом доступе.
Сейчас вся движуха вокруг истории с Роскомнадзором и сбором данных случилась после официального обращения компании DoubleData в Роскомнадзор, где их не так поняли и сказали, что ничего нельзя. Потом эти обращения неправильно трактовали СМИ и сказали, что ничего нельзя. Но там был рассмотрен случай получения данных у банка о клиентах и поиска их в социальных сетях, а не обработки публичной информации. Это вообще очень тонкая тема, и, как я уже говорил, если мы работаем с данными банков, мы продаем свое личное экспертное мнение.
Какой технологический стэк и какая команда стоит за этой аналитикой?
Наш собственный дата-центр с 8,7 ПБ хранилища и кучей видеокарт Tesla. Не для майнинга, а для обработки данных и анализа графов. Среднее время проведения исследований сейчас у нас составляет 1-2 рабочих дня, что очень быстро. В команде 46 человек, все программисты и аналитики. Остальное все автоматизировано – боты-юристы и бухгалтеры. В качестве БД мы используем MongoDB на распределенной файловой системе.
Расскажите немного, как лайки превращаются в рубли. Кто-нибудь может связать лайки с профитом?
Ну, если считать конверсию «лайк – активность – привлеченная аудитория – просмотренная реклама – переход на сайт», то для блогеров ТОП-300 — это очень низкая величина, порядка 50-150 тысяч лайков в один рекламный переход. Но у нас в клиентах не все блогеры, а информация о переходах и покупках (деньгах) у нас не везде есть.
Много разных историй, начиная с анализа конкурентности рынка, данных о финансах и госзатратах, заканчивая геомаркетингом и поиском места под ресторан или завод.
Вы сейчас признали, что нарушаете закон, когда парсите соцсети?
В ФЗ 152 очень большой набор «воды», большой набор устаревшей «воды», его очень сложно трактовать и применять к современным реалиям. Мы его не нарушаем официально, может что-то что мы делаем неэтично, но все законно. Также мы часто консультируем госорганы на тему различных законодательных решений. Скоро все регламентируют.
Введение в Data Vault
Большинство компаний сегодня накапливают различные данные, полученные в процессе работы. Часто данные приходят из различных источников — структурированные и не очень, иногда в режиме реального времени, а иногда они доступны в строго определенные периоды. Все это разнообразие нужно структурированно хранить, чтоб потом успешно анализировать, рисовать красивые отчеты и вовремя замечать аномалии. Для этих целей проектируется хранилище данных (Data Warehouse, DWH).
Существует несколько подходов к построению такого универсального хранилища, которые помогают архитектору избежать распространенных проблем, а самое главное обеспечить должный уровень гибкости и расширяемости DWH. Об одном из таких подходов я и хочу рассказать.
Кому будет интересна эта статья?
Data Vault состоит из трех основных компонентов — Хаб (Hub), Ссылка (Link) и Сателлит (Satellite).
Хаб — основное представление сущности (Клиент, Продукт, Заказ) с позиции бизнеса. Таблица-Хаб содержит одно или несколько полей, отражающих сущность в понятиях бизнеса. В совокупности эти поля называются «бизнес ключ». Идеальный кандидат на звание бизнес-ключа это ИНН организации или VIN номер автомобиля, а сгенерированный системой ID будет наихудшим вариантом. Бизнес ключ всегда должен быть уникальным и неизменным.
Хаб так же содержит мета-поля load timestamp и record source, в которых хранятся время первоначальной загрузки сущности в хранилище и ее источник (название системы, базы или файла, откуда данные были загружены). В качестве первичного ключа Хаба рекомендуется использовать MD5 или SHA-1 хеш от бизнес ключа.
Ссылка
Таблицы-Ссылки связывают несколько хабов связью многие-ко-многим. Она содержит те же метаданные, что и Хаб. Ссылка может быть связана с другой Ссылкой, но такой подход создает проблемы при загрузке, так что лучше выделить одну из Ссылок в отдельный Хаб.
Сателлит
Все описательные атрибуты Хаба или Ссылки (контекст) помещаются в таблицы-Сателлиты. Помимо контекста Сателлит содержит стандартный набор метаданных (load timestamp и record source) и один и только один ключ «родителя». В Сателлитах можно без проблем хранить историю изменения контекста, каждый раз добавляя новую запись при обновлении контекста в системе-источнике. Для упрощения процесса обновления большого сателлита в таблицу можно добавить поле hash diff: MD5 или SHA-1 хеш от всех его описательных атрибутов. Для Хаба или Ссылки может быть сколь угодно Сателлитов, обычно контекст разбивается по частоте обновления. Контекст из разных систем-источников принято класть в отдельные Сателлиты.
Как с этим работать?
* Картинка основана на иллюстрации из книги Building a Scalable Data Warehouse with Data Vault 2.0
Сначала данные из операционных систем поступают в staging area. Staging area используется как промежуточное звено в процессе загрузки данных. Одна из основных функций Staging зоны это уменьшение нагрузки на операционные базы при выполнении запросов. Таблицы здесь полностью повторяют исходную структуру, но любые ограничения на вставку данных, вроде not null или проверки целостности внешних ключей, должны быть выключены с целью оставить возможность вставить даже поврежденные или неполные данные (особенно это актуально для excel-таблиц и прочих файлов). Дополнительно в stage таблицах содержатся хеши бизнес ключей и информация о времени загрузки и источнике данных.
После этого данные разбиваются на Хабы, Ссылки и Сателлиты и загружаются в Raw Data Vault. В процессе загрузки они никак не агрегируются и не пересчитываются.
Business Vault — опциональная вспомогательная надстройка над Raw Data Vault. Строится по тем же принципам, но содержит переработанные данные: агрегированные результаты, сконвертированные валюты и прочее. Разделение чисто логическое, физически Business Vault находится в одной базе с Raw Data Vault и предназначен в основном для упрощения формирования витрин.
Когда нужные таблицы созданы и заполнены, наступает очередь витрин данных (Data Marts). Каждая витрина это отдельная база данных или схема, предназначенная для решения задач различных пользователей или отделов. В ней может быть специально собранная «звезда» или коллекция денормализованных таблиц. Если возможно, таблицы внутри витрин лучше делать виртуальными, то есть вычисляемыми «на лету». Для этого обычно используются SQL представления (SQL views).
Заполнение Data Vault
Здесь все довольно просто: сначала загружаются Хабы, потом Ссылки и затем Сателлиты. Хабы можно загружать параллельно, так же как и Сателлиты и Ссылки, если конечно не используется связь link-to-link.
Есть вариант и вовсе выключить проверку целостности и загружать все данные одновременно. Как раз такой подход соответствует одному из основных постулатов DV — «Загружать все доступные данные все время (Load all of the data, all of the time)» и именно здесь играют решающую роль бизнес ключи. Суть в том, что возможные проблемы при загрузке данных должны быть минимизированы, а одна из наиболее распространенных проблем это нарушение целостности. Подход, конечно, спорный, но лично я им пользуюсь и нахожу действительно удобным: данные все равно проверяются, но после загрузки. Часто можно столкнуться с проблемой отсутствия записей в нескольких Хабах при загрузке Ссылок и последовательно разбираться, почему тот или иной Хаб не заполнен до конца, перезапуская процесс и изучая новую ошибку. Альтернативный вариант — вывести недостающие данные уже после загрузки и увидеть все проблемы за один раз. Бонусом получаем устойчивость к ошибкам и возможность не следить за порядком загрузки таблиц.
Преимущества и недостатки
[+] Гибкость и расширяемость.
С Data Vault перестает быть проблемой как расширение структуры хранилища, так и добавление и сопоставление данных из новых источников. Максимально полное хранилище «сырых» данных и удобная структура их хранения позволяют нам сформировать витрину под любые требования бизнеса, а существующие решения на рынке СУБД хорошо справляются с огромными объемами информации и быстро выполняют даже очень сложные запросы, что дает возможность виртуализировать большинство витрин.
[+] Agile-подход из коробки.
Моделировать хранилище по методологии Data Vault довольно просто. Новые данные просто «подключаются» к существующей модели, не ломая и не модифицируя существующую структуру. При этом мы будем решать поставленную задачу максимально изолированно, загружая только необходимый минимум, и, вероятно, наша временнáя оценка для такой задачи станет точнее. Планирование спринтов будет проще, а результаты предсказуемы с первой же итерации.
[–] Обилие JOIN’ов
За счет большого количества операций join запросы могут быть медленнее, чем в традиционных хранилищах данных, где таблицы денормализованы.
[–] Сложность.
В описанной выше методологии есть множество важных деталей, разобраться в которых вряд ли получится за пару часов. К этому можно прибавить малое количество информации в интернете и почти полное отсутствие материалов на русском языке (надеюсь это исправить). Как следствие, при внедрении Data Vault возникают проблемы с обучением команды, появляется много вопросов относительно нюансов конкретного бизнеса. К счастью, существуют ресурсы, на которых можно задать эти вопросы. Большой недостаток сложности это обязательное требование к наличию витрин данных, так как сам по себе Data Vault плохо подходит для прямых запросов.
[–] Избыточность.
Довольно спорный недостаток, но я часто вижу вопросы об избыточности, поэтому прокомментирую этот момент со своей точки зрения.
Многим не нравится идея создания прослойки перед витринами данных, особенно если учесть, что таблиц в этой прослойке примерно в 3 раза больше, чем могло бы быть в третьей нормальной форме, а значит в 3 раза больше ETL-процессов. Это так, но и сами ETL процессы будут значительно проще за счет своего однообразия, а все объекты в хранилище достаточно просты для понимания.
Кажущаяся избыточной архитектура построена для решения вполне конкретных задач, и конечно не является серебряной пулей. В любом случае я бы не рекомендовал что-то менять до того момента, пока описанные выше преимущества Data Vault не станут востребованы.