Qlik и Big Data
Введение
По-прежнему наблюдается огромный интерес к теме Big Data. Он перерос тенденцию просто быть частью IT-лексикона. Для некоторых организаций использование Big Data уже стало реальностью; обеспечивая беспрецедентную способность хранить и анализировать большие объемы разрозненных данных, имеющих решающее важное значение для успеха организации. Это позволило людям выявить новые возможности и решить проблемы, которые им еще не удалось решать.
Для других организаций Big Data по-прежнему является тем, что нужно изучить с точки зрения соответствия текущим и будущим потребностям бизнеса в компании. В этом документе рассматривается, как данные поступают от источника к механизму анализа, а затем обсуждается, как платформа аналитики данных Qlik может помочь компаниям получить максимальную отдачу от работы с Big Data, облегчая доступ и делая данные из Big Data полезными для текущей задачи бизнес-пользователей организации.
- Преимущества, предоставляемые Big Data, не могут быть использованы, пока не существует способов для простого анализа этих данных бизнесом.
- Способом достижения этой цели является предоставление только необходимых данных для анализа.
- Различные по сложности и объему данные требуют для обработки различных методов или набора методов.
- Qlik предоставляет различные методы у лучшие практики, чтобы предоставить заказчику преимущество во времени, когда нужно обрабатывать Big Data.
Растущая потребность в аналитике Big Data
Исторически сложилось так, что использование больших данных фокусировалось в науке, где запускали очень сложные алгоритмы в параллельных вычислительных кластерах для решения основных задач в академических кругах, правительстве и частном секторе. В то время как потребность в науке в решении таких сложных проблем все еще существует, гораздо более необходимо, чтобы конечные пользователи могли использовать возможности аналитики Big Data для решения различных бизнес-задач.
И в отличие от алгоритмической модели, которая стремится найти иглу в стоге сена путем поиска по всем доступным данным, бизнес-пользователи с большей вероятностью будут задавать специальные вопросы, которые сосредоточены на различных срезах данных, относящихся к ним. Они хотят получить новые идеи, чтобы лучше отвечать на реальные бизнес-вопросы, такие как:
- Какие были продажи продукта с тех пор, как мы провели последнюю рекламную кампанию?
- Насколько эффективно моя команда продаж перекрестно продает наши продукты?
- Какой из моих продуктов НЕ продается? Это зависит от региона или отдела продаж?
- Существует ли недостаток резервирования в любой цепочке поставок моего завода? Что произойдет, если стихийное бедствие сократит наши первичные поставки?
- Может ли история звонков для моего региона быть каким-либо шаблоном удовлетворенности или неудовлетворенности клиентов?
Эти типы вопросов были заданы бизнес-пользователями задолго до появления Big Data, но на такие вопросы не давались ответы с высокой степенью уверенности или детализации, поскольку наборы ключевых данных не существовали или были непрактичны для доступа. Бизнес-пользователи не смогли объединить свою интуицию с лучшими данными, чтобы принять оптимальные решения.
Однако теперь существует технология для расширения доступности источников больших данных для бизнес-пользователей. Qlik (QlikView и Qlik Sense) обеспечивает как быструю гибкую аналитику с одной стороны, так и возможность интеграции данных из нескольких источников (например, хранилищ Hadoop, хранилищ данных, баз данных отделов и электронных таблиц) на одном уровне интерактивной аналитики.
Как большие данные поступают из источника в анализ
Проведем аналогию с добычей металлов, необработанная руда должна быть извлечена из земли, транспортирована на заводы, которые используют механические и химические процессы для получения металла, и только тогда ее можно использовать в ювелирных изделиях или других изделиях.
Аналогичным образом, данные следует от необработанной формы до уровня понимания бизнеса.
- Сбор. Источником бизнес-ориентированных больших данных обычно являются машинные или IoT данные (например, потоки данных, журналы сервера и журналы RFID), данные транзакций (например, активность веб-сайта, данные о точках продаж из физических хранилищ) и данные облака (например, биржевые цены на акции, каналы в социальных сетях). Эти данные часто неструктурированы (строки текста или изображений) или полуструктурированы (данные журнала с меткой времени, IP-адресом и другими сведениями). В общем определении больших данных такие данные имеют большой объем (от терабайта до петабайта), высокую скорость роста (много терабайт новых данных в день) и высокий уровень разнообразия (сотни разных типов серверов и приложений, каждый из которых создает информацию в своих собственный форматах).
- strong>Начальная обработка. Если основной проблемой является стоимость хранения, то данные часто копируются в кластер Hadoop. Распределенная файловая система Hadoop (HDFS) является примером распределенной, масштабируемой и переносимой файловой системы, предназначенной для работы на удобном оборудовании. Hadoop задачи, такие как MapReduce, позволяют осуществлять параллельную обработку данных и агрегацию данных, но это, как правило, достаточно только для интерпретации исходных данных на первом уровне. Ускорительные инструменты, такие как Apache Drill, Spark и Cloudera Impala, предоставляют средства с открытым исходным кодом для внешних систем, таких как Qlik, для лучшего получения данных, хранящихся в Hadoop.
- Уточнение. Довольно часто организации также используют хранилище данных EDW, которое служит в качестве центрального хранилища для структурированных данных, требующих анализа. EDW предназначены не только для хранения, но также имеют надежные возможности ETL (извлечение, преобразование, загрузка), поэтому они играют дополнительную роль с кластерами Hadoop. EDW могут извлекать данные непосредственно из источника данных, сети SAN (сеть хранения данных) или NAS (сетевая система хранения) или кластеров Hadoop. Поскольку данные в EDW структурированы и не являются сырыми, проще запросить и представить более высокий уровень значения, чем исходные данные.
- Анализ. Типичный бизнес-пользователь нуждается в гибкости при получении данных из нескольких источников и должны быть ограждены от подробностей о том, откуда поступают данные или как они организованы. Моделирование данных должно быть быстрым и легко охватывать разные источники данных. Такое окружение (среда) не только снижает нагрузку на ИТ, чтобы соответствовать требованиям бизнеса, но также дает возможность бизнес-пользователям своевременно включать дополнительные данные в свой анализ.
Использование больших данных: внимание к актуальности и контексту
Бизнес-пользователям постоянно стараются сделать более эффективным доступ, фильтрацию и анализ данных — и получить представление о них — без использования решений для анализа данных это требует специальных навыков. Им нужны лучшие и простые способы навигации по огромным объемам данных, чтобы найти то, что им подходит, и получить ответы на их конкретные важные вопросы, чтобы они могли принимать более быстрые решения.
Qlik видит несколько распространенных заблуждений о том, как BigData вписывается в общий анализ потребностей бизнес-пользователя. Важно понимать, что:
- Наиболее важные данные могут отсутствовать в репозитории Big Data. Часто данные из хранилища BigData действуют как вспомогательные данные. Например, электронная таблица или небольшая база данных, содержащая результаты опроса удовлетворенности клиентов, могут быть основой для аналитического запроса, а данные из хранилища Big Data позволяют пользователю сопоставлять клиентскую службу, клиента или историю поддержки с оценкой их удовлетворенности.
- Данные, необходимые для анализа, могут быть разбросаны в нескольких хранилищах. Процесс создания хранилища данных предприятия может не только включать копирование данных из операционного источника данных, но также включать в себя моделирование и преобразования метаданных. Поскольку это может быть трудоемким или дорогостоящим, некоторые операционные источники могут оставаться отдельными. Они не требуют затрат и усилий по загрузке в хранилище данных.
Два важных аспекта, которые следует учитывать при работе с большими данными, — это определение необходимости (релевантности) и контекста информации.
Необходимость: правильная (Нужная) информация для нужного человека в нужное время. Подход Qlik всегда заключался в понимании того, что бизнес-пользователи требуют от своего анализа, а не принудительное предложение решения, которое может быть неприемлемым. Доступ к соответствующим данным в нужное время более ценен для пользователей, чем доступ ко всем данным все время. Например, руководители филиалов банков могут захотеть понять (получить) продажи, информацию о клиентах и динамику рынка в своих филиалах, а не всей общенациональной филиальной сети. При таком простом подходе происходит переход от одного большого объема данных к одному из необходимых.
Контекст: что означает «Большие данные» в контексте других источников понимания? Запатентованный инновационный ассоциативный движок Qlik (QlikView и Qlik Sense) разработан специально для интерактивного исследования и анализа в свободной форме, поэтому данные естественным образом «окружены контекстом». Ассоциативный опыт Qlik означает, что каждая часть данных динамически связана с каждой другой частью данных во всех источниках данных. Qlik (QlikView и Qlik Sense) также предлагает мощный «на лету» расчет и агрегацию, которые мгновенно обновляют всю аналитику и выделяют все ассоциации на основе пользовательских взаимодействий. Например, диаграмма Sales by Region может быть окружена соответствующими визуализациями, такими как диаграмма Sales by Product или интерактивные списки, содержащие контекстуальную информацию, такую как дата, местоположение, клиент, история продаж и т. Д. Каждый раз, когда пользователь выбирает одну диаграмму или список, каждый другой список и диаграмма мгновенно обновляются в зависимости от выбора пользователя. Эта уникальная возможность Qlik (QlikView и Qlik Sense) делает невероятно простым для бизнес-пользователя возможность сосредоточиться на (например) конкретном продукте в конкретной географической области, проданному конкретному клиенту, и видеть только те данные, которые имеют к нему отношение.
Полезность этих ассоциаций еще более очевидна там, где могут быть сотни или тысячи продуктов, клиентов, географические регионы и т. Д. Чрезвычайно большие наборы данных можно нарезать несколькими щелчками, а не прокручивать тысячи строк. С Qlik (QlikView и Qlik Sense) контекст и релевантность идут рука об руку и быстро становятся вполне управляемыми, без каких-либо навыков программирования или расширенной визуализации, что является проблемой больших данных.
Различные методы для разных объемов данных и сложности
Поскольку Big Data являются относительным термином, а варианты использования и инфраструктура в каждой организации различны, Qlik предлагает несколько методов для обработки сценариев BigData:
- В памяти
- Сегментация
- Цепочка
- Создание по запросу
- Другие методы
В некоторых случаях одного метода может быть достаточно. Другие сценарии могут диктовать использование нескольких методов, работающих вместе.
Каждая ситуация различна. Мы дали механизм (возможность) в руки наших клиентов, чтобы они определили, как они будут управляться ища компромисс между гибкостью, производительностью и типичными характеристиками Big Data: разнообразием и объемом данных.
В этом разделе рассматриваются различные методы Qlik, которые можно использовать в сценариях BigData.
В памяти
Поскольку Qlik Associative Engine оптимизирует скорость работы в оперативной памяти, сжимая данные до 10% от их первоначального размера, многие клиенты Qlik находят, что продукт удовлетворяет требованиям Big Data, сохраняя при этом высокую производительность. Кроме того, объем памяти на стандартном компьютерном оборудовании продолжает расти в размерах и снижается в цене. Это позволило Qlik (QlikView и Qlik Sense) обрабатывать все большие объемы данных в памяти. Например, один сервер 512 ГБ может обрабатывать несжатые наборы данных размером около 4 ТБ. Схема сжатия Qlik означает, что чем больше избыточность в значениях данных, тем больше сжатие.
В отличии от технологий, которые просто «поддерживают» многопроцессорное оборудование, Qlik оптимизирован, чтобы в полной мере использовать всю мощь многопроцессорного оборудования. Он эффективно распределяет расчеты во всех доступных процессорных ядрах, тем самым максимизируя производительность и инвестиции в оборудование. В кластерной среде приложения Qlik (QlikView и Qlik Sense) могут размещаться на разных серверах. Например, приложение, содержащее меньшее количество агрегированных данных, может быть запущено на сервере с меньшим объемом памяти, в то время как приложение с большими объемами подробных данных может быть сконфигурировано для работы на более крупном сервере, причем все это становится невидимым для пользователя.
Кроме того, Qlik может быть развернут таким образом, что один сервер работает в фоновом режиме, извлекает и преобразует большие объемы данных, а другой сервер запускает Приложение, ориентированное на пользователя; без дополнительной нагрузки на обработку фоновых задач. Дополнительным преимуществом для ИТ с этой многоуровневой архитектурой является то, что один из них должен получить доступ к источнику транзакционных данных. Эти данные затем могут быть повторно использованы в нескольких приложениях Qlik без обновления.
Администраторы могут также настроить Qlik (QlikView и Qlik Sense) для загрузки только новых данных или изменившихся с момента последней загрузки, что значительно сокращает пропускную способность, требуемую от любого источника данных.
Сегментация
Сегментация — это процесс деления одного приложения Qlik (QlikView и Qlik Sense) на несколько приложений для оптимизации производительности, безопасности, масштабируемости, простоты и сервиса. Данные могут быть сегментированы по регионам или подразделениям. Или пользователь может захотеть сегментировать небольшой dashboard или сводное приложение из другого приложения, содержащего подробные данные. Например, у розничной компании может быть очень большой набор данных и вы хотите представить информацию (и, что еще важнее, информацию) в приложении для розничной торговли по отделам, а также руководителям и нескольким аналитикам, которые выполняют основную часть анализа. Сегментация позволит нам «разбить» большой набор данных, которые будут находиться в приложении, на куски, которые необходимы этим разным группам. Если это будет сделано, каждая из этих групп сможет использовать свое приложение, не требуя мощности ОЗУ и ЦП, необходимых для полной версии приложения. Обратите внимание, что сегментация требует очень небольшого обслуживания или накладных расходов для управления сегментированными версиями.
Цепочка
Цепочка относится к связыванию (или переходу) из одного приложения Qlik (QlikView и Qlik Sense) в другое и поддержанию некоторого «состояния» или выбора, которые пользователь сделал для привязки. Хотя это отдельные приложения Qlik, даже потенциально работающие на разных серверах, они могут совместно использовать состояния выбора. Например, приложение CRM включает в себя несколько различных клиентских зон. Каждая из клиентских зон соответствует отделу внутри компании. Qlik может быть настроен так, чтобы иметь панель инструментов и комплексное приложение общей клиентской базы. Эти приложения затем связаны или привязаны к клиентским зонам, характерным для каждого отдела. Таким образом, цепочка — это еще один метод, который позволяет клиенту управлять приложениями, которые будут содержать слишком много данных для их аппаратного обеспечения для обработки одним гигантским приложением.
Важно отметить, что методы сегментации и цепочки также могут быть использованы вместе, разделяя многогранные представления данных на тематические представления и затем связывая эти отдельные виды с каждым из них.
Создание по запросу
Генерация приложений по требованию по требованию (ODAG) — это метод, который позволяет пользователю автоматически создавать целевое приложение для анализа каждый раз, когда они выбирают срез очень большого источника данных.
Подавляющее большинство пользователей не хотят анализировать весь источник BigData и чаще всего они изначально не знают, какой «срез» данных они хотят проанализировать более подробно. Таким образом, желательным является метод быстрого сканирования BigData для потенциально интересных разделов, которые требуют более подробного анализа. В некоторых случаях эта потребность может быть решена с использованием концепций цепочки и сегментации — краткое приложение будет привязано к другим приложениям, каждое из которых содержит сегмент источника данных более подробно. Но что если слишком много потенциальных сегментов для предварительного определения в качестве приложений? Что делать, если пользователь не знает, какие части базы данных они хотят анализировать? Открытие данных Freeform означает, что пользователь может анализировать в любом направлении. И это может означать, что нужно новое Приложение, каждый раз, когда обнаруживается неизученная область.
Поэтапное создание приложений может быть очень ценным в сценариях, когда пользователь может не знать точно, какую часть базы данных он хочет проанализировать подробно (в деталях). Приложение по требованию обычно состоит из двух разных приложений: первоначально пользователям предоставляется выбор, в котором они из «списка покупок», определенных подмножеств данных, таких как, период времени, сегмент клиента или география. Этот выбор затем можно использовать для запуска немедленного создания целевого приложения для анализа, которое содержит только подробные данные, относящиеся к выбору. Затем пользователь может исследовать выбранные подробные данные в любом направлении, используя возможности Qlik в памяти. Поскольку эти приложения регулируются стандартными правилами безопасности Qlik Sense, можно контролировать, кто может получил доступ к подробным данным и сводной информации.
Теперь у пользователей есть возможность легко исследовать разные фрагменты источника данных без необходимости разработки нового приложения каждый раз, когда он хочет проанализировать набор данных. Это также позволяет администратору предоставлять пользователям доступ к источнику данных огромного размера, поскольку только запрошенный фрагмент подробных данных фактически обрабатывается в памяти в любой момент времени.
Другие методы
Существуют другие методы, которые можно использовать для доступа к Big Data. Существует множество партнерских технологий и инструментов, которые могут быть интегрированы с платформой Qlik. Более того, можно также разработать собственное аналитическое приложение с использованием JavaScript и API, используемый App-Demand App Generation в фоновом режиме. Подобно стандартным расширениям ODAG, которые поставляются с Qlik Sense, пользовательские приложения генерируют фильтрованный набор данных для анализа через API в Qlik Sense или QMS API / EDX в QlikView. Разработка таких приложений для клиентов, скорее всего, потребует больших технических навыков, но устраняет любые ограничения, налагаемые стандартной функциональностью Qlik. Например, можно разработать единый дизайн пользовательского интерфейса, который содержит приложения для выбора и анализа.
Подключение Qlik (QlikView и Qlik Sense) к Big Data
Qlik разработан как открытая платформа и поставляется с рядом встроенных и сторонних возможностей подключения к хранилищам Big Data.
- Возможность подключения ODBC. Встроенное ODBC-подключение Qlik включает в себя драйверы для Apache Hive, Cloudera Impala и другого программного обеспечения. Дополнительные инструменты BigData могут быть доступны с использованием ODBC-коннектора поставщика. Например, Micro Focus предоставляет драйвер ODBC для Vertica — платформы для анализа данных BigData.
- Возможность подключения к источнику данных. Qlik сотрудничает с несколькими поставщиками, чтобы быть сертификацированным поставщиком драйверов ODBC. Например, MapR сертифицировал Qlik для Apache Drill, и Qlik получили сертификат SAP для своего драйвера HANA ODBC.
- Партнерская связь. Ряд партнеров Qlik разработали коннекторы, предназначенные для работы с определенными источниками данных или приложениями, где Qlik еще не предлагает подключения. Этот растущий список разработанных партнерами коннекторов можно найти на market.qlik.com.
Qlik преодолел последнюю милю Big Data
Одной из серьезных проблем в телекоммуникационном секторе является «последняя миля» — доводка телефонного, кабельного или интернет-сервиса до конечной точки дома. Поставщику услуг дорого обходится магистральная сеть — выкопать траншеи и установить линии. В результате, в некоторых случаях провайдеры телекоммуникационных услуг переносят высокие затраты на установку на клиента или вообще игнорируют последнюю милю.
В Big Data также есть проблема «последней мили». Сегодня большинство поставщиков технологий, работающих над проблемами BigData, сосредоточены на обработке данных — они ориентированы на основу, используют аналогию. Но последняя миля — это то, где сосредоточен Qlik. Миссия Qlik заключается в упрощении решений для всех, путем предоставления возможности увидеть всю историю, которая живет в их данных.
Qlik уже делает BigData, и он делает это хорошо. Многие клиенты успешно использовали Qlik для увеличения стоимости своих инвестиций в технологию Big Data, гарантируя, что они не ограничивается только научными данными. Вместо этого Qlik позволяет каждому пользователю получать доступ и взаимодействовать с информацией Big Data в сочетании с традиционными источниками данных, а затем использует мощный ассоциативный опыт Qlik, чтобы получить новое представление.