для чего используется rapidminer

Машинное обучение в RapidMiner

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Дмитрий Соболев, Игорь Мастерной, Рафаэль Зубаиров

Не заметить, как быстро растет общий объем собираемых метрик, просто невозможно. Увеличивается не только частота с которой автоматические системы собирают данные, пропускная способность хранилищ данных, но и сам набор метрик, которые мы можем использовать. Эта тенденция наиболее явно выражена в IoT, но и другие отрасли могут похвастаться огромным набором источников данных — публичных или доступных по специальной подписке.

Увеличение объема данных создает новые вызовы для аналитиков и специалистов, работающих над оптимизацией бизнес-задач. Темпы развития мировой экономики увеличиваются, но именно быстрая реакция на изменения на микроуровне позволяет отдельным компаниям расширяться. И здесь на помощь приходят инструменты анализа данных и машинного обучения.

В 2000-х машинное обучение и глубокий анализ данных были уделом университетских групп и специализированных стартапов. Сегодня любая компания имеет доступ к практически неограниченному и алгоритмов, подходов и готовых решений для создания автоматических систем, а также целому набору продуктов для анализа данных.

Машинное обучение сейчас используется не только корпорациями уровня Microsoft и Google, даже небольшие компании могут воспользоваться преимуществами, которые дает качественный анализ данных или система рекомендаций. Если до недавнего времени применение подобных методов требовало найма программистов, аналитиков, дата-сайентистов, то сейчас на рынке появляются сервисы и приложения для машинного обучения, которые позволяют в более дружелюбной форме, с использованием графического интерфейса, обрабатывать данные и строить предсказательные модели. Использовать их способен даже человек с минимальными знаниями в этой области.

Сейчас тройка лидеров в автоматизированном и упрощённом машинном обучении состоит из DataRobot, RapidMiner и BigMl. В этой статье мы подробно рассмотрим RapidMiner — расскажем о том, что он умеет и как может вам облегчить жизнь.

RapidMainer

Любому бизнесу критически важно оценивать показатель “work force” в отдельные периоды времени. Это позволяет планировать бизнес-проекты, которые всегда во многом завязаны на человеческие ресурсы. Дополнительным фактором риска могут служить сезонные всплески простудных заболеваний: каждый год зимой приличный процент сотрудников оказывается на больничных. В результате сроки окончания проектов сдвигаются, а любая компания, разумеется, таких сдвигов хотела бы избежать. В этом может помочь машинное обучение.

С помощью RapidMiner мы проанализируем данные о простудных заболеваниях и построим модель, способную предсказывать вспышки болезней. Исходя из результатов прогноза, компания сможет заранее принять меры и избежать убытков.

Давайте познакомимся с программой:

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис. 1 Экранная форма программы RapidMiner.

В левой части экрана расположены панель загрузки данных и панель операторов. RadpidMiner предоставляет возможность загрузки данных из БД или облачных хранилищ (Amazon S3, Azure Blob, Dropbox). Набор операторов для удобства разделен на категории:

В центральной части экрана расположена рабочая область для создания процессов преобразования данных. С помощью drag and drop мы добавляем в процесс данные, с которыми будем работать, и операторы преобразования данных, моделирования и т. д. Задавая связи между данными и операторами, мы задаем ход выполнения процесса. Внизу по центру панель с подсказками — основываясь на процессах, построенных другими пользователями, она советует вам, какую операцию произвести следующей. Справа панель с параметрами выбранной операции и подробная документация параметров и принципов работы.

Для начала загрузим данные (см. Рис 2) о количестве украинских поисковых запросов в Google, связанных с простудой. Пример данных вы можете увидеть в Таблице 1 раздела Приложения.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис. 2 Вид данных по Украине

Данные представляют собой количество запросов на конец недели с 2005 по 2015 год. При импортировании данных необходимо задать формат даты для корректного построения временных графиков. Соединим выход блока данных с точкой вывода результатов процесса (res). При нажатии кнопки «старт» программа покажет общую статистику. Результаты работы отражены на Рис. 4.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис. 3 Процесс формирования общей статистики.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис. 4 Общая статистика для данных по Украине.

Используя вкладку Charts, построим график распределения данных (Рис. 5). График отражает очевидную периодичность заболеваемости простудой: первая волна начинается осенью, а пик мы можем наблюдать к февралю. Теперь возьмём данные для России и посмотрим сохранится ли в них такая же периодичность, совпадают ли вспышки с теми периодами, которые мы выделили в Украине. Для этого загружаем новые данные и объединяем их с загруженными ранее; объединение производим по полю Дата с помощью оператора “Join”.

На графиках, изображенных на Рис. 5 и 6, мы можем видеть, что цикличность сохраняется и пики заболеваемости практически совпадают.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис. 5 Количество запросов о простуде с 2005 года.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис. 6 Данные о простуде для Украины и России.

Построение модели

Перейдем к построению модели, которая будет предсказывать количество заболевших в Украине. Прогнозировать будем значение ряда на следующую неделю на основании значений четырех предыдущих недель (примерно одного месяца). В этой статье мы используем нейронную сеть прямого распространения для прогнозирования временного ряда. Выбор нейронных сетей обоснован простотой подбора параметров модели и их дальнейшего использования. В отличии от моделей авторегрессии и скользящего среднего нейронные сети не требуют проведения корреляционного анализа временного ряда.

На Рис. 7 изображена схема процесса, позволяющего прогнозировать значения временного ряда:

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис. 7 Процесс построения прогноза в RapidMiner.

Для корректной работы оператора нейронной сети необходимо преобразовать изначальный временной ряд в формат обучающей выборки. Для этого мы использовали оператор Windowing из пакета расширений Series Extension. Таким образом из столбца значений мы получили таблицу вида:

Таблица 1. Представление обучающей выборки для нейронной сети

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Далее с помощью оператора “Select Attributes” мы убрали из выборки лишние поля (даты для значений 1—4). Обучение нейронной сети с учителем предполагает наличие обучающей и тестовой выборки, поэтому с помощью оператора “Split Data” мы разделили ВР в пропорции 80 на 20. Согласно документации оператора “Neural Net”, необходимо, чтобы столбец прогнозируемых значений в обучающей выборке имел название/роль “Label”, для чего был использован оператор “Set Role”. Поскольку столбец “Дата прогноза” не участвует в прогнозировании, ему необходимо присвоить роль “Id”. Второй выход оператора “Split Data” и выход “mod” оператора “Neural Net” соединяем с соответствующими входами “ApplyModel”. Оператор “Apply Model” подает на вход натренированной модели контрольную выборку и сопоставляет прогнозируемое и реальное значения. Завершающий этап нашего процесса — оператор “Performance”, необходимый для определения погрешности результатов. Прогнозируемому значению, полученному от “Apply model” с помощью “Set Role(2)”, была присвоена роль “Prediction”.

Рассмотрим параметры используемых операторов нейросети и погрешности вычислений. Опытным путем мы пришли к архитектуре нейронной сети, изображенной на рис 8. Нейронная сеть (deep feed forward neural network) имеет 2 скрытых слоя: 4 нейрона в первом и 12 во втором. В качестве функции активации использовали сигмоиду. Обучение проводилось на нормализованных входных данных с коэффициентом обучения 0.5 и количеством циклов 1500.

Результаты прогнозирования

RapidMiner в качестве результата нашей модели предоставляет три артефакта:
модель: ее графическое представление, параметры и векторы весов;
результаты подсчитанных погрешностей;
выборку тестовых данных, дополненную столбцом прогнозируемых значений.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис 8. Архитектура нейронной сети

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
Рис. 9 График прогнозируемых и реальных значений

На рис. 9 мы можем увидеть результат прогнозирования. Как видите, график с предсказанными данными очень близок к реальным данным. Оценим результаты построенной модели, рассчитав погрешность прогноза по формулам (1, 2).

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

где An— реальное значение, Fn— прогнозируемое значение

В результате вычислений мы получили:

Выводы

Массовое внедрение технологий машинного обучения повлекло за собой создание инструментария различной степени сложности для конечного пользователя. Представленная в статье программа Rapid Miner, снижает порог вхождения для начала изучения технологий Machine Learning.

Если вы используете эту программу, вам не нужно уметь писать код на Python или R. Rapid Miner всячески подсказывает следующее действие в цепочке подготовки данных, тренировки модели, её валидации и оценки точности. Он позволяет автоматически исправлять некоторые ошибки в процессе, может помочь и объяснить отдельные, не до конца понятные вам моменты.

При написании статьи мы изучили функционал RapidMiner. Он довольно обширен и предоставляет возможность применения сложных архитектур нейросетей и более тонкой настройки их параметров: выбора функции активации, конфигурации нейронных связей скрытых слоев и т. д. Наличие лицензии позволяет производить вычисления в облаке Rapid Miner, что должно сократить время обучения и ускорить процесс по дургим характеристикам. Кроме того, лицензия позволяет загружать больше данных и не ограничивает пользователя десятью тысячами строк.

Построенная в статье математическая модель достигла погрешности около 6% на тестовых данных и с некоторыми изменениями может быть использована для прогнозирования роста простудных заболеваний. Однако нашей основной целью было показать простоту и лаконичность использованной программы.

Используя Rapid Miner и подобный подход, любая компания может предсказывать ситуации, подобные вспышкам простудных заболеваний. Превентивные меры, принятые на основе прогноза, позволяют сократить риски и в конечном счете повысить прибыль.

Источник

RapidMiner – Data Mining и BigData у вас дома, быстро и без подготовки (почти)

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.

Закачка, установка и получение первых результатов — минут 20 максимум.

Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.

Что надо знать про RapidMiner

Вот интерфейс. Вы закидываете данные, а потом просто перетаскиваете операторы в GUI, формируя процесс обработки данных. От вас — только понимание того, что вы делаете. Весь код берёт на себя среда. «Под капот» можно, конечно, залезть, но в большинстве случаев это просто не надо.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Важные фичи

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Минусы

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

RapidMiner vs IBM SPSS Modeler

У RM гораздо шире функциональные возможности по обработке, банально больше узлов. С другой стороны, в SPSS есть режимы «автопилота». Авто-модели (Auto Numeric, Auto Classifier) — перебирают несколько возможных моделей с разными параметрами, выбирают несколько лучших. Не сильно опытный аналитик может построить на таком адекватную модель. Она почти наверняка будет уступать в точности построенным опытным специалистом, но есть сам факт — можно построить модель ничего не понимая в этом. В RM есть аналог (Loop and Deliver Best), но он все же требует хотя бы выбрать модели и критерии выбора лучшего. Автоматическая предобработка данных (Auto Data Prep) — другая известная фишка SPSS — иначе и чуть более муторно реализована в RapidMiner.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
В SPSS сборка данных выполняется одним узлом Automated Data Preparation, галочками проставляется, что нужно сделать с данными. В RapidMiner — собирается из атомарных узлов в произвольной последовательности.

RapidMiner vs SAS

По возможностям «сделать что угодно» RM выше, но, в конечном итоге, с помощью какой-то матери и некоторых усложнений можно получить тот же результат и в SAS. Но здесь совершенно другой подход — придётся переучиваться, если вы привыкли к SAS. Ещё SAS предоставляет множество вертикальных решений — банки, ритейл. Платформа разговаривает с пользователем на его бизнес-языке. RM более абстрактен, в нём придётся самому формулировать, что есть что.

RapidMiner vs Demantra

Не совсем правильно сравнивать эти два пакета, но важно для иллюстрации того, как работает RM. Oracle Demantra (и, очень грубо, все схожие продукты под конкретную индустрию или задачу)- это готовый пакет, заточенный под конкретные задачи закупок и поставок. Там есть конкретные операции — загрузили данные о продажах, получили прогноз по закупкам товара. Одна модель, очень много готовых шаблонов. Дорого, круто и под большой бизнес.

С другой стороны, в RM можно повторить всё то же самое, но половину логики придётся изобретать заново. Это очень удобно для data scientist’ов в плане кастомизации и гибкости конечного решения, но крайне сложно для бизнес-пользователей — они просто не увидят знакомых слов и инструментов

Архитектура

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Задачи

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer
А это моя (и не только моя) любимая тема — метамоделирование. Для тех, кто немного в стороне от этого — разные модели часто находят разные взаимосвязи, формируя на одной и той же выборке разные результаты. И ошибаются часто тоже в разных местах. И это нужно использовать — составить ансамбль моделей (Model Ensemble) Например, оператор Vote (голосование) — учитываются «мнения» всех моделей, входящих в ансамбль и на выход выдается результат, набравший наибольшее количество «голосов». Или один из наиболее популярных среди «продвинутых» data scientist’ов метод Bagging (Bootstrap Aggregation) — обучение нескольких моделей на разных подвыборках исходных данных с последующим усреднением их результатов.

Миграция

Что могу сказать по опыту нескольких переходов на RapidMiner: тут важно отметить, что с точки зрения Data Science впечатления положительны. Технологически немного хуже — очистка данных пошла труднее, мы уже привыкли к парадигме и простоте SPSS и SAS. Здесь нужно было больше перестраивать мозг — всё делается совсем по-другому. Очень разные архитектурные реализации, поэтому сразу говорю — мигрировать самостоятельно будет достаточно сложно в плане компетенций специалистов. Учиться надо заново. Но для нас и заказчиков результат того стоил.

Очень много приятых мелких фишек. Например, имеет смысл сказать про «макросы» — это параметры работы процесса, которые можно использовать в любой его точке. Например, в качестве макроса можно использовать имя файла, дату его создания, среднее значение какого-либо атрибута данных, наилучшую достигнутую точность, номер итерации, последнее время запуска процесса. Часто выручает при создании нетривиальных операций обработки. К примеру, с помощью макроса может быть ограничено время выполнения операции, при этом порог времени не фиксируется, а является расчетным параметром — зависит от размера данных, времени суток (ночные оптимизации могут выполняться дольше).

Из недавнего — строили модель для прогнозирования пассажиропотока. Вот тут уже мы использовали RM на 100%, т.к. строили все «с нуля» и некуда было оглядываться, не нужно было переносить существующие процессы и пытаться их повторить на другом инструменте.

Что делать, чтобы начать

Возьмите свежего донора, то есть наберите любых данных, например, о продажах. Если нет своих — не беда, в комплекте даже бесплатного стартера несколько демо-наборов. Попробуйте посмотреть на свои данные через акселератор для преднастройки процессов. Там 4 готовых процесса, и они на встроенной модели строят обработчики. Поиграйте с данными прямо в GUI, посмотрите, как это круто. Экспериментируйте.

Вот ссылка на закачку собранного релиза с официального сайта.

Если у вас данных мало — просто пользуйтесь, пока не надоест, компания прекрасно понимает, что их полную версию покупает только средний и большой бизнес. Если данных мало — вам будет важно знать, что цены фиксированные, не зависят от заказчика.

Если чувствуете, что штука крутая, но хочется освоить быстро — приходите к нам в учебный центр. Мы — официальный партнёр RapidMiner, и по итогам курсов выдаются сертификаты.От вас — базовые знания матстатистики (хотя бы представлять, что такое выбросы, среднее значение, нормальное распределение и дисперсия) и базовые знания компьютера. Мы дадим свои наборы данных от одного немецкого телекома, если у вас нет своего (или приносите в обезличенном виде его тоже) и вместе соберём кейс по прогнозированию оттока клиентов. А потом смоделируем модель исходя из того, сколько денег есть на их удержание. Например, есть 10 тысяч рублей и 100 000 клиентов — нужно выбрать из них тех, кого дешевле удержать, и кто больше принесет компании денег в перспективе. Попасть в наиболее вероятного клиента и максимизировать конечную выгоду (это, кстати, называется Uplift Modeling или, если вы больше привыкли к терминологии SAS — Incremental Response Modeling).

И ещё раз: версия Starter полноценная с точки зрения аналитического функционала, а, значит, proof-of-concept вашей идеи для вашей компании можно сделать абсолютно бесплатно.

Источник

Введение в RapidMiner

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminerНа данный момент существует много компаний нуждающихся в системах аналитики, но дороговизна и чрезмерная сложность данного ПО в большинстве случаев вынуждает отказаться от идеи построения собственной аналитической системы в пользу простого всем известного экселя. Также дополнительные расходы на обучение сотрудников, поддерживание дорогих систем хранения данных и т.д. И тут на помощь могут прийти Open Source решения — их не так много, но есть очень достойное ПО, одним из которых которых является RapidMiner. RapidMiner (далее просто «майнер») — инструмент созданный для дата майнинга, с основной идеей, что майнер (аналитик) не должен программировать при выполнении своей работы. При этом как известно, для майнинга нужны данные, поэтому его снабдили достаточно хорошим набором операторов решающих большой спектр задач получения и обработки информации из разнообразных источников (базы данных, файлы и т.п.), и можно с уверенностью говорить, что это ещё и полноценный инструмент для ETL.

Помимо самого майнера есть ещё и сервер RapidMiner Server (ранее назывался RapidAnalytics, до версии 6) который может использоваться как репозиторий для хранения и выполнения процессов майнера (в том числе по расписанию), «шарить» соединения к источникам данных между пользователями, отдавать данные из процессов майнера как веб-сервис.

К нашему с вами сожалению, с 6 версии создатели майнера решили начать зарабатывать денежку на продажах этого ПО и сменили лицензию с AGPL на Business Source. Тем не менее 5 версия AGPL и мы можем её использовать свободно и без ограничений. Поэтому в статье будет рассмотрена именно она. Также отметим, что в шестой версии не так много новых операторов и функций (пожалуй самое интересно это поддержка облака), и для большинства задач хватит RapidMiner 5 Community.

Установка

Не так давно c официального сайта ссылки на скачивание RapidMiner 5 были удалены, поэтому соберем RM из исходного кода который возьмем в официальном проекте на гитхабе.

следующий шаг соберем проект

теперь запустим майнер

для линукса соответственно
Перед вами откроется окно как на картинке справа. Нажимаем на New Process и идем дальше.

Основные понятия

Перед тем как на примере посмотреть основные принципы работы с RapidMiner сделаем небольшое введение в его основные понятия.

Процесс

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Оператор

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminerЛогическая единица процесса. Оператор производит какие то действия над данными, у него есть вход-выход (так называемые «порты»), на вход приходят данные, на выход идут обработанные оператором данные. Таким образом мы можем делать цепочки обработки данных, к примеру — считать транзакции клиентов из БД, найти самые большие, сконвертировать в доллары и выдать результат. При этом можно цепочки параллелить — к примеру в одной мы читаем транзакции из разных БД, а в другой ищем данные клиентов, потом объединяем и получаем результат (при этом также возможно их параллельное исполнение во времени!).

В интерфейсе программы операторам соответствует вкладка Operators — где в иерархии они сгруппированы по функциональному признаку. Чтобы воспользоваться оператором необходимо нажать на него и перенести в рабочую область процесса.

Репозиторий

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminerМесто для хранения процессов RM. Может быть локальным, а также удаленным (RapidMiner Server), для которого возможно исполнять процессы на стороне сервера, многопользовательский доступ к процессам/соединениям БД, запуск процессов по расписанию или отдача данных как веб-сервис.

Контекст процесса

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminerКонтексту соответствует вкладка Context где мы можем увидеть три секции:

Самое лучшее обучение — практика. Сделаем небольшой процесс на основе которого увидим основные принципы работы с майнером.

Небольшая задачка

Вы директор небольшой компании, которая занимается созданием сайтов, промышленным дизайном и т.д. Достаточно часто, ввиду большого количества заказов и недостатка сотрудников вы нанимаете фрилансеров из разных стран (т.к. клиенты со всего мира) и исправно вносите информацию о выполненных работах в эксель табличку указывая имя исполнителя, род работы, дату оплаты, сумму и валюту оплаты. В какой то момент вам захотелось получить сумму затрат, в рублях (на курс ЦБ), которую вы понесли в разбивке по видам работ на конкретную дату (более интересные случаи — разбивка по месяцам, сотрудникам остаются на собственные эксперименты).

Обратим внимание на нажатую кнопку для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer— режим эксперта. В нём доступны дополнительные параметры для операторов, как правило нужные почти всегда и помечаемые курсивом.

Выставляем параметры как на картинке справа и жмем на Edit list справа от data set meta data information снизу. Выставляем все как на картинке ниже

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Как можно догадаться тут мы выставляем названия колонок, галочка ставится, чтобы исключить или включить колонку из результата парсинга, тип и роль. Роли отличные от attribute могут понадобиться в майнинге, в обычном же случае они как правило не требуются.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminerС помощью добавленного оператора мы выберем записи только на указанную дату которую объявим как макрос процесса. Идем на вкладку Context процесса, там находим секцию Macros и нажимаем на для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer. В колонке Macro пишем date, а в Value желаемую дату, пусть это будет 30.06.2012.

Так вкладка Context на данном шаге у вас будет выглядеть как на картинке справа. Макрос (напомню, т.е. глобальную переменную) мы определили и теперь воспользуемся им для фильтра записей по дате из нашего CSVшничка. Жмем на оператор Filter Examples выбираем в condition class attribute_value_filter и в parameter string пишем: date = %. Слева мы указали название колонки по которой происходит фильтрация, по центру операция проверки на равенство и справа взятие значения из макроса.

Посмотрим, что получилось. Жмём на кнопочку запуска процесса для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminerи майнер переключившись на Result perspective (если этого не произошло нажмите на для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer) отобразит отфильтрованные данные на 30 июля 2012 года.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Где url: http://www.cbr.ru/scripts/XML_daily.asp?date_req=%
Обратим внимание, что мы подставили макрос в параметр оператора.

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminerОбратите внимание, что выставлена галочка parse numbers и разделителем целой и дробной части выставлена запятая.

Необходимо определить какие атрибуты RapidMiner возьмет для ExampleSet. Нажимаем на Edit enumeration справа отxpath for attributes, добавляем две записи

Value[1]/text() — стоимость в рублях единицы валюты
CharCode[1]/text() — буквенный код валюты

Теперь необходимо выставить типы значений для атрибутов. Для этого нажимаем на Edit list справа от data set meta datainformation и выставляем как на картинке ниже

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

На данном этапе мы имеем процесс который у вас должен выглядеть так

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Теперь нажмем на оператор Join и определим как именно будут объединятся данные. Убираем галочку use id attribute as key, так как объединение у нас происходит по полю currency, появится новый параметр key attributes нажмем слева от него наEdit list, в диалоге Add entry и в обоих полях пропишем — currency. Сохраняем изменения. Можем посмотреть, что получилось, аналогично тому как это делалось выше нажав на кнопочкудля чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer. Результат будет таким

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Сохраняем изменения и выполняем процесс, наш результат

для чего используется rapidminer. Смотреть фото для чего используется rapidminer. Смотреть картинку для чего используется rapidminer. Картинка про для чего используется rapidminer. Фото для чего используется rapidminer

Ура! Вот она заветная цифра затрат в рублях которую мы понесли по курсу ЦБ на дату оплаты. Развить данную задачу можно очень далеко, к примеру сделать вывод информации за месяц, в группировке по типу работ, исполнителю или датам. В общем, простор фантазии.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *