Очистка данных в Deductor | — Терногон / Ternogon
Терногон / Ternogon

Предмет: Интеллектуальный анализ данных.

Курс: 3.

Университет: РТУ МИРЭА (Московский Институт Радиоэлектроники и Автоматики)
Факультет (институт): КБСП (Комплексной безопасности и специального приборостроения)

Задание

Отчет подготовлен к Практической работе №2 по пособию С.Б. Данилевича

Программное обеспечение: Deductor Studio Academic 5.3

Именно из-за разницы в версиях 5.2 и 5.3 указания в заданиях будут неверны. Так как в версии 5.3 обработчики претерпели сильные изменения.

Пособие

 


  1. Восстановление пропущенных данных
    1. Подготовленная таблица функции Sin(x)

Значения, которые подобрала программа близки к изначальным, что дает нам возможность почти безболезненно для конечного результата восстановить пробелы в исходных данных при четкой функции.

Редактирование аномалий

Ветка

Отсортированная по Сумме Кредита таблица выбросов и экстремальных значений

Диаграмма к таблице выше

Оценка качества данных

Исходная таблица значений, отсортированная по Сумме кредита из Анализа качества данных

Как мы можем заметить, редактор выбросов сильно снизил пик из первых четырех значений, тем самым уменьшив скачки графика ограничив их в значении ~96151. Исходный график будет виден ниже.

Исходный график из Анализа качества данных без операции редактирования выбросов

Сглаживание и очистка от шумов

Ветка

Исходная таблица значений

Исходная диаграмма для дальнейшего сравнения

Диаграмма после применения сглаживания

Диаграмма после применения Вычитания шума

Диаграмма после применения Вейвлет-преобразования

Самостоятельная работа

Проведение парциальной обработки данных, применив к узлу сразу в один прием все три типа обработки: аппроксимацию данных, подавление аномалий большой степени и сглаживание данных с полосой пропуска 50.

Исходный график:

График после проведения парциальной обработки и применения сглаживания:

Как мы можем заметить, провалы на графике стали не такими резкими, как это было на исходной диаграмме. Однако, пропали и возможно интересные нам «ступеньки» значений, что дает лишь приблизительное понимание ситуации. Также подобное представление данных значительно сократит время этап подготовки и фильтрации данных для обучения машины.

График после проведения парциальной обработки и применения Вейвлет-преобразования:

В этом случае анализ несет еще более приблизительный характер, о четком анализе здесь не может быть и речи, однако с подобной визуализацией все еще можно работать, так как это неплохой вариант, чтобы, например, набросать стратегию или понять спрос. Однако, как и в предыдущем примере подобное представление данных так же значительно сократит время этап подготовки и фильтрации данных для обучения машины. Так как шумы и недостоверные данные более не будут мешать обучению.

Ответы на вопросы:

  1. Предварительная обработка данных необходима для очистки данных от мусора на входе, чтобы не получить мусорные данные на выходе.
    «Даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные.»
  2. Дубликаты приводят к избыточности, увеличивают объем выборки, при этом не повышая информативность данных.
    Противоречия приводят к искажению результата анализа и снижают качество моделей, поскольку нарушают общие закономерности в данных, обнаружение которых и является целью исследования.
  3. Предварительная обработка данных подразумевает под собой комплекс мероприятий с данными. В перечень которых входит и очистка данных. Очистка данных включает в себя следующие этапы:
    1. Анализ данных
    2. Определение порядка и правил преобразования данных
    3. Подтверждение
    4. Преобразования
    5. Противоток очищенных данных
  4. Парциальная обработка включает в себя комплекс инструментов для предварительной обработки данных, таких как:
    1. Фильтрация
    2. Оценка качества данных
    3. Заполнение пропусков
    4. Редактирование выбросов
    5. Выявление дубликатов и противоречий
    6. Спектральная обработка
    7. Корелляционный анализ
    8. Факторный анализ
  5. Пропущенные данные не только могут усложнить процесс анализа, но и испортить данные на выходе, так как различные пропуски могут не отразить на выходе верную картину исследования.
    Методы заполнения пропусков:

    1. Оставить без изменения
    2. Заменять наиболее вероятным
    3. Заменять случайными значениями
    4. Заменять средним
    5. Заменять медианой
    6. Заменять значением «Не задано»
    7. Интерполировать
    8. Удалять записи
  1. Зашумленные данные, это данные полученные или измеренные с большими допусками или ошибками.
    Методы подавления шумов:

    1. Сглаживание
      1. Преобразование Фурье
      2. Вейвлет-преобразование
    2. Вычитание шумов с помощью спектральной обработки
  2. Аномалии при анализе данных создают помехи и сказываются на достоверности информации.
    С помощью обработчика «Редактирование выбросов», который предназначен для автоматической корректировки аномальных значений в наборах данных — отклонений от нормального (ожидаемого) поведения чего-либо, мы можем отредактировать аномальные значения.
    Для повышения гибкости обработки аномальных значений в узле предусмотрена возможность их разделения, поскольку они в большинстве случаев имеют различное происхождение:
  • выбросы – это фактически имевшие место события, вызванные исключительными условиями;
  • экстремальные значения – это, как правило, ошибки или фиктивные значения.

Для каждого типа отклонений определяется собственный порог обнаружения, что позволяет сделать процедуру очистки данных более соответствующей логике решаемой задачи (по умолчанию это 3 стандартных отклонения для выброса, 5 стандартных отклонений для экстремального значения).

Комментарии

Тут пока нет комментариев.

Следующая Запись