Аннотация:Данные - это не что иное, как актив в современном мире. Данные в настоящее время сильно искажены несоответствиями, шумом, неполной информацией и пропущенными значениями. Они агрегируются из разнообразных источников с использованием методов интеллектуального анализа данных и хранилищ. Предварительная обработка данных служит основой для достоверного анализа. Это необходимый шаг в построении анализа оперативных данных, учитывая недостатки в их качестве. Также предобработка относится к основному набору методов для повышения качества исходных данных, таких как очистка, нормализация, отбор необходимых признаков и экземпляров. Так как полученные данные представлены в необработанном виде, обучение модели с их использованием может оказаться недостижимым. Эта статья представляет собой обзор методов предварительной обработки для анализа используемых данных. Также в ней рассмотрены этапы предварительной обработки данных, изучены виды признаков в машинном обучении, произведен обзор категориальных переменных. Продемонстрированы пять этапов предобработки данных, рассмотрены виды признаков при обработке данных для машинного обучения, описаны категориальные признаки и приведены два вида примеров категориальных переменных.