Лабораторная работа по машинному обучению
Все задания выполняются на dataset: https://www.kaggle.com/crowdflower/twitter-user-gender-classification
1. Предобработка данных (http://scikit-learn.org/stable/modules/preprocessing.html)
https://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/
Оценить качество данных (полноту, точность и полезность данных). Оценить долю пропущенных значений и дубликатов в данных, наличие шумов и выбросов (http://scikit-learn.org/stable/auto_examples/ensemble/plot_bias_variance.html).
Обработка пропущенных данных и дубликатов- https://devpractice.ru/pandas-work-with-nan-part4/
https://www.datacamp.com/courses/cleaning-data-in-python
https://www.tutorialspoint.com/python/python_data_cleansing.htm
Обработка шума и выбросов. При наличии в данных шума и выбросов стоит проводить исследования в два этапа: 1) с выбросами и 2) с их отсутствием. Далее сравнить полученные результаты .
https://machinelearningmastery.com/how-to-use-statistics-to-identify-outliers-in-data/
2. Построение модели
В зависимости от поставленной задачи, использовать следующие модели:
https://habr.com/company/microsoft/blog/317512/
3. Отбор признаков
Отобрать наиболее информативные признаки - http://scikit-learn.org/stable/modules/feature_selection.html
4. Оценка качества модели
http://scikit-learn.org/stable/model_selection.html
Примечание. Задание рекомендуется выполнять с использованием специализированного пакета для машинного обучения scikit-learn на языке Python.
Задания 3-6 из прикрепленного файла