Лабораторная работа по машинному обучению

Полина4 года в сервисе
Данные заказчика будут вам доступны после подачи заявки
09.12.2020

Все задания выполняются на dataset: https://www.kaggle.com/crowdflower/twitter-user-gender-classification

1. Предобработка данных (http://scikit-learn.org/stable/modules/preprocessing.html)

https://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/

Оценить качество данных (полноту, точность и полезность данных). Оценить долю пропущенных значений и дубликатов в данных, наличие шумов и выбросов (http://scikit-learn.org/stable/auto_examples/ensemble/plot_bias_variance.html).

Обработка пропущенных данных и дубликатов- https://devpractice.ru/pandas-work-with-nan-part4/

https://www.datacamp.com/courses/cleaning-data-in-python

https://www.tutorialspoint.com/python/python_data_cleansing.htm

Обработка шума и выбросов. При наличии в данных шума и выбросов стоит проводить исследования в два этапа: 1) с выбросами и 2) с их отсутствием. Далее сравнить полученные результаты .

https://machinelearningmastery.com/how-to-use-statistics-to-identify-outliers-in-data/

2. Построение модели

В зависимости от поставленной задачи, использовать следующие модели:

https://habr.com/company/microsoft/blog/317512/

3. Отбор признаков

Отобрать наиболее информативные признаки - http://scikit-learn.org/stable/modules/feature_selection.html

4. Оценка качества модели

http://scikit-learn.org/stable/model_selection.html

Примечание. Задание рекомендуется выполнять с использованием специализированного пакета для машинного обучения scikit-learn на языке Python.

Задания 3-6 из прикрепленного файла

Заявки фрилансеров