Следующий раздел: ОРу. Финальный проект

Вернуться в раздел: Основы Python и анализа данных

Вернуться в оглавление: Я.Практикум

6. Машинное обучение.

   6.1 Введение.

     В этой теме вы изучите основы профессии «Специалист по Data Science». Вам предстоит построить свою первую модель машинного обучения для классификации клиентов и узнать:
  • Что такое задачи классификации.
  • Для чего нужна целевая переменная.
  • Как рассчитывается метрика Евклида.
  • Как применять метод ближайших соседей для решения задач классификации.
     В этой теме вы пройдёте через весь рабочий процесс специалиста по Data Science: предобработаете данные, проведёте исследовательский анализ и построите модель машинного обучения.

   6.2 Кто такой специалист по Data Science.

   6.3 И роботы учатся.

   6.4 Как обучить машину.

   6.5 Классифицируем клиентов.

   6.6 Введение в машинное обучение.

   6.7 Базовые термины машинного обучения.

   6.8 Метрика евклида.

    Уже в следующем уроке вы изучите алгоритм машинного обучения, который в ходе обучения вычисляет расстояния между разными объектами.     Чтобы его построить, нужно вспомнить, как вычислять расстояние на плоскости.
    Согласно Евклиду, чтобы найти расстояние между двумя точками на плоскости, нужно подставить их координаты в формулу:

   6.9 Алгоритм K ближайших соседей.

   6.10 Модель kNN. Применение.

    Реализация алгоритма и вывод результата

    import pandas
    from sklearn.neighbors import KNeighborsClassifier

    train_data = pandas.read_csv('Train.csv')  
    test_data = pandas.read_csv('Test.csv')

    X_train = train_data.drop('Segmentation', axis=1)
    y_train = train_data['Segmentation']

    X_test = test_data.drop('Segmentation', axis=1)
    y_test = test_data['Segmentation']

    knn = KNeighborsClassifier(n_neighbors=30)

    knn = knn.fit(X_train,y_train ) # обучите модель по обучающей выборке классифицировать классы

    y_pred =  knn.predict(X_test)# запустите модель строить прогнозы на тестовой выборке

    print(y_pred) # выведите на экран получившиеся предсказания

   Проверка доли правильных ответов

import pandas
from sklearn.neighbors import KNeighborsClassifier
 # импортируйте метрику доли правильных ответов accuracy_score из sklearn.metrics
from sklearn.metrics import accuracy_score

train_data = pandas.read_csv('Train.csv') 
test_data = pandas.read_csv('Test.csv') 

X_train = train_data.drop('Segmentation', axis=1)
y_train = train_data['Segmentation']

X_test = test_data.drop('Segmentation', axis=1)
y_test = test_data['Segmentation']

knn = KNeighborsClassifier(n_neighbors=30) 

knn.fit(X_train, y_train) 

y_pred = knn.predict(X_test) 
accuracy = accuracy_score (y_test,y_pred) # подсчитайте долю правильных ответов предсказанных значений целевой переменной с истинными ответами на тестовой выборке

print("Доля правильных ответов:", accuracy) # выведите на экран получившиеся предсказания

   6.11 Возвращение.

   6.12 Заключение.

    В этой теме вы познакомились с основами машинного обучения. Теперь вы сможете:
  • ориентироваться в терминологии машинного обучения: объекты, признаки, целевая переменная, модель, качество;
  • формулировать базовую постановку задачи машинного обучения;
  • объяснять, как устроен и обучается алгоритм ближайших соседей (kNN);
  • применять алгоритм kNN на данных, используя библиотеку sklearn;
  • замерять качество прогнозов обученной модели с помощью метрики accuracy.
    Впереди вас ждёт финальный проект, в котором вам предстоит применить все освоенные навыки в ходе изученного курса.
 

Следующий раздел: ОРу. Финальный проект

Вернуться в раздел: Основы Python и анализа данных

Вернуться в оглавление: Я.Практикум