#41. Случайные деревья и случайный лес. Бутстрэп и бэггинг

#41. Случайные деревья и случайный лес. Бутстрэп и бэггинг | Машинное обучение

Общая идея композиции простых алгоритмов в соответствии с идеей бэггинга (bagging). Способ разбиения обучающей выборки на несколько подвыборок по алгоритму бутстрэп (bootstrap). Бэггинг с решающими деревьями. Случайный лес (random forest). Реализация случайного леса на Python через классы RandomForestClassifier и RandomForestRegressor. Преимущества и недостатки случайного леса.
Инфо-сайт: proproprogs.ru/ml
Телеграм-канал: t.me/machine_learning_selfedu
machine_learning_41_regression.py: github.com/selfedu-rus/machin...
Ансамблевые методы: scikit-learn.ru/1-11-ensemble...

Пікірлер: 12

@artemivanov50132 жыл бұрын
Супер урок!!!Спасибо!
@sergeyworm1476 Жыл бұрын
Спасибо за видео! Всё же, наверное, "генератор" случайных чисел, а не "датчик". Хотя мне "датчик" нравится :)
@tastywhiskyy2 жыл бұрын
Про градиентный бустинг будет? А так все топ
@shapovalentine Жыл бұрын
Очень крутой урок. Единственное не понял проблему (на 9:22): " Алгоритмы aj(x) в своей совокупности должны охватывать как можно больше возможных исходов для каждого вектора x и формировать как можно более независимые ответы >>> Линейный алгоритм не очень пригоден при композиции (усреднении) ответов"
@selfedu_rus
Жыл бұрын
Спасибо! Суперпозиция линейных алгоритмов - это все тот же линейный алгоритм.
@user-il7hc8mw3v Жыл бұрын
Спасибо за видео! Всё же если остановиться на линейных моделях, в теории метод работает? Очевидно, что среднее нескольких независимых моделей лучше чем каждая в отдельности. Но лучше ли это одной модели которая училась на всей выборке? В простейшем случае предсказания константы в шуме, "лучшая" оценка это среднее значение выборки с дисперсией в N раз меньшей, чем у шума, где N - размер выборки. В этом случае можно что-то улучшить взяв несколько подвыборок?
@YbisZX Жыл бұрын
@selfedu 9:04 А как быть с M-классификацией? Выбирать класс по большинству? Или тогда уже лучше по большинству из суммы в конечных листах деревьев?
@selfedu_rus
Жыл бұрын
Здесь можно воспользоваться одной из стратегий для реализации многоклассовой классификации: all-vs-all, one-vs-all. Подробнее здесь proproprogs.ru/ml/ml-mnogoklassovaya-klassifikaciya-metody-one-vs-all-i-all-vs-all
@alexeyermakov7391 Жыл бұрын
Сергей, спасибо! У Вас классные уроки👋 Для меня правда остался непонятным один момент про недостатки случайного леса - невозможность использования для экстраполяции. Однако мы же по факту с помощью predict можем взять и предсказать интересующий нас целевой признак вне интервала, это получается не экстраполяция?
@alexeyermakov7391
Жыл бұрын
Переобучился сам уже. Совсем очевидную вещь спросил,, с этим все понятно
@olbasdjirmyhamedov704
Жыл бұрын
@@alexeyermakov7391 тоже не очень понял про это, можете, пожалуйста пояснить? :)
@YbisZX
Жыл бұрын
@@olbasdjirmyhamedov704 Деревья делают разбивку по данным выборки. Они не знают, что находится за ее пределами - в лучшем случае до бесконечности растянут крайние значения. Такая же проблема с метрической регрессией - она размещает предсказание _между_ ближайшими соседями.