#41. Случайные деревья и случайный лес. Бутстрэп и бэггинг | Машинное обучение

Общая идея композиции простых алгоритмов в соответствии с идеей бэггинга (bagging). Способ разбиения обучающей выборки на несколько подвыборок по алгоритму бутстрэп (bootstrap). Бэггинг с решающими деревьями. Случайный лес (random forest). Реализация случайного леса на Python через классы RandomForestClassifier и RandomForestRegressor. Преимущества и недостатки случайного леса.
Инфо-сайт: proproprogs.ru/ml
Телеграм-канал: t.me/machine_learning_selfedu
machine_learning_41_regression.py: github.com/selfedu-rus/machin...
Ансамблевые методы: scikit-learn.ru/1-11-ensemble...

Пікірлер: 12

  • @artemivanov5013
    @artemivanov50132 жыл бұрын

    Супер урок!!!Спасибо!

  • @sergeyworm1476
    @sergeyworm1476 Жыл бұрын

    Спасибо за видео! Всё же, наверное, "генератор" случайных чисел, а не "датчик". Хотя мне "датчик" нравится :)

  • @tastywhiskyy
    @tastywhiskyy2 жыл бұрын

    Про градиентный бустинг будет? А так все топ

  • @shapovalentine
    @shapovalentine Жыл бұрын

    Очень крутой урок. Единственное не понял проблему (на 9:22): " Алгоритмы aj(x) в своей совокупности должны охватывать как можно больше возможных исходов для каждого вектора x и формировать как можно более независимые ответы >>> Линейный алгоритм не очень пригоден при композиции (усреднении) ответов"

  • @selfedu_rus

    @selfedu_rus

    Жыл бұрын

    Спасибо! Суперпозиция линейных алгоритмов - это все тот же линейный алгоритм.

  • @user-il7hc8mw3v
    @user-il7hc8mw3v Жыл бұрын

    Спасибо за видео! Всё же если остановиться на линейных моделях, в теории метод работает? Очевидно, что среднее нескольких независимых моделей лучше чем каждая в отдельности. Но лучше ли это одной модели которая училась на всей выборке? В простейшем случае предсказания константы в шуме, "лучшая" оценка это среднее значение выборки с дисперсией в N раз меньшей, чем у шума, где N - размер выборки. В этом случае можно что-то улучшить взяв несколько подвыборок?

  • @YbisZX
    @YbisZX Жыл бұрын

    @selfedu 9:04 А как быть с M-классификацией? Выбирать класс по большинству? Или тогда уже лучше по большинству из суммы в конечных листах деревьев?

  • @selfedu_rus

    @selfedu_rus

    Жыл бұрын

    Здесь можно воспользоваться одной из стратегий для реализации многоклассовой классификации: all-vs-all, one-vs-all. Подробнее здесь proproprogs.ru/ml/ml-mnogoklassovaya-klassifikaciya-metody-one-vs-all-i-all-vs-all

  • @alexeyermakov7391
    @alexeyermakov7391 Жыл бұрын

    Сергей, спасибо! У Вас классные уроки👋 Для меня правда остался непонятным один момент про недостатки случайного леса - невозможность использования для экстраполяции. Однако мы же по факту с помощью predict можем взять и предсказать интересующий нас целевой признак вне интервала, это получается не экстраполяция?

  • @alexeyermakov7391

    @alexeyermakov7391

    Жыл бұрын

    Переобучился сам уже. Совсем очевидную вещь спросил,, с этим все понятно

  • @olbasdjirmyhamedov704

    @olbasdjirmyhamedov704

    Жыл бұрын

    @@alexeyermakov7391 тоже не очень понял про это, можете, пожалуйста пояснить? :)

  • @YbisZX

    @YbisZX

    Жыл бұрын

    @@olbasdjirmyhamedov704 Деревья делают разбивку по данным выборки. Они не знают, что находится за ее пределами - в лучшем случае до бесконечности растянут крайние значения. Такая же проблема с метрической регрессией - она размещает предсказание _между_ ближайшими соседями.

Келесі