Предсказание результатов футбольного ЧМ-2018 алгоритмом random forests

Habrahabr 1
Образец дерева регрессии для данных чемпионатов мира по футболу 2002−2014 годов. В качестве переменной-отклика используется количество голов
Специалисты по машинному обучению из Германии сравнили три разных модели для предсказания результатов будущего чемпионата мира по футболу 2018 года:
модели регрессии Пуассона;
методы random forests (случайных лесов);
методы ранжирования (по силе команд исходя из спаррингов за 2010-2018 года и по коэффициентам в букмекерских конторах).
Первые два основаны на информации о ковариатах, а последний непосредственно на реальной фактической силе команд. Учёные пришли к выводу, что в рамках этого сравнения наиболее эффективными методами прогнозирования на обучающих данных являются методы ранжирования и случайные леса. Но с помощью комбинированного подхода — сочетая свойства random forests с ранкингом команды — учёным удалось существенно улучшить предсказательную силу системы. Читать дальше →