Я использую контекстный бандит Vowpal Wabbit для ранжирования различных действий в зависимости от контекста.
Train Data:
"1:10:0.1 | 123"
"2:9:0.1 | 123"
"3:8:0.1 | 123"
"4:7:0.1 | 123"
"5:6:0.1 | 123"
"6:5:0.1 | 123"
"7:4:0.1 | 123"
Test Data:
" | 123"
Теперь ожидаемое ранжирование действий должно быть (от наименьшего убытка к наибольшему убытку):
7 6 5 4 3 2 1
Использование --cb
просто возвращает наиболее оптимальное действие:
7
И использование --cb_explore
возвращает PDF-файл с действиями, которые нужно изучить, но, похоже, это не помогает в ранжировании.
[0.0071428571827709675, 0.0071428571827709675, 0.0071428571827709675, 0.0071428571827709675, 0.0071428571827709675, 0.0071428571827709675, 0.9571428298950195]
Есть ли другой способ использовать контекстный бандит vw для ранжирования?