Более эффективный способ подготовки машин к неопределенным, реальным

Изображения для загрузки на веб-сайте офиса новостей MIT предоставляются некоммерческим организациям, прессе и широкой публике в соответствии с некоммерческой лицензией Creative Commons «С указанием авторства». Вы не можете изменять предоставленные изображения, кроме как обрезать их до нужного размера. При воспроизведении изображений необходимо использовать кредитную линию; если оно не указано ниже, укажите авторство изображений в «MIT».

Предыдущее изображение Следующее изображение

Тот, кто учится играть в теннис, может нанять учителя, который поможет ему учиться быстрее. Поскольку этот учитель (надеюсь) отличный теннисист, бывают случаи, когда попытка точно подражать учителю не поможет ученику учиться. Возможно, учитель подпрыгнет высоко в воздух, чтобы ловко ответить залпом. Студент, неспособный скопировать это, может вместо этого попробовать несколько других приемов самостоятельно, пока не овладеет навыками, необходимыми для ответного залпа.

Ученые-компьютерщики также могут использовать «учительские» системы для обучения другой машины выполнению задачи. Но, как и в случае с обучением человека, машина-ученик сталкивается с дилеммой: когда следовать за учителем, а когда исследовать самостоятельно. С этой целью исследователи из Массачусетского технологического института и Техниона, Израильского технологического института, разработали алгоритм, который автоматически и независимо определяет, когда студенту следует подражать учителю (известное как обучение с имитацией), а когда вместо этого ему следует учиться методом проб и ошибок (так называемое обучение с имитацией обучения). как обучение с подкреплением).

Их динамический подход позволяет ученику отказаться от копирования учителя, когда учитель либо слишком хорош, либо недостаточно хорош, но затем вернуться к следованию за учителем на более позднем этапе учебного процесса, если это позволит достичь лучших результатов и более быстрого обучения.

Когда исследователи протестировали этот подход в моделировании, они обнаружили, что сочетание обучения методом проб и ошибок и обучения с имитацией позволяет учащимся изучать задачи более эффективно, чем методы, в которых используется только один тип обучения.

Этот метод может помочь исследователям улучшить процесс обучения машин, которые будут использоваться в неопределенных реальных ситуациях, например, когда робота обучают перемещаться внутри здания, которого он никогда раньше не видел.

«Эта комбинация обучения методом проб и ошибок и следования за учителем очень эффективна. Она дает нашему алгоритму возможность решать очень сложные задачи, которые невозможно решить, используя любой из методов по отдельности», — говорит Идан Шенфельд, специалист по электротехнике и информатике. (EECS) аспирант и ведущий автор статьи по этой методике.

Шенфельд написал статью вместе с соавторами Чжан-Вэй Хун, аспиранткой EECS; Авив Тамар; доцент кафедры электротехники и информатики Техниона; и старший автор Пулкит Агравал, директор лаборатории невероятного искусственного интеллекта и доцент лаборатории компьютерных наук и искусственного интеллекта. Исследование будет представлено на Международной конференции по машинному обучению.

Достижение баланса

Многие существующие методы, направленные на достижение баланса между обучением с имитацией и обучением с подкреплением, делают это путем грубого метода проб и ошибок. Исследователи выбирают взвешенную комбинацию двух методов обучения, запускают всю процедуру обучения, а затем повторяют процесс, пока не найдут оптимальный баланс. Это неэффективно и часто настолько затратно в вычислительном отношении, что даже неосуществимо.

«Нам нужны принципиальные алгоритмы, предполагающие настройку как можно меньшего числа регуляторов и обеспечивающие высокую производительность — эти принципы легли в основу наших исследований», — говорит Агравал.

Чтобы добиться этого, команда подошла к проблеме иначе, чем в предыдущей работе. Их решение предполагает обучение двух студентов: одного с взвешенной комбинацией обучения с подкреплением и обучения с имитацией, а второго, который может использовать только обучение с подкреплением для изучения той же задачи.