Новая система искусственного интеллекта DeepCube самостоятельно за 44 часа научилась собирать кубик Рубика. Теперь программа решает головоломку не хуже систем, опирающихся на знания человека, сообщает  N+1  .ru со ссылкой на Gizmodo.

Программисты под руководством Стивена Макалира (Stephen McAleer) создали систему искусственного интеллекта, которая способна собрать кубик Рубика в среднем за 30 ходов. Примерно столько же движений используют люди, профессионально занимающиеся спидкубингом. В основе программы лежит глубокое обучение с подкреплением — его суть заключается в том, что управляемый алгоритмом агент находится в среде и, выполняя различные действия, может получать за них награду. Таким образом, методом проб и ошибок он учится выполнять последовательность действий, приводящую к наибольшей награде и тем самым постепенно приближается к нужному создателям результату.

Когда DeepCube делает ход, система автоматически просчитывает, к какому результату он приведет. Она фактически «прыгает» к тому состоянию, когда головоломка решена, а затем возвращается назад к предложенному движению. Это позволяет программе определить среднюю длину решения, а также «силу» хода. После того, как алгоритм собирает необходимое количество данных, он находит оптимальный набор действий, используя метод дерева решений — то есть проверяя каждое возможное движение, чтобы определить, какое из них является самым лучшим. Все это происходит без вмешательства человека.

В процессе обучения DeepCube за 44 часа решила около миллионов кубиков Рубика (включая повторы).