Система искусственного интеллекта компании Google впервые победила человека, профессионального игрока в Го

Систeмa искусствeннoгo интeллeктa AlphaGo, пoстрoeннaя нa принципax глубиннoгo мaшиннoгo oбучeния и сoздaннaя группoй Google DeepMind, сo счeтoм 5-0 победила Фань Хуэя (Fan Hui) трехкратного европейского чемпиона по части игре Го (Go). Этот случай является первым разом в истории, когда компьютерная программ обыграла профессионального игрока в Го, правда некоторые эксперты в области искусственного интеллекта прогнозировали, что наступления данного события только и можно ожидать не ранее, чем через одно десятилетие.

«Система AlphaGo использует методы глубинного машинного изучения и самообучения. При помощи сего она улучшает саму себя, просматривая ходы реальных игр и играя хозяйка с собой» — рассказывают Дэвид Сильвер (David Silver) и Демис Хассабис (Demis Hassabis), руки-ноги группы Google DeepMind, — «Обучение системы было произведено на обширном наборе данных о 30 миллионах ходов, сделанных профессиональными игроками в Го. А после сего система отточила свое мастерство, играя сама с собой».

Для того, с целью сделать возможной победу системы искусственного интеллекта над человеком, ее разработчики реализовали современный алгоритм поиска вдоль дереву решений. Две независимые нейронные сети сформировали из миллионов своих подобных нейронам структур 12 слоев, которые были «пронзены во всем» деревом решений игры Го, в котором насчитывается более чем 10^100 вариантов. Сие больше, чем количество вариантов ходов в шахматах и больше, чем количество атомов во всей Вселенной.

«На первых порах мы обучили одну из сетей на базе данных о 30 миллионов ходов, которые были сделаны людьми-экспертами в этой игре. Еще после этого система AlphaGo стала в состоянии правильно предугадать ход человека в 57 случаях из 100 возможных и выигрывала в 99.8 процентах матчей у других Го-программ» — рассказывают Дэвид Сильвер и Демис Хассабис, — «Да наша цель заключалась не в подражании людям-игрокам, мы намеревались завоевать полную победу над ними. Поэтому мы заставили две нейронных волокуша системы AlphaGo тысячи раз играть друг с другом, обнаруживая новые стратегии, приобретая новехонький опыт при помощи эмпирического процесса, известного как «укрепляющее обучение» (reinforcement learning)».

Следующей задачей, которую поставили накануне собой разработчики системы AlphaGo, станет попытка победы над Ли Седолем (Lee Sedol), признанным мировым игроком в игру Го. И нынешний матч состоится в Сеуле, Южная Корея, в марте этого года.

«Логические игры являются прекрасной платформой про разработки, обучения, тестирования и совершенствования алгоритмов систем искусственного интеллекта. А такие системы в будущем могут -побывать) использованы в самых различных областях реального мира» — пишут исследователи, — «Методы, которые наш брат используем для поиска решений в играх, однажды могут быть расширены и модернизированы что-то около, что при их помощи люди найдут решения всех самых насущных проблем, связанных с проблемами общества, изменениями климата и здравоохранением».