Inteligência artificial já aprende sozinha a ser invencível

publicado no EL Pais

É só um jogo de mesa. Mas o tabuleiro do jogo Go (Weiqi ou Baduk), um complexo xadrez oriental, é o terreno escolhido para explorar as fronteiras da inteligência artificial, que no futuro poderão ajudar a “resolver todo tipo de problemas prementes do mundo real”, nas palavras de Demis Hassabis, líder do Google DeepMind. Essa divisão da multimilionária empresa tecnológica já conseguiu criar um programa, o AlphaGo, que é capaz de jogar go e derrotar inclusive os campeões mundiais, desnudando muitos segredos da mente humana. Agora a empresa foi um passo adiante ao desenvolver um programa capaz de esmagar todas as versões prévias do todo-poderoso AlphaGo, aprendendo do zero e sem ajuda. Uma máquina que se ensina a si mesma, sem exemplos de jogos reais nem intervenção humana, até se tornar invencível. E além do mais conseguiu isso com uma força incomparável, num tempo recorde e consumindo uma quantidade mínima de recursos informáticos.

O jogo go é o campo de treinamento do cérebro da máquina. EVONNE

O programa original treinou-se estudando milhões de movimentos reais de milhares de partidas jogadas entre humanos, um monumental passo prévio antes de começar a treinar-se jogando contra si mesmo, até se tornar imbatível. Mas esta nova versão desenvolvida pelo DeepMind, denominada AlphaGo Zero, conta com um novo algoritmo que lhe permite aprender a ganhar do nada, a sós com o tabuleiro e as peças. O novo algoritmo se sustenta numa rede neuronal baseada na aprendizagem por reforço: a máquina sabe se ensinar sozinha, praticando consigo mesma, até alcançar uma capacidade muito superior à de suas versões prévias.

A equipe do DeepMind queria ilustrar como a inteligência artificial pode ser eficiente frente àqueles desafios nos quais não há dados suficientes ou conhecimentos prévios para guiar a máquina até uma solução ideal, como explicam no estudo que publicaram na revista Nature. “Nossos resultados demonstram”, escrevem, “que um enfoque de aprendizagem por reforço puro é completamente factível, inclusive nos domínios mais exigentes: é possível treinar a um nível sobre-humano, sem exemplos humanos nem orientação, sem mais conhecimento de campo além das regras básicas”. A ideia já não é superar os humanos subindo sobre os seus ombros, e sim ser chegar aonde eles não estão nem podem ajudar.

Em apenas 24 horas, a máquina autodidata derrotou uma máquina igualmente potente, mas ensinada com informação de partidas humanas

Partindo do zero, com movimentos aleatórios, o AlphaGo Zero começou a entender as noções deste jogo extremamente complexo, em que pedras brancas e negras disputam território num tabuleiro de 19 por 19 casas. Em apenas três dias, depois de jogar contra si mesmo quase cinco milhões de vezes, esta máquina venceu a bem sucedida versão prévia, que por sua vez derrotara pela primeira vez um campeão humano de nível mundial. Aquela máquina original necessitou de meses de treinamento e 30 milhões de jogadas. O algoritmo atual é tão eficiente que se tornou invencível com apenas quatro chips especializados, frente aos 48 que sua predecessora de 2015 necessitava. O AlphaGo Zero derrotou o AlphaGo por 100 a 0.

O mais interessante é o que esta nova máquina nos ensina sobre a aprendizagem, sobre nossos conhecimentos (ou como são dispensáveis) e sobre a nossa própria inteligência. “Após três horas, o jogo se centra em comer pedras com avareza, como um principiante humano”, detalha o estudo. “Após 19 horas, o jogo exibe os fundamentos de vida e morte, a influência e o território”, continua. Após 70 horas, a máquina é extraordinariamente capaz, em níveis sobre-humanos, apta a visualizar estratégias sofisticadas impensáveis para os jogadores de carne e osso. E em 40 dias é invencível.

De forma intuitiva, a máquina foi descobrindo táticas, posições e movimentos que o talento humano levou milênios para aperfeiçoar. Mas descobriu sozinha outras estratégias inovadoras desconhecidas, que se mostravam mais eficientes, e optou por abandonar os movimentos humanos clássicos. Essa criatividade do algoritmo, um dos achados mais notáveis do DeepMind, já pôde ser vista em sua famosa batalha contra o campeão Lee Sedol, de quem sempre se recordará o semblante, com olho vidrados e boquiaberto, ao observar um brilhante movimento ganhador do AlphaGo.

Além do mais, o AlphaGo Zero demonstrou que o conhecimento humano pode inclusive atrapalhar na hora de alcançar uma maior eficácia. Os especialistas do DeepMind alimentaram uma cópia desse algoritmo com informação de partidas reais entre humanos, para comparar seu rendimento com a versão autodidata. O resultado: a máquina autodidata derrotou a máquina ensinada por humanos nas primeiras 24 horas de treinamento. “Isto sugere que o AlphaGo Zero pode estar aprendendo uma estratégia que é qualitativamente diferente do jogo humano”, concluem os pesquisadores do Google.

A verdadeira capacidade das máquinas

O DeepMind já havia conseguido que as máquinas aprendessem sozinhas a ganhar, como fez com videogames clássicos. Mas o nível de sofisticação do go, com mais possibilidades no tabuleiro que átomos no universo, o transforma em uma prova melhor que os marcianinhos. Sobretudo se, como afirma Hassabis, os cientistas pretendem usar estes desenvolvimentos para solucionar questões tão difíceis como a dobradura das proteínas e o desenvolvimento de novos materiais: “Se pudermos obter com estes problemas o mesmo progresso que com o AlphaGo, ele tem o potencial de impulsionar o conhecimento humano e impactar positivamente as vidas de todos nós”.

Comentários

Este QR-Code permite acessar o artigo pelo celular. QR Code for Inteligência artificial já aprende sozinha a ser invencível

Deixe o seu comentário