NYT
Por STEVE LOHR
Poucos desafios na computação parecem maiores que compreender o significado da linguagem. Um motivo disso é que a semântica, o significado das palavras e frases, não depende somente do contexto, mas também do conhecimento prévio que os humanos adquirem ao longo dos anos.
Pesquisadores da Universidade Carnegie Mellon, em Pittsburgh (Pensilvânia), estão aperfeiçoando um sistema de computador que tenta dominar a semântica aprendendo mais como um ser humano.
"Apesar de todos os avanços na informática, ainda não temos um computador capaz de aprender como as pessoas, de maneira cumulativa, em longo prazo", disse o líder da equipe, Tom M. Mitchell, um cientista da computação e presidente do departamento de aprendizado de máquinas.
O sistema "Never-Ending Language Learning (NELL)" -aprendizado de linguagem sem fim- fez uma demonstração impressionante. Ele escaneia centenas de milhões de páginas da web em busca de padrões de texto, os quais utiliza para aprender fatos -390 mil até hoje, com uma precisão estimada em 87%. Esses fatos são agrupados em categorias semânticas- cidades, times esportivos, atores, plantas e outras 276.
Os fatos são coisas como "San Francisco é uma cidade" e "girassol é uma planta".
NELL é um projeto de um campo que está em ampliação. Muitas dessas iniciativas usam a web como um rico tesouro de textos para reunir descrições formais de conceitos e relações e ajudar os computadores a imitar a compreensão humana.
Por exemplo, a máquina de "resposta a perguntas" da IBM, chamada Watson, demonstra uma notável compreensão semântica em campos como história, literatura e esportes.
A abordagem da Carnegie Mellon se destaca. "O que é excitante e significativo nisto é o aprendizado contínuo, como se NELL exercitasse a curiosidade por conta própria, com pouca ajuda humana", disse Oren Etzioni, cientista da computação da Universidade de Washington.
As potenciais aplicações dos computadores que compreendem linguagem vão de pesquisa inteligente a assistentes pessoais virtuais capazes de responder a perguntas.
Com NELL, os pesquisadores montaram uma base de conhecimento, alimentando cada categoria com dez a 15 exemplos que são verdadeiros.
Então os programas do NELL extraem e classificam frases de texto da web e procuram padrões e correlações. Por exemplo, quando o sistema de computador lê a frase "Pikes Peak", ele estuda a estrutura -duas palavras, cada qual começando com letra maiúscula, e a última palavra é "peak". Essa estrutura por si só poderia significar que "Pikes Peak" é uma montanha. Mas o NELL também vai garimpar diversas vezes frases que rodeiam "Pikes Peak" e frases com palavras semelhantes.
Esse tipo de julgamento matizado tende a confundir os computadores. "Mas um sistema como este funciona melhor se você o obrigar a aprender muitas coisas, centenas ao mesmo tempo", disse o doutor Mitchell.
Por exemplo, a frase de texto "eu galguei XXX" costuma ocorrer com uma montanha. Mas quando NELL lê "eu galguei escadas", aprendeu anteriormente que "escadas" pertence à categoria "parte de edifício". "Ele se corrige quando tem mais informação, conforme aprende mais", explicou.
NELL ainda precisa de ajuda humana. Quando o doutor Mitchell escaneou a categoria "produtos assados" recentemente, notou que no início havia um padrão claro. Mas as coisas se complicaram depois que o classificador de frases de NELL decidiu que "cookies da internet" era um produto assado.
NELL já tinha lido a sentença "eu deletei meus cookies da internet". Por isso, quando leu "eu deletei meus arquivos", decidiu que "arquivos" provavelmente também era um produto assado. "Ele iniciou toda uma avalanche de erros", disse o doutor Mitchell. Ele corrigiu o erro dos cookies da internet e reiniciou a educação de NELL sobre padarias.
Seu ideal, disse Mitchell, é um computador capaz de aprender sem ajuda humana. "Ainda não chegamos lá", disse. "Mas você e eu também não aprendemos isoladamente."
segunda-feira, 18 de outubro de 2010
Assinar:
Postar comentários (Atom)
Nenhum comentário:
Postar um comentário