Bem Vindos a Newbie!!!: Sem saber, internautas decifram textos antigos

segunda-feira, 4 de abril de 2011

Sem saber, internautas decifram textos antigos

Antigamente, qualquer interessado em ver um jogo do Mets durante uma viagem a Nova York teria de ligar para o time, escrever ou esperar até chegar à cidade e visitar a bilheteria.
Isso não existe mais. Agora, você só precisa procurar por um distribuidor online de ingressos. É acessar o site, clicar em “Mets”, escolher a data e pagar.
Contudo, antes de aceitar o dinheiro, o site pode apresentar ao comprador dois conjuntos de letras ondulantes e distorcidas, pedindo por uma transcrição. Eles são chamado de “captchas”, e só podem ser lidos por humanos. Os captchas garantem que nenhum robô conseguirá invadir sites seguros.
O que os internautas não sabem, porém, é que eles também foram alistados num projeto para transformar livros antigos, revistas, jornais ou panfletos em arquivos de texto precisos, buscáveis e facilmente classificáveis.
Uma das palavras deformadas veio, muito provavelmente, da imagem digitalizada de algum texto velho e mofado e, embora a página original já tenha sido digitalizada para um banco de dados online, os programas de escaneamento cometeram muitos erros. Os fãs do Mets e outros usuários da internet estão corrigindo esses erros. Compre um ingresso para o jogo e ajude a preservar a história.
O conjunto de ferramentas de software que realiza essa proeza é chamado de “reCaptcha”, e foi desenvolvido por uma equipe de pesquisadores liderada por Luis von Ahn, cientista da computação da Universidade Carnegie Mellon, em Pittsburgh.
Seu projeto-piloto era limpar o arquivo digitalizado do “New York Times”.
Hoje ele se tornou o principal método usado pelo Google para autenticar textos no Google Books, o vasto projeto para digitalizar e disseminar textos raros e esgotados pela internet.
Geralmente, a digitalização é um processo de três estágios: criar uma imagem fotográfica do texto, conhecida como “bitmap”; codificar o texto num formato compacto de fácil manuseio e busca, usando softwares de reconhecimento ótico de caracteres, comumente chamados de OCR, e, finalmente, corrigir os erros.
A tecnologia atual torna os dois primeiros passos relativamente fáceis. O terceiro, porém, pode ser incrivelmente complexo. Para textos em inglês do século XIX, os programas OCR erram ou deixam passar de 10 a 30 por cento das palavras. Somente humanos conseguem corrigir os erros. O método padrão, chamado “afinar e verificar”, usa dois transcritores para digitar separadamente o texto, comparando em seguida os resultados. Isso leva tempo e é extremamente caro.
Em 2006, entretanto, a equipe de von Ahn criou uma forma de contornar esse obstáculo. Os onipresentes captchas, conhecidos até pelos internautas mais casuais, eram a ferramenta perfeita. Os captchas, abreviação em inglês para “teste público Turing completamente automatizado para diferenciar humanos de computadores”, não podem ser decifrados por máquinas – mas são simples para humanos. O teste tem o nome do pioneiro da computação britânico Alan Turing.
A equipe de von Ahn estimou que, ao redor do mundo, humanos decodifiquem pelo menos 200 milhões de captchas por dia, levando 10 segundos cada. Isso representa 500 mil horas por dia – uma montanha de poder intelectual sendo gasta no que von Ahn classifica como um exercício fundamentalmente maquinal.
“Então nos perguntamos: 'Podemos fazer algo de útil com esse tempo?”', recordou von Ahn numa entrevista por telefone. Em vez de criar captchas a partir de palavras aleatórias impressas de forma confusa, por que não pedir que os internautas traduzam palavras problemáticas de textos arquivados? Pela estimativa de von Ahn, o reCaptcha está sendo usado por 70 a 90 por cento dos sites que possuem captchas – incluindo Ticketmaster, Facebook e agências bancárias locais.
O Google comprou a empresa de von Ahn em 2009 – não diremos qual foi o preço – e a colocou para trabalhar no Google Books. Ele afirma que “diversos milhões” de palavras estão sendo traduzidos diariamente.
O jornal “The Times”, publicado desde 1851, já havia transcrito oticamente seu arquivo quando contatou von Ahn. Robert Larson, vice-presidente da empresa para produtos de busca, disse que o jornal havia “buscado por diversas maneiras” de editar o texto, mas que “o método de Luis era mais rápido e mais barato”.
Imagens de páginas, especialmente aquelas impressas antes de 1900, são cobertas de manchas, borrões, marcas d’água e tipologias tortas, tudo atrapalhando o OCR. Para corrigir os erros, von Ahn utiliza diversos programas: quando aplicados na sequência correta, magicamente transformam passagens problemáticas numa prosa clara e direta.
O primeiro passo é feito internamente. Dois programas OCR diferentes mapeiam a imagem fotográfica. Ambos cometerão erros, mas não necessariamente os mesmos.
O reCaptcha marca como “suspeita” qualquer palavra decifrada diferentemente pelos dois programas, ou que não esteja num dicionário de inglês. O dicionário capta palavras que aparecem com os mesmos erros ortográficos nos dois OCRs. Outros programas examinam as palavras antes e depois da palavra suspeita e fazem outra suposição baseada nessa análise.
Em seguida, cada palavra suspeita é transformada num captcha. É essencial compreender que o captcha é uma versão distorcida da palavra, conforme ela foi impressa na imagem fotográfica original. Ele não é feito da tradução imaginada pelo OCR, muitas vezes ininteligível. A palavra desconhecida é pareada com uma segunda palavra em captcha, cuja tradução correta já é conhecida. Essa segunda palavra é o “controle”. Então, usuários da internet tentando acessar sites seguros visualizam as duas palavras e as decifram separadamente.
Uma resposta correta para a palavra de controle prova que o usuário é um humano, e não uma máquina. As respostas para a palavra desconhecida são comparadas às suposições do OCR e à análise de contexto. Se o sistema considerar que a resposta está correta, o jogo termina.
Von Ahn reconheceu que algumas palavras não podem ser transcritas, geralmente quando o texto original está rasgado ou danificado de alguma outra forma. Se um número suficiente de usuários falhar em identificar uma palavra desconhecida, ela é considerada indecifrável e marcada como tal.
O reCaptcha também se sai mal com letras cursivas, afirmou von Ahn, acrescentando que “hoje ninguém mais lê caligrafia”. E até agora o programa só traduz palavras em inglês, embora muitos sites com o reCaptcha tenham clientes estrangeiros – cujos usuários nem usem a língua inglesa.
Mesmo com todas essas restrições, o reCaptcha alcança uma exatidão superior a 99 por cento, ultrapassando a eficácia de transcritores humanos profissionais. E von Ahn está convencido de que o desempenho ficará melhor com a experiência, algo que certamente não faltará.
“Continuaremos fazendo isso por muito tempo”, disse ele. “Existe muito material impresso por aí”.
Um discurso perdido na tradução digital O dia era 2 de novembro de 1859. O júri em Charles Town, na Virginia, levou apenas 45 minutos para condenar John Brown à morte por enforcamento, acusado de liderar uma invasão ao arsenal federal de uma cidade vizinha, Harpers Ferry. A corte perguntou a Brown, um abolicionista magro e de rosto áspero, se ele queria se pronunciar. Ele quis.
Essa declaração, ao mesmo tempo desafiadora e humilde, transformou Brown, notório por terríveis assassinatos de colonos escravagistas no Kansas, num mártir da causa abolicionista.
Sem pedir por clemência, ele aceitou seu destino: “Se foi julgado necessário que eu deva perder minha vida”, disse ele, “e misturar meu sangue ao sangue de milhões neste país de escravos, cujos direitos são ignorados por leis perversas, cruéis e injustas, então eu digo, que assim seja”.
O discurso tinha pouco mais de 500 palavras. O jornal “The Times” publicou-o na íntegra, em 3 de novembro de 1859.
Por mais de 140 anos, a história original ficou disponível apenas àqueles com acesso a uma cópia impressa do jornal, ou a seu equivalente em microfilme. Então, em 2004, “The New York Times” iniciou o processo de transformar seu arquivo num banco de dados pesquisável. Em 2008, o reCaptcha de Pittsburgh foi contratado para consertar os erros. Estima-se que esse projeto esteja finalizado até o final deste ano.
O discurso de encerramento de Brown pode ser encontrado, conforme apareceu originalmente no “The Times”, através de uma busca avançada no site nytimes.com, usando a manchete “Virginia Rebellion, John Brown Sentenced to Death, His Address to the Court and Jury”.
Um exame detalhado dessa imagem mostra sutis irregularidades na tinta, diferenças na aparência de uma letra específica de palavra a palavra, alguns borrões e ocasionais tremidas em palavras ou letras individuais.
Apesar dessas imperfeições, o olho humano consegue ler o texto com facilidade. O software OCR, contudo, enfrentou muitas dificuldades. Robert Larson, vice-presidente para produtos de busca do “The Times”, afirmou que partes do texto se pareciam com “alguém praguejando num cartum”.
As últimas linhas do discurso de Brown, por exemplo, foram reproduzidas pelo OCR conforme segue: ``Segvndo ovvi, algvns dcles declararam qve ev os induzi a mc acompanharcm. Mas o opos1o é a vcrdade. Não digo isto para prcjudicá-los, mas como um pesar por sua fraque-.. Nãohouve um dcles que não tcnha me seguido por vontade prIOpria, e a maior partc à própria custa.
Mvitos dcles eu nunca havia visto, e nunca havia troC:III uma palavra de convcrsa até o dia em quc vieram a mim; e isso foi para a f1nalidade quc declarei. Agora, terminei’'.
Para olhos humanos, porém, o trecho é uma brincadeira de criança. Os computadores podem vencer facilmente um programa de perguntas, mas nesse quesito são tão espertos quanto um gorila.

Pesquisar este blog

segunda-feira, 4 de abril de 2011

Sem saber, internautas decifram textos antigos

Nenhum comentário:

Postar um comentário

Reversor de URL

Cursos 24 Horas