Posts relacionados a ‘

3Out07 Uma web mais inteligível por homens e máquinas

É fato o crescimento e a popularização crescente da internet ano a ano. A quantidade de conteúdo produzido na rede cresce de maneira exponencial. Os serviços hoje disponíveis de maior sucesso são os que oferecem a produção de conteúdo por qualquer pessoa que tenha vontade de fazê-lo - desde escrever um artigo na Wikipedia a publicar o que está fazendo em 140 caracteres no Twitter.

Ok. Temos uma enorme quantidade de conteúdo disponível por ai. Como organizá-lo?

Como fazer com que a dona de casa que procura a receita do quindim da vovó encontre essa informação entre zilhões de terabytes de dados?

Os mecanismos de busca atuais, tais como Google, Yahoo e Live fazem uso das palavras-chave inseridas, encontram entre as páginas indexadas - ou não - os termos e retornam os resultados por ordem de relevância, popularidade da página (pagerank) e outros ‘n’ critérios.

O que é feito hoje por tais sistemas é um trabalho extremamente difícil - claro, não vemos um ‘novo Google’ por ai todos os dias. A maioria dos sites online hoje ainda não seguem os padrões web, o que dificulta a indexação do que é realmente relevante. Quindim da Vovó escrito dentro de uma tag <h1> indica um título e é muito mais relevante para o buscador do que se escrito dentro de um <span>, independente de que no CSS o <span> esteja estilizado pra uma fonte tamanho 26. A linguagem de marcação (seja ela o HTML ou XHTML) já carrega consigo inúmeras possibilidades semânticas, tais como títulos, listas (ordenadas, não-ordenadas, de definição), endereços, acrônimos, abreviações, dados retirados ou inseridos, ênfases, etc.

Em geral, a semântica (do grego semantikos, derivado de sema, sinal) refere-se ao estudo do significado, em todos os sentidos do termo. A semântica opõe-se com freqüência à sintaxe, caso em que a primeira se ocupa do que algo significa, enquanto a segunda se debruça sobre as estruturas ou padrões formais do modo como esse algo é expresso (por exemplo, escritos ou falados).Wikipedia

Microformats

Iniciativa de dois caras influentes da internet, Tantek Çelik e Eric Meyer, os microformats são uma biblioteca de formatos abertos para descrever ao máximo o conteúdo de um documento (X)HTML, através de padrões para o conteúdo dos atributos class, rel e rev. Dessa maneira, um parser consegue identificar do que se trata um bloco de código e trabalhá-lo, tal como gerar um vCard, arquivar reviews de produtos, montar uma rede de relacionamentos por XFN, etc. Além disso, um buscador ao visitar a página pode associar tal conteúdo semântico e torná-lo mais relevante em uma determinada busca. Em uma associação dos microformats e da semântica do XHTML, uma busca por “endereço milk-it” pode retornar um resultado mais preciso, já que tal informação se encontra em uma tag <address> e dentro da especificação vCard dos microformatos.

Iniciativas externas louváveis, como a criação dos bioformats - microformatos aplicados a biologia, dão mais força e motivos para a adoção de tal padrão. [1]

Contextos e homônimos

Como diferenciar em uma busca por “manga” os significados “fruta”, “parte da roupa” e “quadrinhos japoneses”?

O Google bem que tenta, mas é de fato uma tarefa extremamente complexa.

A descrição do conteúdo de uma página - seja através do código com microformatos, por tags ou outras formas de classificação - ajudaria bastante na desambiguação e aumentaria consideravelmente a qualidade dos resultados de uma busca.

Powerset

Em outros casos, diversas palavras semelhantes cabem para descrever o que se procura. Uma busca por “João brigou Maria” talvez não tenha tanto sucesso quanto “João discutiu Maria” ou “João separou Maria” “João Maria separados” , etc. No entanto, todas as opções são uma tentativa de encontrar conteúdo sobre um mesmo fato.

O buscador Powerset, quando lançado, promete realizar as buscas com a “linguagem natural”, analisando o que é buscado com base em uma análise lingüística. Ao invés de palavras-chave, são usadas expressões corridas.

No album de screenshots do buscador a busca é feita com o uso de um termo, uma conexão e outro termo. Entre os exemplos dados estão “’something’ cause cancer”, “’something’ prevent cancer”, ou ainda “Paris Hilton ’something’ sex”. Os resultados então aparecem em lista, ordenados pelas ocorrências de relações iguais ou semelhantes às palavras buscadas.

RDF

Bom, pra completar o assunto da web semântica, falta falar sobre o RDF, RDFa e mais alguns detalhes. Mas pra isso, usarei outro post para poder explorar melhor o assunto e estudar mais até lá. :)

[1] via Revolução Etc.

tags {, , , , , , , , }