- Resumo: No âmbito da gestão de recursos informacionais os modelos e métodos de organização e recuperação de informações sempre estiveram condicionados às tecnologias utilizadas, de modo que a partir do desenvolvimento e intensificação da utilização dos meios digitais uma nova gama de possibilidades vem sendo incorporada, atingindo um estágio em que os modelos clássicos de organização e recuperação de informações precisam ser (re)pensados sob diferentes perspectivas, evidenciando a necessidade de novos métodos que possibilitem otimizar a recuperação de informações. Este artigo compreende uma discussão de literatura, de caráter interdisciplinar, com o objetivo de favorecer a “desmistificação” dos conceitos e tecnologias subjacentes ao projeto Web Semântica, avaliando em que medida a área de Ciência da Informação pode contribuir para sua concretização e ressaltando os reflexos das novas abordagens tecnológicas de representação e recuperação de recursos informacionais no corpus teórico da área de Ciência da Informação.
Palavras-chave: Web semântica; Recuperação de informação; Ontologia; Sistemas de informação; Gestão de recursos informacionais.
Abstract: In the field of information resources management, the models and methods of information organization and retrieval have always been linked to the current technologies in a way that a new range of possibilities have appeared from the development and improvement on the use of digital means, reaching a stage in which the classical models of information organization and retrieval must be (re)thought under different perspectives, highlighting the need of new methods that allow to optimize the information retrieval. This article brings out an interdisciplinary literature discussion, aiming to clarify the concepts and technologies related to the Semantic Web project, evaluating how the Information Science area can contribute to its concretization, as well as bringing out the consequences of new technological approaches of information resources representation and retrieval in the Information Science theoretical corpus.
Keywords: Semantic web; Information retrieval; Ontology; Information system; Information resources management.
Introdução
É inegável o fato de que a ambiente o Web constitui-se como uma das mais ricas fontes de informações da atualidade, apresentando-se também como um ambiente interativo que possibilita a troca de informações em escala global. Tal fato, que à primeira vista apresenta ser o seu maior apelo, é ao mesmo tempo um de seus fatores críticos.
Nos últimos anos, o avanço exponencial na quantidade de recursos informacionais disponíveis no ambiente Web vêm conduzindo a um estágio em que os modelos clássicos de representação e recuperação de informações precisam ser (re)pensados sob diferentes perspectivas, pois considerando a representação como elemento fundamental, para a garantia de qualidade na recuperação, apresenta-se como desafio a necessidade de singularização contextual na reconstrução do conhecimento, a partir da determinação de requisitos de qualidade e relevância das informações, que permitam categorizar e organizar, de maneira eficiente, o “oceano” de dados disponíveis, favorecendo a identificação de informações que realmente interessam ao usuário.
Tradicionalmente a Internet, uma infra-estrutura de redes, servidores e canais de comunicação, popularizada principalmente a partir do desenvolvimento daWorld Wide Web, ou simplesmente Web, tem como uma de suas principais funcionalidades a tarefa de disponibilizar conteúdos informacionais de modo que estes possam ser visualizados e interpretados por usuários humanos.
Contudo, a partir do final da década de 1990, começaram a formalizar-se pesquisas relacionadas ao desenvolvimento de uma nova geração da Web, com o objetivo de possibilitar a incorporação de ligações semânticas aos recursos informacionais, de modo que os próprios computadores possam “compreendê-las” de forma automatizada. Machine understandable information, com esta sucinta expressão Berners-Lee (1998) impulsionou os primeiros estudos em direção ao projeto da Web Semântica.
Esta investigação compreende uma discussão de literatura acerca o projeto Web Semântica, buscando favorecer a “desmistificação” dos conceitos e tecnologias subjacentes e avaliar em que medida a área de Ciência da Informação pode contribuir para sua concretização, ressaltando os reflexos das novas abordagens tecnológicas de representação e recuperação de recursos informacionais no corpus teórico da área de Ciência da Informação.
Na próxima seção busca-se identificar a fundamentação teórica inerente ao projeto Web Semântica, descrevendo as principais tecnologias necessárias para sua concretização e como estas se relacionam em sua arquitetura de camadas. Na seção 3 são apresentadas e discutidas novas abordagens tecnológicas de representação e recuperação de recursos informacionais, contextualizando-as a partir do enfoque da área de Ciência da Informação. A seção 4 apresenta os desafios e responsabilidades dos profissionais da informação no âmbito do projeto Web Semântica, a partir de um “Espectro Funcional” de sua arquitetura de camadas, proposto com o intuito de omitir detalhes técnicos e facilitar a compreensão de suas principais características. Ainda neste trabalho são apresentadas as conclusões da análise realizada.
Arquitetura da Web Semântica
Desde seus primórdios o projeto Web Semântica foi concebido como um conjunto de tecnologias relacionadas, de modo que no ano de 2000 o World Wide Web Consortium (W3C) [L], tendo como seu maior expoente Tim Berners-Lee , divulgou publicamente a primeira proposta de arquitetura da Web Semântica, com base em uma série de camadas sobrepostas, onde cada camada ou tecnologia deveria obrigatoriamente ser complementar e compatível com as camadas inferiores, ao mesmo tempo em que não deveria depender das camadas superiores, possibilitando assim uma estrutura idealmente escalonável, que indicasse os passos e as tecnologias necessários para a concretização do projeto Web Semântica.
Segundo Bernes-Lee (1999), o primeiro passo para o desenvolvimento da Web Semântica seria a inclusão de dados em um formato que os sistemas computacionais pudessem naturalmente compreender de forma direta ou indireta. Após a publicação desta definição, em seu livro Weaving the Web, a expressão “Web Semântica” passou a ser disseminada como um título genérico que representa uma série de pesquisas que têm como objetivo principal possibilitar um melhor aproveitamento das potencialidades do ambiente Web, onde por meio do uso intensivo de linguagens computacionais e instrumentos de metadados espera-se obter o acesso automatizado às informações de maneira mais precisa, a partir da utilização de processamentos semânticos e heurísticas automáticas.
Conforme afirmam Berners-Lee et al. (2001, p.2, tradução nossa): “A Web Semântica é uma extensão da Web atual, onde a informação possui um significado claro e bem definido, possibilitando uma melhor interação entre computadores e pessoas”. Assim, observa-se que comparando com as abordagens tradicionalmente desenvolvidas, o projeto Web Semântica constitui-se como uma tentativa inversa de solução que tem como objetivo desenvolver meios para que as máquinas possam servir aos humanos de maneira mais eficiente, mas para isso torna-se necessário construir instrumentos que forneçam sentido lógico e semântico aos computadores.
Com o intuito de ilustrar as dificuldades encontradas nos processos de recuperação de informações na Web atual pode-se analisar os resultados de uma busca realizada por meio dos tradicionais “motores de busca” (search engines), como por exemplo, a busca de textos científicos de um determinado autor. Utilizando-se, por exemplo, “Arlindo Machado” como expressão de busca ter-se-ia como resultado todos os tipos de documentos que contenham “Arlindo Machado” em alguma parte de seu conteúdo.
Caso esta mesma busca seja realizada utilizando-se apenas o sobrenome deste autor o problema se agravaria ainda mais, pois “Machado” pode igualmente se referir ao sobrenome de uma pessoa, com também a um instrumento cortante utilizado para rachar madeira e a Web atual não fornece condições que possibilitem distinguir entre os vários significados semânticos que um termo pode comportar, o que favorece a recuperação de uma grande quantidade de documentos irrelevantes ou não relacionados com a busca realizada, tornando algumas vezes inexeqüível a tarefa de localizar informações específicas no ambiente Web.
Segundo Koivunen e Miller (2001), um dos princípios fundamentais do projeto Web Semântica é o fato de que “tudo” pode ser identificado por um Uniform Resource Identifier (URI), de modo que pessoas, lugares e elementos do mundo físico possam ser referenciados a partir de tais identificadores.
Possibilitando assim identificar uma instituição a partir do URI de sua página Web, por exemplo, ou uma pessoa por meio do URI de sua caixa de e-mail.
Conforme afirmam Berners-Lee et al. (1994) e Fielding (1995), um URI é um padrão conjunto que abarca os conceitos de Uniform Resource Lacator (URL) e do Uniform Resource Name (URN), de modo que pode ser representado por qualquer um destes, ou por ambos. Fazendo uma analogia de um recurso disponível no ambiente Web com um livro armazenado em uma biblioteca, pode-se considerar o URN de um recurso como o número ISBN de um livro, os quais fornecem uma identificação exclusiva, porém não oferecendo informações a respeito de onde o livro/recurso pode ser obtido.
Do mesmo modo, pode-se considerar que o código que identifica onde um livro está localizado, em meio ao acervo de uma biblioteca, desempenha a mesma função do URL de um recurso no ambiente Web, indicando o local onde o livro/recurso pode ser obtido. Segundo Krishnamurthy e Rexford (2001, p.183), o modo mais popular de apresentação de um URI é utilizando um URL, o qual pode ser considerado como uma cadeia de caracteres formada por componentes padronizados.
Outra característica importante do projeto Web Semântica é que os links podem possuir diferentes tipos, possibilitando a definição de conceitos úteis para as máquinas, como por exemplo, indicando que um recurso é uma versão de outro recurso ou que contém informações a respeito de uma determinada pessoa. A Web atual também consiste de recursos e links, porém estes links são criados apenas para o uso de seres humanos, de modo que é relativamente simples para um ser humano identificar se um link, contido em um determinado recurso, referencia uma fatura, um romance ou um trabalho científico, contudo tais informações não estão acessíveis para as máquinas, pois os links na Web atual não indicam formalmente quais são os tipos de relações existentes entre os recursos referenciados. Leia o texto completo
- Sobre os autores / About the Author:
Rogério Aparecido de Sá Ramalho
ramalho@marilia.unesp.br
Doutorando do Programa de Pós-Graduação em Ciência da Informação, UNESP, Campus de Marília.
Silvana Aparecida Borsetti Gregorio Vidotti
vidotti@marilia.unesp.br
Professora do Programa de Pós-Graduação em Ciência da Informação, UNESP, Campus de Marília.
Mariângela Spotti Lopes Fujita
fujita@marilia.unesp.br
Professora do Programa de Pós-Graduação em Ciência da Informação, UNESP, Campus de Marília.
Nenhum comentário:
Postar um comentário