Bienvenidos de nuevo a nuestro blog sobre la búsqueda y gestión de datos. En el tema de hoy vamos a hablar sobre la recuperación de la información, tema que está íntimamente relacionado con la entrada anterior Tema 4: Los buscadores. 3, 2, 1... y comenzamos.
El concepto de recuperación de la información es bastante complejo, se trata de un área científica encargada del almacenamiento y la representación de la información. Las formas de almacenar la información la vimos en el Tema 3: Almacenamiento de la información. Para poder representar esta información almacenada primero necesitamos recuperarla. Esta recuperación se hace mediante documentos cuyo contenido responde a la búsqueda. Por lo tanto, la búsqueda de información se complementa con la de recuperación. La información que necesitamos recuperar tras hacer una búsqueda se obtiene mediante las siguientes técnicas:
De almacenamiento: Se accede a la información almacenada en una base de de datos usando el lenguaje de consultas para extraer y recuperar la información.
Sistemas dedicados a la recuperación de la información: Procesan lenguaje natural y arrojan los resultados.
Características de las sistemas de recuperación de información.
Antes de empezar a hablar de cómo se realiza la recuperación es necesario profundizar un poco en los sistemas de recuperación de la información y ver sus características fundamentales.
- Pertinencia: Esta cualidad permite a los docuentos recuperados adaptarse adecuadamente a las necesidades del usuario.
- Exhaustividad: La capacidad del sistema para recuperar toda la información relevante sobre una búsqueda.
- Consistencia: Capacidad para coordinar el sistema de clasificación con el lenguaje de búsqueda.
- Tasa de acierto: Coeficiente de el numero de documentos relevantes recuperados entre el número total de docuentos relevantes de la colección.
Aquí dejo un enlace con estas y más cualidades.
Técnicas de recuperación:
Los sitemas de recuperación están basados en estas complejas técnicas, dependiendo del sistema se empleará una técnica u otra. No olvidéis que estos sistemas no son exclusivamente de los motores de búsqueda. Algunas de las técnicas son:
- Ad-hoc: Es la más empleada por los motores de búsqueda, estos tienen un conjunto de documentos en la web de carácter estático, sobre los que se hacen las consultas. Las consultas usuario, por el contrario, tienen un carácter dinámico.
- Categorización de documentos: Esta técnica también está ampliamente extendida, consiste en agrupar los documentos en otros documentos según ciertos valores, como por ejemplo su uso. A la hora de categorizar un documento distinguiremos dos tipos: Filtrado y enrutamiento. Esta categorización es muy limitada debido a que asume la preexistencia de las clases de documentos. Para este caso se usan las siguientes:
- Segmentación: Dividir el documento en partes sucesivas de diferentes temas.
- Clustering de documentos: Agrupa documentos en clases de diferentes temas.
Modelos de recuperación:
Los modelos de recuperación son las formas de representar los documentos (información). Estos modelos se definen cuando se diseña el sistema de recuperación. Nosotros vamos a hablar sobre los modelos de primera generación (matemáticos), pero hay que señalar que existen otros, denominados "de segunda generación" que dependen del propio modelo.
- Modelo booleano: Se basa en el uso de expresiones booleanas y los operadores AND/OR/NOT, la consulta sólo devolverá los resultados que la satisfagan. Es uno de los modelos más sencillos y utilizados, aunque debido a la facilidad con la que los cambios alteran las consultas no es el más recomendado.
- Modelo basado en la teoría de conjuntos: Determina utilizando la teoría matemática de los conjuntos si una frase pertenece a un conjunto o no.
- Modelos probabilísticos: usan la estadística y la probabilidad para estimar si un documento es o no relevante para una cierta búsqueda a partir de unos determinados parámetros.
- Modelos algebraicos: La información se representa mediante vectores y matrices, aparte de otras propiedades matemáticas comunes en la computación.
- Modeo vectorial: Está basado en espacios vectoriales, los cuales utiliza para localizar los docuentos más relevantes. Un documento será relevante si dos vectores se encuentran próximos espacialmente. En el modelo vectorial comparamos las consultas con los documentos dentro del sistema de recuperación.
Podemos apreciar la tremenda complejidad y diversidad de los sistemas de recuperación de la información. Si tienes preguntas puedes consultar alguno de los siguientes enlaces:
- Introducción a la recuperación de la información.
- Búsqueda y recuperación de la información.
- Técnica avanzadas de recuperación de la información.
O preguntame directamente a través de la caja de comentarios de abajo, no olvides dejar tu opinión.
Gracias.
No hay comentarios:
Publicar un comentario