viernes, 28 de noviembre de 2014

Tema 5: Recuperación de la información

Bienvenidos de nuevo a nuestro blog sobre la búsqueda y gestión de datos. En el tema de hoy vamos a hablar sobre la recuperación de la información, tema que está íntimamente relacionado con la entrada anterior Tema 4: Los buscadores. 3, 2, 1... y comenzamos.

El concepto de recuperación de la información es bastante complejo, se trata de un área científica encargada del almacenamiento y la representación de la información. Las formas de almacenar la información la vimos en el Tema 3: Almacenamiento de la información. Para poder representar esta información almacenada primero necesitamos recuperarla. Esta recuperación se hace mediante documentos cuyo contenido responde a la búsqueda. Por lo tanto, la búsqueda de información se complementa con la de recuperación. La información que necesitamos recuperar tras hacer una búsqueda se obtiene mediante las siguientes técnicas:
De almacenamiento: Se accede a la información almacenada en una base de de datos usando el lenguaje de consultas para extraer y recuperar la información.
Sistemas dedicados a la recuperación de la información: Procesan lenguaje natural y arrojan los resultados.

Características de las sistemas de recuperación de información.
 Antes de empezar a hablar de cómo se realiza la recuperación es necesario profundizar un poco en los sistemas de recuperación de la información y ver sus características fundamentales.
  • Pertinencia: Esta cualidad permite a los docuentos recuperados adaptarse adecuadamente a las necesidades del usuario.
  • Exhaustividad: La capacidad del sistema para recuperar toda la información relevante sobre una búsqueda. 
  • Consistencia: Capacidad para coordinar el sistema de clasificación con el lenguaje de búsqueda.
  • Tasa de acierto: Coeficiente de el numero de documentos relevantes recuperados entre el número total de docuentos relevantes de la colección.
Aquí dejo un enlace con estas y más cualidades.

Técnicas de recuperación: 
Los sitemas de recuperación están basados en estas complejas técnicas, dependiendo del sistema se empleará una técnica u otra. No olvidéis que estos sistemas no son exclusivamente de los motores de búsqueda. Algunas de las técnicas son:
  • Ad-hoc: Es la más empleada por los motores de búsqueda, estos tienen un conjunto de documentos en la web de carácter estático, sobre los que se hacen las consultas. Las consultas usuario, por el contrario, tienen un carácter dinámico.
  • Categorización de documentos: Esta técnica también está ampliamente extendida, consiste en agrupar los documentos en otros documentos según ciertos valores, como por ejemplo su uso. A la hora de categorizar un documento distinguiremos dos tipos: Filtrado y enrutamiento. Esta categorización es muy limitada debido a que asume la preexistencia de las clases de documentos. Para este caso se usan las siguientes:
    • Segmentación: Dividir el documento en partes sucesivas de diferentes temas.
    • Clustering de documentos: Agrupa documentos en clases de diferentes temas.  

Modelos de recuperación:
Los modelos de recuperación son las formas de representar los documentos (información). Estos modelos se definen cuando se diseña el sistema de recuperación. Nosotros vamos a hablar sobre los modelos de primera generación (matemáticos), pero hay que señalar que existen otros, denominados "de segunda generación" que dependen del propio modelo.
  • Modelo booleano: Se basa en el uso de expresiones booleanas y los operadores AND/OR/NOT, la consulta sólo devolverá los resultados que la satisfagan. Es uno de los modelos más sencillos y utilizados, aunque debido a la facilidad con la que los cambios alteran las consultas no es el más recomendado.
  • Modelo basado en la teoría de conjuntos: Determina utilizando la teoría matemática de los conjuntos si una frase pertenece a un conjunto o no.
  • Modelos probabilísticos: usan la estadística y la probabilidad para estimar si un documento es o no relevante para una cierta búsqueda a partir de unos determinados parámetros.
  • Modelos algebraicos: La información se representa mediante vectores y matrices, aparte de otras propiedades matemáticas comunes en la computación.
  • Modeo vectorial: Está basado en espacios vectoriales, los cuales utiliza para localizar los docuentos más relevantes. Un documento será relevante si dos vectores se encuentran próximos espacialmente. En el modelo vectorial comparamos las consultas con los documentos dentro del sistema de recuperación.

jueves, 6 de noviembre de 2014

Tema 4: Los buscadores.

Nos encontramos un día mas en nuestro blog de Busqueda y gestión de la información y los recursos multimedia. En esta entrada vamos a hablar sobre algo que usamos todos los días, los buscadores.
¿Cómo podemos saber que buscador es mejor?¿Cómo buscan la información y la gestionan?
Vamos a intentar aclarar estas y muchas más preguntas en esta entrada, no te la pierdas:

Existe un gran número de buscadores, más de los que te piensas, además de diferentes tipos, por eso es imposible hablar de cada uno de ellos. La importancia de algunos de estos a sido prácticamente inexistente teniendo una aparición fugaz, sin embargo, otros han ido escalando puestos hasta llegar a la cima de los buscadores de Internet, vamos a hablar un poco de estos últimos:

Buscadores más Populares:
(Hay un link en cada imagen para que pruebes el buscador.)

https://www.google.es/
El famoso Google. ¿Quién no ha oido hablar de este gigante? Google es el buscador más usado en el mundo con un aplastante 71'6%. Con este porcentaje no cabe duda de su alta eficacia. Google se ha hecho popular con técnicas como absorver a otras plataformas de gran popularidad como Youtube, además de usar un sistema de mensajería propio, Gmail.
Google, al igual que muchos otros buscadores internacionales, emplea buscadores jerárquicos (Arañas o Spiders) Lo que hacen es recorrer las páginas recopilando información sobre su contenido y lo almacena en su base de datos. Cuando hacemos una busqueda, estos buscan en su base de datos las paginas que contengan las palabras que has buscado y las mustran por orden de relevancia.
Si una página no es relevante y queiere aparecer en los primeros puestos de la búsqueda deberá pagar.
Ahora además gracias a Google Maps tambien se puede tener en cuenta nuestra localización geográfica a la hora de enseñar la información, por ejemplo a la hora de buscar un restaurante, google mostrará los que estén cerca de tu ubicación.

Las principales ventajas que tiene Google es un diseño muy intuitivo además de sencillo, por lo que tiene poco peso a la hora de cargar la página (salvo con los famosos Doodles).
Tambien es capaz de ofrecer acceso a la gran mayoria de la Web, otros sólo tienen acceso a una pequeña parte. Pero la mayor ventaja que tiene Google es su popularidad.
Como contras, Google tiene una privacidad no demasiado bien protegida, servidores vulnerables y el uso de PageRank hace que tengas que ir al indice 5.000 de la busqueda si la página que buscas es de poca popularidad.





http://www.baidu.com.br/
Un buscador que cada vez toma más importancia desde su nacimiento en el año 1999 es Baidu (significa "100 veces" en chino), con un 16'35% este buscador es muy similar a Google, con 57 servicios de busqueda, servicio de correo... Es el buscador mas popular en toda Asia, en sus inicios NO aceptaba carácteres occidentales.
Baidu se podría definir rápidamente como una copia de Google para chinos, tambien a copiado a Wikipedia (Baidu Baike) y Blogger (Baidu Space), paginas censuradas en china.
Lo que resalta más de este buscador es que permite hacer busquedas de archivos de audio (MP3, WMA, SWF...). por lo que es ampliamente usado en China para la busqueda y descarga de musica, lo cual llevo en 2007 a la empresa a los tribunales contra las grandes discográficas EMI, Warner Music, Universal Music y Sony BMG. Baidu ganó el juicio ya que en China no está prohibida la descarga de estos archivos.
Baidu también tiene un buscador de noticias, pero además tiene permiso de Pekin para generar sus propias noticias, con un departamento especifico.



http://www.bing.com/
Es el buscador predeterminado de Microsoft. Microsoft es una compañía que está en todos los ambitos de la tecnología, ya sea en juegos, sistemas operativos, navegadores... y los buscadores no podía ser la excepción. Ofrece una tasa de acierto bastante alta y una buena velocidad. Pero su punto fuerte es la facilidad y velocidad a la hora de buscar contenido multimedia, en este aspecto es mejor que Google. Tambien ofrece la protección de los datos y de la propiedad intelectual. Con todo esto no es de extrañar que sea el tercer buscador más usado en el mundo con un 5'45%

El 6'6 % restante se lo reparten el resto de buscadores, con yahoo a la cabeza.



Tipos de buscadores:
Todos estos buscadores anteriores son jerárquicos, pero existen otros tipos:

Buscadores de Directorios: No requiere muchos recursos informáticos, pero si mantenimiento y soporte humano. Registran algunos de los datos de la página como el titulo, o la descripción que se haga en el momento de registrar la página que son revisados por supervisores humanos y clasficado en categorías. Es decir no buscan información en el contenido de la página, sino por temática. Algo parecido a los tags de Blogger. Yahoo! y Terra son ejemplos de este tipo de buscadores.

Buscadores Verticales: Especializados en un sector concreto como por ejemplo futbol, o peliculas, lo que permite analizar la información de forma más profunda. Un ejemplo es Nestoria, un buscador de pisos.

Buscadores de Portal: Estos buscadores sólo realizan busquedas en su Portal o Web. Por ejemplo Youtube, Facebook, MySpace...

Meta-buscadores: Estos no son buscadores reales, sino pseudobuscadores que utilizan varios buscadores autenticos para realizar busquedas en paralelo de los principales buscadores. En las versiones más modernas se puede elegir qué buscadores utilizar.
Les dejo un enlace para que prueben ustedes mismos un meta-buscador, podéis dejar un comentario de la experiencia.
http://www.zoo.com/


Curiosidades y Opinión general:

En mi opinión el mejor buscador es Google, rapido, sencillo, intuitivo, eficaz... Aunque si por algún capricho del destino no encuentro lo que busco (que a veces pasa) Bing es una buena carta para guardarse bajo la manga.
En cualquier caso yo jamás utilizaré Baidu, ya que en mi opinión se aprovechan de las leyes Chinas para plagiar ideas de otras empresas sin ninguna consecuencia legal en su contra.

Para acabar aquí te dejo un enlace sobre 12 técnicas para sacarle más partido a tus busquedas en Google.

No olvides dejar tu comentario abajo.