Buscar información en la Web no deja de ser un tema complejo. La cantidad de información disponible aumenta de manera exponencial y con ello aumenta la dificultad para encontrar información relevante. La mayoría de la información disponible en la Web se considera ruido, en el sentido que no tiene gran valor.

Búsqueda basada en palabras claves

El enfoque de búsqueda de información más maduro actualmente esta basado en buscadores basados en palabras claves (keyword search). Dentro de estos el ejemplo clásico es Google.

El algoritmo inicial de Google, el cual ha sufrido modificaciones con el paso de los años, es el conocido PageRank. Este algoritmo es un ejemplo de Inteligencia Colectiva (Wisdom of The Crows) muy citado. La idea en su forma más elemental es la siguiente:

Lo que entrega valor a un sitio no es la cantidad de visitas que este recibe, sino la cantidad de links que apuntan a dicho sitio. En este sentido, cada link hacia el sitio es considerado como un voto. Además, se debe considerar que no todos estos votos tienen el mismo peso, ya que no todos los sitios tienen el mismo valor. Es decir, el valor de un sitio (llamado el PageRank del sitio) es función de los links que apuntan al sitio ponderados por el valor de los sitios que contienen estos links.

Este algoritmo tiene como resultado final que cuando buscamos en Google un conjunto de palabras claves X, los resultados entregados son los sitios mejor evaluados cuyo contenido guarde relación con las palabras claves X.

A pesar de ser muy exitoso en los últimos años, actualmente podemos mencionar dos grandes problemas:

1. Este enfoque de búsqueda no responde bien a preguntas complejas en el sentido semántico ni a búsquedas muy específicas.

En el sentido semántico la búsqueda se basa en palabras claves, no en el significado de la oración o frase de la consulta. Cuando buscamos por “arriendo de casas en las tranquilas playas de Chile” el buscador no entiende la consulta, simplemente extrae las palabras que considera claves, por ejemplo arriendo, casa, playa, Chile y busca los sitios mejor evaluados cuyo contenido contenga las palabras buscadas.

Respecto a búsquedas específicas sucede a menudo que un contenido muy específico, por ejemplo papers o artículos de post doctorados en energía nuclear, si es que están disponibles en la web no contienen muchos links que apuntan hacia ellos, y sumado al problema semántico hace improbable encontrar este tipo de información a través de este enfoque.

2.  Este enfoque considera que todas las personas son iguales, en cuanto a sus gustos e intereses.

Con esto nos referimos a que cualquiera sea la consulta, el resultado es el mismo independiente de quien realice la consulta. Por ejemplo si un empresario quiere saber como le ha ido a Apple en el último tiempo y busca Apple Growth (crecimiento Apple) saldrá la información que busca, pero esta es la misma información que le saldrá a una señora que quiere saber sobre como plantar manzanas si se le ocurre poner la misma consulta en la búsqueda. Si el buscador considerase los intereses y gustos de ambos, tendría más posibilidades de entregar a ambos los resultados que esperan utilizando la misma consulta.

Actualmente existen nuevos enfoques para abordar el tema de la búsqueda:

Filtrado colaborativo

Este enfoque se basa en dos ideas complementarias:

1. La comunidad (los usuarios) es capaz de evaluar de manera consciente el contenido disponible de acuerdo a sus intereses (me gusta o no me gusta y en que grado).

2. La similitud de intereses entre usuarios permite la utilización de algortimos de recomendación que permiten sugerir información a los usuarios basado en la similitud de sus intereses con los de otros usuarios.

Tres ejemplos clásicos de este enfoque son:

1. Amazon: El popular sitio de venta de libros online utiliza las acciones de los usuarios en el sitio (que ve y que compra) para recomendarles libros basado en lo que usuarios con intereses similares han visto y comprado. Este sistema ha sido clave en el éxito de Amazon sobre la competencia, siendo fundamental dentro de su modelo de negocios.

2. StumbleUpon: Este sitio, uno de los favoritos de los miembros de webeando, recomienda contenido a sus usuarios basándose en sus intereses. Al momento del registro se le pide al usuario que ingrese sus intereses, luego el usuario presiona un botón de navegación y el sistema le entrega contenido basándose en los intereses que el usuario ingresó. Además se le pide al usuario que evalúe el contenido que se le presenta (me gustó o no me gustó) de manera de refinar las futuras recomendaciones.

3. Slashdot: Este sitio corresponde a una comunidad de usuarios cuyos intereses se centran en temas tecnológicos. Los usuarios agregan contenido el cual es evaluado por la comunidad para determinar el contenido relevante.

Como estos ejemplos existen muchas empresas y emprendimientos que consideran la utilización de filtrado colaborativo como parte de su modelo de negocios

Web Semántica

La Web Semántica es la gran promesa actual. Aunque entender lo que implica requiere un grado de conocimiento bastante técnico, la idea sencilla como se ha expresado es “hacer por los datos lo que la web hizo por los documentos”.

La idea es la siguiente:

La idea central de la Web en sus orígenes era relacionar documentos a través de links (enlaces) y agregar información adicional sobre el contenido del documento (en este sentido el lenguaje html permitió describir de mejor manera los documentos y pasó a ser metadata de estos).

La Web así entendida correspondía a un conjunto de documentos estructurados relacionados por links. La estructura permitía entender el contenido de cada documento y su relación con otros.

Ahora, lo que se busca es bajar aún más el nivel de detalle. Cada documento esta compuesto de un conjunto de datos, los cuales están relacionados entre si. La idea es poder agregar a los documentos información adicional sobre la estructura de su contenido. Por ejemplo, un documento que corresponda a una biografía contiene información sobre el autor, sobre sus relaciones de parentesco, etc. La idea es agregar información que exprese los conceptos de “autor”, las relaciones de parentesco y toda la información adicional.

El objetivo de obtener esta información es permitir un análisis más rico de la información disponible en los documentos, y por ende, en la Web.

Al sumar a esto agentes inteligentes que interpreten esta información daría lugar a busquedas semánticas complejas y un nuevo potencial para el desarrollo de nuevas aplicaciones y modelos de negocios. Estos agentes serían capaces de “entender” las consultas y entregar mejores resultados.

Actualmente recién están comenzando a aaparecer emprendimientos en esta área, como es el caso de Hakia, un buscador semántico, Twine, una red social centrada en el contenido y otros.

VN:F [1.7.5_995]
Rating: 0.0/10 (0 votes cast)
VN:F [1.7.5_995]
Rating: 0 (from 0 votes)