sábado, 7 de junio de 2008

¿Como funcionan los buscadores de Internet?

Los servicios de búsqueda accesibles al público en la red (Google, Yahoo, msn, Altavista, Go, etc) usan varias técnicas para acelerar y refinar sus búsquedas.

Un modo de ahorrar tiempo de búsqueda consiste en comparar la pregunta del usuario de Internet con un archivo índice de datos procesados previamente y almacenado en una ubicación determinada, en lugar de comparar con millones de sitios de la red. Para actualizar los datos procesados, la base de datos ejecuta de manera periódica un programa llamado oruga para leer las páginas de Internet. Un programa diferente analiza las páginas resultantes para extraer términos clave de búsqueda. Estas palabras se guardan en el archivo índice junto con los enlaces a las páginas correspondientes. Entonces, las preguntas nuevas que envían los usuarios se comparan con este archivo índice.

La “búsqueda inteligente” o smart representation consiste en elaborar el índice según una estructura que reduzca al mínimo el tiempo de búsqueda. Los datos se ordenan con mucha mayor eficacia en forma de “árbol” que mediante un listado secuencial. En los índices arborescentes, la búsqueda comienza desde arriba o nudo de ráiz. Para localizar términos que comienzan por letras del alfabeto anteriores a la letra inicial de la palabra nudo, el buscador parte de la ramificación izquierda; y si la letra es posterior en el alfabeto, de la ramificación derecha. Cada nudo subsiguiente ofrece más ramificaciones hasta que se localiza el término en cuestión, o hasta concluir que no se encuentra en el árbol.

Como resultado de estas búsquedas suelen ofrecerse numerosos enlaces o URL (unified resource locator). Pero todos los enlaces resultantes tienen por lo general la misma relevancia, debido a las ambiguedades del idioma (i.e.: “jugar polo”, frente a “polo norte”). Para deducir los registros más pertinentes, el algoritmo de búsqueda aplica estrategias clasificatorias. Un método habitual, conocido como “peso según frecuencia”, asigna un peso relativo a las palabras para indicar su importancia en cada documento; la asignación de relevancia se basa en la distribución de las palabras y en la frecuencia con que aparecen. A las palabras que aparecen con mucha frecuencia (como “o”, “para” y “con”) y en muchos documentos se les atribuye mucho menos peso que a las que aparecen en pocos documentos y tienen más trascendencia semántica.

3 comentarios:

Luis Solares dijo...

ta chilero el blog!

Anónimo dijo...

Esta interesantes el blog

Anónimo dijo...

muy buena informacion, esto puede ser muy util

flash en dispositivo movil

flash en dispositivo movil
flash en dispositivo movil un ps2 es un producto nuevo inovador, una aplicacion flash q soporta los dispositivos portatiles como un movil, o un ps2 incluso un gameboy