lunes, 14 de marzo de 2016


La Web superficial y la Web profunda.
Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte 
de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, 
la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, 
entradas a diccionarios y contenido de sitios que demandan un login (aunque sean gratuitos), entre otros 
tipos de formas de almacenamiento de contenido que no aparecen entre los resultados de una 
búsqueda convencional.
¿Qué es la Web visible?
Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los 
buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus 
formularios de búsqueda.
Las características principales de los sitios de la Web visible son:
  • su información no está contenida en bases de datos
  • es de libre acceso
  • no requiere la realización de un proceso de registro para acceder
Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con 
una URL fija y accesibles desde otro enlace.

¿Qué es la Web invisible?

La Web invisible es el término utilizado para describir toda la información disponible en Internet 
que no es recuperada interrogando a los buscadores convencionales. Generalmente es información 
almacenada y accesible mediante bases de datos.
Si bien el 90% de las bases de datos están públicamente disponibles en Internet, los robots de los 
buscadores solamente pueden indicar su página de entrada (homepage) y son incapaces de entrar dentro 
de las tablas e indizar cada registro. Les falta la habilidad para interrogarlas, seleccionar sus opciones y 
teclear una consulta para extraer sus datos. La información almacenada es por consiguiente 
"invisible" a estos robots ya que los resultados se generan frente a una pregunta directa 
mediante páginas dinámicas (ASP, PHP...), es decir, páginas que no tienen una URL fija y que se 
construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de 
unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente.
La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor 
que el Web visible.


Caracterización de la Web invisible o profunda
Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca 
(the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web
realmente invisible (the truly invisible Web).
La Web opaca:
Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo 
están por alguna de estas razones:
Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las 
páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se 
realiza al mismo ritmo.
Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un 
gran número de resultados de búsqueda, generalmente limitan el número de documentos que se 
muestran (entre 200 y 1000 documentos).
URL’s desconectadas: las generaciones más recientes de buscadores, como Google, presentan los 
documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. 
Si un documento no tiene un link desde otro documento será imposible que la página sea descubierta, 
pues no habrá sido indizada.
No cabe duda de que los actuales buscadores y directorios de la web están mejorando su funcionamiento. 
Más allá de los detalles técnicos que el público no alcanza a ver, la eficiencia de estas maquinarias ha 
aumentado y esto se aprecia en los resultados de las búsquedas. A medida que estas herramientas 
se vayan haciendo más poderosas disminuirá la necesidad de la elaboración manual de guías o 
concentradores de recursos y quizás más la de orientación en las estrategias de búsqueda y en el 
uso y aprovechamiento de los recursos localizados.
Un observador cuidadoso puede apreciar que persiste la práctica de los robots de no indizar todas las 
páginas de un sitio, fijándose en los resultados de las búsquedas que arrojan las diferentes herramientas. 
Por ejemplo, se puede tener la referencia de una base de datos, disponible a través de un sitio web, en 
una de las páginas del sitio que contiene un link a ella, y no aparecer, en cambio, la referencia a la 
página de acceso directo a la base de datos en ese sitio.
La frecuencia de la indización puede haber aumentado en algunos buscadores, o incluso hacerse de 
forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza, varían más 
(por ejemplo, la información bursátil) serían visitadas más frecuentemente por los robots que aquellas 
que tienden a ser más estables en su contenido.
El número máximo de resultados visibles no es un problema cuando los buscadores presentan los 
resultados ordenados por relevancia, pues siempre aparecerán primero aquellos que se ajustan más a la 
búsqueda realizada. En la medida en que se pueda realizar una búsqueda avanzada y los criterios de 
relevancia combinen el número de ligas con la frecuencia de palabras, la presentación de los 
resultados no constituirá un obstáculo para encontrar la información. El usuario siempre debe tener 
en cuenta que los buscadores son más apropiados cuando la búsqueda es específica, es decir, 
se conocen datos sobre lo que se busca; mientras que es más adecuado realizar búsquedas temáticas 
en los directorios.
Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera de forma 
muy sencilla, toda página que se colgara en la web. Pero dada la gran descentralización de Internet, 
esto no parece vislumbrarse en un futuro inmediato.
La Web privada:
Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero 
son excluidas deliberadamente por alguna de estas causas:
Las páginas están protegidas por contraseñas (passwords).
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al 
cuerpo de la página.
Este segmento de la web no representa una gran pérdida en términos de valor de la información 
que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad.
En cualquier caso, son los dueños de la información los que deciden no hacerla disponible, por lo que 
difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera. Además, los archivos 
robots.txt sirven para evitar que los robots caigan en “agujeros negros”, que les hagan entrar en procesos 
circulares interminables, mermando así la eficiencia en su funcionamiento
La Web propietaria:
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea 
de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de 
acceso público y gratuito.
En un artículo reciente de la OCLC Office for Research se examinan las tendencias en 
cuanto a tamaño, crecimiento e internacionalización de la Web pública, es decir, la porción de información 
más visible y accesible para el usuario promedio. Las principales conclusiones del estudio son:
El crecimiento de la Web pública muestra un estancamiento en los últimos años. Ello se debe a que se 
crean menos sitios Web y otros desaparecen, aunque esto no quiere decir que no aumente en 
volumen de información, es decir, en número de páginas o número de Terabytes.
Otra posibilidad, que no se señala en este estudio, pero que puede aventurarse, es que algunos sitios web
estén transformándose en sitios accesibles solamente mediante pago.
La Web pública está dominada por contenidos originados en los Estados Unidos, así como 
escritos en inglés. 
Esto nos lleva a pensar que es probable que haya más recursos invisibles en páginas originadas en 
países distintos a los Estados Unidos y en idioma diferente al inglés.
La Web realmente invisible:
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, 
como las siguientes:
Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y 
archivos comprimidos.
Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se 
realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las 
bases de datos,
así como en los diferentes procedimientos de búsqueda.
Algunos buscadores tradicionales como Altavista Google han evolucionado y presentan ahora la 
posibilidad de realizar búsquedas por materiales o formatos especiales, como imágenes, audio y vídeo 
son posibles porque se realiza una catalogación textual de éstos. Las búsquedas en materiales en formatos 
como PDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. Así, el principal medio
 por el cual se pueden efectuar las búsquedas es el texto. Por ejemplo, si queremos recuperar imágenes
 en blanco y negro, éstas deben estar clasificadas de ese modo en la base de datos. Esto implica, desde 
luego un proceso manual. Hoy por hoy, los métodos bibliotecarios tradicionales resultan ser los más
 eficaces en la búsqueda de información, al menos mientras la inteligencia artificial no avance más. 
Realizar una búsqueda del tipo “quiero fotografías de personas que se parezcan a Woody Allen” sólo es 
posible si hay un especialista que clasifique las imágenes para distinguir si se trata de dibujos 
o fotografías, si éstas son de personas, y además incluya la información acerca de los parecidos. 
Las maquinarias actualesde búsqueda son extraordinariamente eficaces para recuperar información 
textual, pero esto no excluye la necesidad de la catalogación y clasificación de los recursos. 
Por lo mismo, el número de archivos de este tipo que se pueden recuperar con los buscadores actuales 
tiene que ser limitado. Una página web que contiene una imagen, sin mayor información 
textual acerca de su contenido, no podrá ser recuperada automáticamente más que 
por su extensión (.jpg, por ejemplo).
Recursos de búsqueda en la Web profunda por tipo de recurso
Buscadores
Scirus
http://www.scirus.com/
WebSearch
http://www.websearch.com.au/
Metabuscadores
iBoogie
http://www.iboogie.tv/
Fazzle
http://www.fazzle.com/
Ixquick
http://www.ixquick.com/
Search.Com
http://www.search.com/
Directorios de buscadores
AlphaSearch
http://www.alphasearch.org/
Directorios
CompletePlanet
http://www.completeplanet.com/
Direct Search
http://www.freepint.com/gary/direct.htm
HotSheet
http://www.hotsheet.com/
IncyWincy
http://www.incywincy.com/
InternetInvisible
http://www.internetinvisible.com/
Librarians Index
http://lii.org/
Master Link List On the Internet
http://www.web-friend.com/links/masterlinks.html
RefDesk.com
http://refdesk.com/
Webfile.com
http://webfile.com/
Where to Do Research
http://www.wheretodoresearch.com/
Directorios anotados
AcademicInfo
http://www.academicinfo.net/
Resource Discovery Network
http://www.rdn.ac.uk/
Directorios de bases de datos
WebData.com
http://www.webdata.com/
Guías
About
http://www.about.com/
LibrarySpot
http://www.libraryspot.com/
Motores avanzados
Deep Query Manager (sustituye a Lexibot)
http://brightplanet.com/news/dqm2.asp
FeedPoint
http://www.quigo.com/feedpoint.htm
Search4science
http://www.search4science.com/
Strategic Finder
http://www.strategicfinder.com/