Gracias por estar nuevamante en mi blog. Hablaremos hoy sobre la red invisible.
La principal causa de la existencia de la
Internet profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de
la información existente en Internet. Si los buscadores tuvieran la capacidad
para acceder a toda la información entonces la magnitud de la "Internet
profunda" se reduciría casi en su totalidad. No obstante, aunque los
motores de búsqueda pudieran indexar la información de la Internet Profunda
esto no significaría que ésta dejará de existir, ya que siempre existirán las
páginas privadas. Los motores de búsqueda no pueden acceder a la información de
estas páginas y sólo determinados usuarios, aquellos con contraseña o códigos
especiales, pueden hacerlo.
Los siguientes son algunos de los motivos por
los que los buscadores son incapaces de indexar la Internet profunda:
·
Páginas y sitios web protegidos con contraseñas o códigos
establecidos.
·
Páginas que el buscador decidió no indexar: esto se da
generalmente porque la demanda para el archivo que se decidió no indexar es
poca en comparación con los archivos de texto HTML; estos archivos generalmente también son más
“difíciles” de indexar y requieren más recursos.3
·
Sitios, dentro de su código, tiene archivos que le impiden al
buscador indexarlo.
·
Documentos en formatos no indexables.
·
De acuerdo a la tecnología usada por el sitio, por ejemplo los
sitios que usan bases de datos. Para estos casos los buscadores pueden llegar a
la interfaz creada para acceder a dichas bases de datos, como por ejemplo,
catálogos de librerías o agencias de gobierno.3
·
Enciclopedias, diccionarios, revistas en las que para acceder a
la información hay que interrogar a la base de datos, como por ejemplo la base
de datos de la RAE.4
·
Sitios que tienen una mezcla de media o archivos que no son
fáciles de clasificar como visible o invisible (Web opaca).
·
La información es efímera o no suficientemente valiosa para
indexar. Es posible indexar está información pero como cambia con mucha
frecuencia y su valor es de tiempo limitado no hay motivo para indexarla.3 }
·
Páginas que contienen mayormente imágenes, audio o video con
poco o nada de texto.
·
Los archivos en formatos PostScript, Flash, Shockwave, ejecutables (.exe), archivos comprimidos (.zip,.rar, etc)
·
Información creada en páginas dinámicas después de llenar un formulario,
la información detrás de los formularios es invisible.
·
Documentos dinámicos, son creados por un script que selecciona
datos de diversas opciones para generar una página personalizada. Este tipo de
documentos, aunque sí se pueden indexar, no están en los motores de búsqueda
porque en ocasiones puede haber varias páginas iguales, pero con pequeños
cambios, y las arañas web quedan atrapadas en ellos.3
·
Son subdirectorios o bases de datos restringidas.
La internet profunda es un conjunto de sitios
web y bases de datos que buscadores comunes no pueden encontrar ya que no están
indexadas. El contenido que puede ser hallado dentro de la Internet profunda es
muy amplio.6
Se estima que la Internet Profunda es 500
veces mayor7 que la Internet Superficial, siendo el 95% de
esta información públicamente accesible.
El internet se ve dividido en dos ramas, La
internet profunda y la superficial. El Internet superficial se compone de páginas estáticas o fijas,
mientras que Web profunda está compuesta de páginas dinámicas. La páginas
estáticas no dependen de una base de datos para desplegar su contenido sino que
residen en un servidor en espera de ser recuperadas, y son básicamente archivos HTML cuyo contenido nunca cambia. Todos los cambios
se realizan directamente en el código y la nueva versión de la página se carga
en el servidor. Estas páginas son menos flexibles que las páginas dinámicas.
Las páginas dinámicas se crean como resultado de una búsqueda de base de datos.
El contenido se coloca en una base de datos y se proporciona sólo cuando lo
solicite el usuario.8
En 2010 se estimó que la información que se
encuentra en la Internet profunda es de 7,500 terabytes, lo que equivale a aproximadamente 550
billones de documentos individuales. El contenido de la internet profunda es de
400 a 550 veces mayor de lo que se puede encontrar en la Internet superficial.
En comparación, se estima que la Internet superficial contiene solo 19
terabytes de contenido y un billón de documentos individuales.
Estimaciones basadas en la extrapolación de un
estudio de la Universidad de California en Berkeley especula que actualmente la
Internet profunda debe tener unos 91 000 Terabytes.10
La ACM por sus siglas en inglés (Association
for Computing Machinery) publicó en 2007 que Google y Yahoo indexaban el 32 % de los objetos de la
internet profunda, y MSN tenía la cobertura más pequeña con el 11 %. Sin
embargo, la cobertura de lo tres motores era de 37 %, lo que indicaba que
estaban indexando casi los mismos objetos.11
Se prevé que alrededor del 95% del internet es
internet profunda, también le llaman invisible u oculta, la información que
alberga no siempre está disponible para su uso. Por ello se han desarrollado
herramientas como buscadores especializados para acceder a ella.5
Son páginas de texto, archivos, o en ocasiones
información a la cual se puede acceder por medio de la World Wide Web que los buscadores de uso general no pueden,
debido a limitaciones o deliberadamente, agregar a sus índices de páginas webs.
La Web profunda se refiere a la colección de
sitios o bases de datos que un buscador común, como Google, no puede o quiere indexar. Es un lugar
específico del Internet que se distingue por el anonimato. Nada que se haga en
esta zona puede ser asociado con la identidad de uno, a menos que uno lo deseé.12
Bergman, en un artículo semanal sobre la Web
profunda publicado en el Journal of Electronic Publishing, mencionó que Jill
Ellsworth utilizó el término "la Web invisible" en 1994 para
referirse a los sitios web que no están registrados por algún motor de
búsqueda.13
Sería un sitio que, posiblemente esté diseñado
razonablemente, pero no se molestaron en registrarlo en alguno de los motores
de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a
esto la Web invisible.
Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y Mateo B. Koll de
Personal Library Software, en una descripción de la herramienta @ 1 de web
profunda, en un comunicado de prensa de diciembre de 1996.15
La importancia potencial de las bases de datos
de búsqueda también se reflejó en el primer sitio de búsqueda dedicado a ellos,
el motor AT1 que se anunció con bombos y platillos a principios de 1997. Sin
embargo, PLS, propietario de AT1, fue adquirida por AOL en 1998, y poco después el servicio AT1 fue
abandonado.13
El primer uso del término específico de web profunda, ahora generalmente aceptada, ocurrió en el
estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el término web invisible se
dice que es inexacto porque:
·
Muchos usuarios asumen que la única forma de acceder a la web es
consultando un buscador.
·
Alguna información puede ser encontrada más fácilmente que otra,
pero ésto no quiere decir que esté invisible.
·
La web contiene información de diversos tipos que es almacenada
y recuperada en diferentes formas.
·
El contenido indexado por los buscadores de la web es almacenado
también en bases de datos y disponible solamente a través de las
interrogaciones del usuario, por tanto no es correcto decir que la información
almacenada en bases de datos es invisible.16
Los motores de búsqueda comerciales han
comenzado a explorar métodos alternativos para rastrear la Web profunda. El
Protocolo del sitio (primero desarrollado e introducido por Google en 2005) y OAI son mecanismos que permiten a
los motores de búsqueda y otras partes interesadas descubrir recursos de la
Internet Profunda en los servidores web en particular. Ambos mecanismos
permiten que los servidores web anuncien las direcciones URL que se puede acceder a ellos, lo que permite
la detección automática de los recursos que no están directamente vinculados a
la Web de la superficie.El sistema de búsqueda de la Web profunda de Google
pre-calcula las entregas de cada formularioHTML y agrega a las páginas HTML resultantes en el
índice del motor de búsqueda de Google. Los resultados surgidos arrojaron mil
consultas por segundo al contenido de la Web profunda.17 Este sistema se
realiza utilizando tres algoritmos claves:
·
La selección de valores de entrada, para que las entradas de
búsqueda de texto acepten palabras clave.
·
La identificación de los insumos que aceptan sólo valores específicos
(por ejemplo, fecha).
·
La selección de un pequeño número de combinaciones de entrada
que generan URLs adecuadas para su inclusión en el índice de búsqueda Web.
Cuando se ingresa a un buscador y se realiza
una consulta, el buscador no recorre la totalidad de Internet en busca de las
posibles respuestas, si no que busca en su propia base de datos, que ha sido
generada e indizada previamente. Se utiliza el término "Araña web" (en inglés Web crawler) o robots (por software, comúnmente llamados
"bots") inteligentes que van haciendo búsquedas por enlaces de
hipertexto de página en página, registrando la información ahí disponible.18
El contenido que existe dentro de la Internet
profunda es en muy raras ocasiones mostrado como resultado en los motores de
búsqueda, ya que las “arañas” no rastrean bases de datos ni los extraen. Las
arañas no pueden tener acceso a páginas protegidas con contraseñas, algunos
desarrolladores que no desean que sus páginas sean encontradas insertan
etiquetas especiales en el código para evitar que sea indexada. Las “arañas”
son incapaces de mostrar páginas que no estén creadas en lenguaje HTML, ni tampoco puede leer enlaces que incluyen
un signo de interrogación. Pero ahora sitios web no creados con HTML o con signos de interrogación están siendo
indexados por algunos motores de búsqueda. Sin embargo, se calcula que aún con
estos buscadores más avanzados sólo se logra alcanzar el 16% de la información
disponible en la Internet profunda. Existen diferente técnicas de búsqueda para
extraer contenido de la internet profunda como librerías de bases de datos o simplemente
conocer el URL al que quieres acceder y escribirlo
manualmente.19
Logo de tor
The Onion Router (abreviado como TOR) es un proyecto diseñado e
implementado por la marina de los Estados Unidos lanzado el 20 de septiembre de
2002. Posteriormente fue patrocinado por la EFF (Electronic Frontier
Foundation, una organización en defensa de los derechos digitales). Actualmente
subsiste como TOR Project, una organización sin ánimo de lucro galardonada en
2011 por la Free Software Foundation por permitir que millones de personas en
el mundo tengan libertad de acceso y expresión en Internet manteniendo su
privacidad y anonimato.5
A diferencia de los navegadores de Internet
convencionales, Tor le permite a los usuarios navegar por la Web de forma
anónima. Tor es descargado de 30 millones a 50 millones de veces al año, hay
800,000 usuarios diarios de Tor y un incremento del de 20 % en el 2013,
Tor puede acceder a 6,500 sitios web ocultos.20
Cuando se ejecuta el software de Tor, para
acceder a la Internet profunda, los datos de la computadora se cifran en capas.
El software envía los datos a través de una red de enlaces a otros equipos
(llamados "nodos" o "relays" en inglés) y lo va
retransmitiendo quitando una capa antes de retransmitirlo de nuevo, esta
trayectoria cambia con frecuencia. Tor cuenta con más de 4.000 retransmisiones
y todos los datos cifrados pasan a través de -por lo menos- tres de estos
relays. Una vez que la última capa de cifrado es retirado por un nodo de salida,
se conecta a la página web que desea visitar.
El contenido que puede ser encontrado dentro
de la internet profunda es muy vasto, se encuentran por ejemplo, datos que se
generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo,
horarios de trenes; bases de datos sobre agencias de inteligencia, desidentes
políticos y contenidos criminales.21
Logo de Bitcoin
Mercados ilegales están alojados en servidores
que son exclusivos para usuarios de Tor. En estos sitios,se pueden encontrar
drogas, armas, o incluso asesinos a sueldo. Se utiliza la moneda digital
llamada Bitcoin, que tiene sus orígenes en 2009, pero que se
ha vuelto todo un fenómeno desde 2012,5 que se intercambia a través de billeteras
digitales entre el usuario y el vendedor, lo que hace que sea prácticamente
imposible de rastrear.22
Existen muchos mitos acerca de la internet
profunda, la deep web no es una región prohibida y mística del Internet, ni que
la tecnología relacionada es malévola. Ya que en ella también se alberga lo
ahora conocido como (AIW), por sus siglas en inglés, “the Academic Invisible
Web” La web académica invisible y se refiere a todas las bases de datos que
contienen avances tecnológicos, publicaciones científicas, y material académico
en general.23
Los recursos de la Internet Profunda pueden
estar clasificados en las siguientes categorías:
·
Contenido de Acceso limitado: los sitios que limitan el acceso a
sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la
navegación por y la creación de copias en caché.24
·
Contenido Dinámico: Las páginas dinámicas que devuelven respuesta
a una pregunta presentada o acceder a través de un formulario, especialmente si
se utilizan elementos de entrada en el dominio abierto como campos de texto.
·
Contenido No Vinculado: páginas que no están conectadas con
otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se
conoce como páginas sin enlaces entrantes.
·
Contenido Programado: páginas que sólo son accesibles a través
de enlaces producidos por JavaScript, así como el contenido descargado de forma
dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
·
Sin contenido HTML: contenido textual codificado en multimedia
(imagen o video) archivos o formatos de archivo específicos no tratados por los
motores de búsqueda.
·
Web privada: los sitios que requieren de registro y de una
contraseña para iniciar sesión
·
Web contextual: páginas con contenidos diferentes para
diferentes contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación
anterior).

No hay comentarios.:
Publicar un comentario