El origen de OSINT

En realidad, OSINT (Open Source Intelligence) como tal se lleva utilizando décadas. Es decir, recolectar datos disponibles de forma pública (emisiones de radio y TV, publicaciones escritas, etc.) para correlacionar esa información y obtener conclusiones específicas o datos sobre alguien. Eso es algo que comenzó en la segunda guerra mundial y se acrecentó durante la guerra fría en los años 80.

Pero no fue hasta después del 11 de septiembre de 2011, ya en plena era digital, que el gobierno norteamericano decidió crear una agencia específica para las tareas de OSINT y así mantenerse informado sobre eventos o cambios de sentimiento que pudieran resultar relevantes para la seguridad nacional. De modo que, desde 2004 el sector de OSINT ha ido creciendo de forma sostenida y cada vez más empresas privadas aprovechan el hecho de que, en la era de la información, hay muchos datos a los que se puede acceder de forma inmediata y pública a través de Internet.

Hoy en día, los sistemas OSINT son un complemento más de los servicios de inteligencia y las fuerzas policiales, ya que pueden ofrecer mucha información tanto a nivel granular de una sola persona, como a nivel de un colectivo.

Pero no sólo los gobiernos hacen uso de esta tecnología, sino que también las grandes corporaciones emplean servicios de empresas de OSINT para hacer estudios de mercado antes de lanzar sus productos o sondear la receptividad acerca de un nuevo servicio, conocer el sentimiento del público, así como evaluar el estado de la competencia.


¿De dónde obtiene OSINT los datos?

Las fuentes de datos de las que OSINT extrae la información que se necesita son muy variadas y, en su mayoría públicas, como ya hemos visto. Entre las más importantes están las siguientes:

  • Artículos de periódico o revistas digitales
  • Informes de agencias de medios o de estudios sociológicos/estadísticos
  • Libros y publicaciones académicas
  • Redes sociales
  • Datos censales
  • Directorios telefónicos
  • Información financiera pública
  • Encuestas públicas (tanto en RRSS como no)
  • Información pública, filtrada de ciberataques
  • Información sobre vulnerabilidades de software
  • Datos de registro y dominios

Un ejemplo: foros como Discord o similares no están indexados, porque se encuentran detrás de un login. Pero basta con crearse una cuenta, y ese “problema” desaparece. Lo mismo ocurre con fuentes de información que requieren una suscripción de pago (periódicos, revistas especializadas, servicios de demoscopia, analistas, etc.). Basta con pagar y ya se recibe información de calidad, preparada por expertos, que se puede sumar a todo lo demás.

Y luego están las redes sociales de cualquier tipo. Un lugar en el que los usuarios voluntariamente proporcionan su información personal, publican sus gustos y, en general muestran cómo se relacionan con los demás, a quién conocen, qué detestan, etc.

Pero la verdadera panacea de los datos está en el llamado Darknet. Aunque se requiere de navegadores específicos como Tor y otros para acceder a esta parte “oscura” de Internet, también aquí hay buscadores y una fuente de información tremenda para cuerpos policiales o judiciales. O para empresas que quieren saber qué se mueve realmente en las sombras de la Gran Red y abrir nuevos mercados.

“OSINT es inteligencia derivada de información pública y otros tipos de información no clasificada, con distribución o acceso público limitado.”

Todo esto está accesible libremente en Internet y, con un poco de paciencia, un navegador y unos buenos conocimientos de Google, se pueden encontrar sin problemas. Pero hay más. Mucho más. Aproximadamente el 96% de todo el contenido de Internet no está indexado por Google. Y la propia Google indica que tiene cientos de miles de millones de páginas indexadas. En otras palabras: hay trillones de páginas a las que Google no llega.

OSINT y Big Data

Es un hecho que la OSINT, tal y como la conocemos hoy en día, debe su existencia a Big Data. Al fin y al cabo, un sistema OSINT no es más que una enorme base de datos capaz de relacionar información, extraer conclusiones, cruzar datos y encontrar respuestas a las preguntas que se le plantean. Y toda la información procede, principalmente, de fuentes abiertas. Por lo tanto, la enorme cantidad de datos disponibles requiere algún tipo de procesamiento de Big Data para poder aprovecharlos en tiempo razonable.

Una de las ventajas de estos sistemas es que eliminan las respuestas tendenciosas, como las que pueden obtenerse si se encarga una encuesta. Al final, la empresa demoscópica siempre se siente obligada a dar una respuesta con la que el cliente esté más o menos satisfecho. Lo que puede introducir sesgo. En el caso de OSINT, sin embargo, los algoritmos relacionan los datos de forma fría y dan respuestas claras bien a favor o en contra de la premisa inicial, pero veraces e imparciales en cualquier caso.


Los usos actuales de OSINT

Como con todas las tecnologías Big Data, los usos actuales de OSINT son sólo el principio. Conforme se utilice en más ámbitos, aparecerán nuevas aplicaciones. Sin embargo, ahora mismo OSINT se usa en el área de la ciberseguridad, en las investigaciones policiales y de inteligencia, en el campo legal, en seguros, en la lucha contra el fraude, el descubrimiento de amenazas (reales, cibernéticas o comerciales) y en las finanzas.

Recuperación de datos activa y pasiva

  • OSINT: es el más común, y en este caso el investigador añadirá los datos de los que ya dispone al sistema OSINT, y el sistema devolverá la inteligencia solicitada, combinando esa información con la ya disponible en su base de datos y sacando conclusiones o relaciones.
  • Crawler focalizado: en este caso el investigador emplea un método más específico para obtener información que, a primera vista, puede no estar disponible. La información obtenida se añade al sistema para realizar los procesos correspondientes.

¿Sólo se usa información pública?

No siempre. Aunque las siglas “OS” de OSINT significan Open Source, no todos los sistemas OSINT utilizan exclusivamente información pública. En muchos casos ese conjunto de datos se completa con otros más específicos, provenientes de diferentes ámbitos. Por ejemplo, del histórico comercial de una empresa, o de una base de datos de biometría de la Policía, etc. Todas las combinaciones son posibles y, al final, el conjunto de datos a utilizar será el necesario para obtener las conclusiones que se quieren extraer de él.