Datos Estructurados, Semiestructurados y No Estructurados

Datos Estructurados, Semiestructurados y No Estructurados

Para nadie es un secreto que el mundo en que vivimos se hace cada día más digital. Sorprendentemente, más del 90% de todos los datos se crearon en los últimos 2 años. La evolución de la tecnología ha provocado un cambio en la forma en que almacenamos los datos, desde archivadores hasta discos duros y almacenamiento en la nube.

Pero, vamos por parte y lo primero que me pregunto es: ¿Qué es un dato?

Un dato es la representación de una variable (cualitativa o cuantitativa) que indica un valor asignado. Explicado de forma sencilla, un dato es información y la información es poder. Algo esencial en el mundo globalizado en el que vivimos.

Para examinar y medir un conjunto masivo de datos, lo primero que tendremos que hacer es organizarlos o tabularlos. A partir de ahí podremos ejercer análisis sobre cada uno de ellos y obtener resultados que puedan ser de interés para los objetivos de nuestra empresa.

Sin embargo, podemos distinguir tres tipos de datos: estructurados, semiestructurados y no estructurados. Los primeros se almacenan en un Datawarehouse. Por el contrario, los otros permanecen en el Data Lake.

Y me siguen surgiendo preguntas, ahora me pregunto:

¿Qué son los datos ESTRUCTURADOS?

Los datos estructurados son información que ha sido formateada y transformada en un modelo de datos bien definido, se suelen encontrar en la mayoría de bases de datos relacionales (RDBMS). Suelen ser archivos de texto que se almacenan en formato tabla, hojas de cálculo o bases de datos relacionales con títulos para cada categoría que permite identificarlos.

Para gestionar este tipo de datos se utiliza un tipo de lenguaje de programación estructurado, conocido como SQL (Structured Query Language) diseñado para administrar y recuperar información de sistemas de gestión de bases de datos relacionales (RDBMS).

Ejemplos de datos estructurados

Los datos estructurados son generados tanto por humanos como por máquinas. Existen numerosos ejemplos de datos estructurados generados por máquinas, como datos de POS como cantidad, códigos de barras y estadísticas de weblog. De manera similar, cualquiera que trabaje con datos habría usado hojas de cálculo una vez en su vida, que es un caso clásico de datos estructurados generados por humanos. Debido a la organización de los datos estructurados, es más fácil de analizar que los datos semiestructurados y no estructurados.

¿Qué son los datos SEMIESTRUCTURADOS?

Los datos semiestructurados o parcialmente estructurados son otra categoría entre los datos estructurados y no estructurados. Los datos semiestructurados son un tipo de datos que tienen algunas características consistentes y definidas. No se limita a una estructura rígida como la necesaria para las bases de datos relacionales. Las propiedades organizativas como los metadatos o las etiquetas semánticas se utilizan con datos semiestructurados para hacerlos más manejables; sin embargo, todavía contiene cierta variabilidad e inconsistencia.

Ejemplos de datos semiestructurados

Un ejemplo de datos semiestructurados son los archivos delimitados. Contiene elementos que pueden dividir los datos en jerarquías independientes. Del mismo modo, en las fotografías digitales, la imagen no tiene una estructura predefinida en sí misma, sino que tiene ciertos atributos estructurales que las hacen semiestructuradas. Por ejemplo, si una imagen se toma desde un teléfono inteligente, tendría algunos atributos estructurados como geoetiqueta, ID de dispositivo y sello de fecha y hora. Una vez almacenadas, a las imágenes también se les pueden asignar etiquetas como 'mascota' o 'perro' para proporcionar una estructura.

¿Qué son los datos NO ESTRUCTURADOS?

La característica principal de este tipo de datos, generalmente binarios, es que no poseen una estructura interna identificable. Se trata de un cúmulo de información que deben identificarse y almacenarse de forma organizada a través de una base de datos no relacional (NoSQL). La gestión de datos no estructurados puede tomar datos de muchas formas, incluidas publicaciones en redes sociales, chats, imágenes satelitales, datos de sensores de IoT, correos electrónicos y presentaciones, para organizarlos de una manera lógica y predefinida. Por el contrario, el significado de datos estructurados son datos que siguen modelos de datos predefinidos y son fáciles de analizar. 

No hay texto alternativo para esta imagen

Ejemplos de datos no estructurados

Los datos no estructurados se pueden almacenar en múltiples formatos como:

  • Documentos PDF.
  • Documentos Word.
  • Correos electrónicos. Habitualmente, se suelen categorizar como datos semiestructurados. No obstante, el campo del mensaje no está estructurado y las herramientas tradicionales de análisis no son capaces de identificarlos.
  • Datos móviles: mensajes de texto, ubicaciones, mensajería instantánea, grabaciones telefónicas, etcétera.
  • Hojas de cálculo.
  • Vídeos y audios.
  • Publicaciones en redes sociales.

El ser humano no es el único capaz de generar datos, las máquinas también lo hacen constantemente. En este sentido la información más destacable que podemos obtener son las imágenes de satélite, imágenes de vigilancia digital, datos de sensores de tráfico, clima u oceanográficos.

Los datos no estructurados son cualitativos, no cuantitativos, por lo que en su mayoría son de naturaleza categórica y característica. Por ejemplo, los datos de las redes sociales o los sitios web se pueden utilizar para averiguar las tendencias de compra futuras o determinar la eficacia de una campaña de marketing. Otro ejemplo de análisis de datos no estructurados es la detección de patrones en el chat y los correos electrónicos fraudulentos, que pueden ser útiles para que las empresas controlen el cumplimiento de las políticas. Es por eso que los datos no estructurados se extraen y almacenan en almacenes de datos no estructurados (también llamados lagos de datos) para su análisis. Una vez organizados los archivos que conforman el contenido se pueden categorizar para obtener información. Esta labor se puede llevar a través de múltiples herramientas de software para el procesamiento, gestión o almacenamiento, como por ejemplo: Hadoop, MapReduce, Cassandra, etcétera.

Diferencias de los tres tipos de datos: estrucuturados, semiestruturados y no estructurados.

No hay texto alternativo para esta imagen

Organización y almacenamiento: Los datos estructurados están bien organizados; por lo tanto, tiene el nivel más alto de organización, mientras que los datos semiestructurados están parcialmente organizados; por lo tanto, el nivel de organización es menor que el de los datos estructurados pero mayor que el de los datos no estructurados. Por último, los datos no estructurados no están organizados en absoluto. Los datos estructurados se almacenan en una base de datos relacional (RDBMS), mientras que los datos no estructurados no pueden almacenarse en estructuras de datos relacionales predefinidas (NoSQL).

Flexibilidad y escalabilidad: Los datos estructurados dependen de la base de datos relacional o del esquema, por lo que son menos flexibles y difíciles de escalar, mientras que los datos semiestructurados son más flexibles y más simples de escalar que los datos estructurados. Los datos no estructurados son más flexibles, es decir, mucho menos sensibles a los cambios que los datos estructurados. Al almacenar toda la información en bruto, permite el acceso de cualquier usuario para configure y reconfigurare según la finalidad para la que hayan sido concebidos.

Versionado: Dado que los datos estructurados se basan en una base de datos relacional, el control de versiones se realiza sobre tuplas, filas y tablas. Por otro lado, en los datos semiestructurados, las tuplas o los gráficos son posibles, ya que solo se admite una base de datos parcial. Por último, en los datos no estructurados, es probable que el control de versiones sea un dato completo, ya que no hay soporte de base de datos.

Gestión de transacciones: En los datos estructurados, la concurrencia de datos está disponible y, por lo tanto, generalmente se prefiere para el proceso multitarea. Mientras que en la transacción de datos semiestructurados se adapta de DBMS, aún así, la concurrencia de datos no está disponible. Por último, en los datos estructurados, ni la gestión de transacciones ni la concurrencia de datos están presentes.

No hay texto alternativo para esta imagen

Ya para concluir, en un mundo globalizado y digital es esencial que las empresas comprendan la diferencia entre datos estructurados, no estructurados y semiestructurados. Y de igual forma, analizar las tres formas de datos para mantenerse por delante de su competencia y aprovechar al máximo su información.

Excelente aporte, me ayudó mucho en mi tarea de computación ubicua. Saludos.

Oliver Krull

Geschäftsführender Inhaber | Know-how für innovative Additive und Farbmittel

3 años

Muy interesante Julio! Saludos desde Bremen

Candy Yuliana A.

Esp. Gerencia de proyectos en inteligencia de negocios|Ingeniera Industrial | Tecnóloga Química Industrial con formación en Auditor Interno NTC/IEC17025:2017 O. Terpel S.A

3 años

Soy del mundo de la química, sin embargo, estos temas despiertan interés! Los datos hacen parte de nuestra realidad! 👍

Estás convertido en un Zen Master de los datos!

Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas