
Tipos de datos en Big Data
¿Cuál es la diferencia entre datos estructurados, semi-estructurados y no estructurados?
Los datos estructurados presentan menos dificultades para ser analizados, puesto que se almacenan en las bases de datos y están bien definidos. Los 2 restantes se gestionan de forma aleatoria en la nube.
¿Qué son los datos estructurados?
Una tabla de excel, los resultados de un formulario, fichas estandarizadas de clientes, etc. La relación entre las diferentes filas y columnas está claramente determinada en la tabla. Estos datos se gestionan mediante un tipo de lenguaje de programación estructurado, conocido como SQL (Structured Query Language). Este lenguaje está diseñado para administrar y recuperar información de los sistemas de gestión de bases de datos relacionales.
¿Qué son los datos semi-estructurados?
Tienen un cierto nivel de estructura, jerarquía y organización, aunque carecen de un esquema fijo. Permiten almacenar información que no se adapta bien al formato de registro/tabla. Por ejemplo, pueden ser archivos ZIP, correos electrónicos, donde los metadatos nativos permiten clasificarlos y realizar búsquedas por palabras clave. También se conocen como no relacionales o NoSQL. Representan alrededor del 5-10% del volumen de datos global que maneja la empresa y suelen ser muy relevantes desde el punto de vista comercial.
¿Qué son los datos no estructurados?
Suponen el 80% de los datos de una empresa. Son imágenes, PDFs, datos de redes sociales, grabaciones de audio, la localización, etc. Para procesar datos no estructurados hay que comprender el contenido: dialectos, sarcasmo, ambigüedad. Establecer un diálogo significativo es uno de los retos más difíciles para las máquinas, de ahí la relevancia que sigue manteniendo la especialización de las personas.
¿Qué tipos de herramientas se utilizan para el análisis de datos según su estructura?
Para trabajar con datos no estructurados en grandes volúmenes se utilizan herramientas de machine learning, modelos de almacenamiento en sistemas cloud, entre otras.
Las soluciones deben basarse en la combinación de tecnologías como el aprendizaje automático, redes neuronales y reconocimiento de voz. Para extraer todos los datos estructurados y, lo que supone más un reto, los datos no estructurados de los documentos y las consultas durante una búsqueda, actualmente se utiliza lo que se conoce como pipeline semántico, donde mediante la concordancia de conceptos, los sinónimos y los algoritmos de lenguaje natural, los motores de búsqueda entienden el lenguaje como lo haría un humano.