¿Qué diablos es Ciencia de Datos?
En la búsqueda de una definición útil
Aquí está mi intento más conciso: “La ciencia de datos es la disciplina de hacer que los datos sean útiles”. Siéntete libre de salir corriendo ahora, o seguir leyendo para explorar sus tres sub-campos.
Un término que realmente nadie definió
Si exploramos la historia del nacimiento del término ciencia de datos, veremos dos temas que se juntan. Déjame divertirme jugando con estas palabras:
- Big Data (Grandes Datos), que significa más trabajo para las computadoras.
- Estadísticos, que pueden meter los pies en el hielo y la cabeza en el horno, y decir que en promedio están bien.
Y así nace la ciencia de datos. La primera vez que escuché su definición fue “un científico de datos es un estadístico que puede programar”. Te voy a dar mi opinión sobre esta definición en un momento, pero primero, ¿por qué no examinamos qué es la ciencia de datos en sí misma?
Definición de Twitter circa 2014. “Un científico de datos es un estadístico que vive en San Francisco. Ciencia de Datos es estadística hecha en una Mac. Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de sistemas, y mejor en ingeniería de sistemas que cualquier estadístico.
Me encanta cuando leo el Journal of Data Science del 2003, en donde hacen una definición “muy precisa” diciendo: “Por 'Ciencia de Datos' queremos referirnos a casi todo lo que tiene algo que ver con los datos”. ¿En serio? ¿todo? Me es difícil pensar en algo que no tenga nada que ver con datos. (Mejor dejo de seguir pensando antes de que me empiece a doler la cabeza.)
Desde entonces, hemos visto una gran cantidad de opiniones, desde el muy difundido diagrama de Venn de Conway (a continuación ) hasta la publicación clásica de Mason y Wiggins.
Definición de Drew Conway de la ciencia de datos. Mi gusto personal se acerca más a la definición de Wikipedia.
Wikipedia tiene una definición que es muy cercana a la que les enseño a mis alumnos:
La ciencia de datos es un “concepto para unificar estadísticas, análisis de datos, Machine Learning y sus métodos relacionados”, para “entender y analizar fenómenos reales” con datos.
No está nada mal, pero veamos si lo puedo poner aún más sencillo:
“La ciencia de datos es la disciplina de hacer que los datos sean útiles.”
Pueda que ahora estés pensando: “Buen intento. Está bonito, pero eso es una extraordinariamente mala sobre-simplificación. ¿Cómo así la palabra ‘útil’ puede capturar todo el significado del concepto? ”
Bueno, está bien, vamos a discutirlo con fotos.
Este es un mapa de la ciencia de datos, tomado fielmente de la definición de Wikipedia
¿Qué son estas cosas y cómo saber en qué parte del mapa estamos?
La diferencia entre un estadístico y un ingeniero de Machine Learning (ML) no es que uno programe en R y el otro en Python. La clasificación de SQL vs R vs Python es tonta por muchas razones, entre las cuales está que el software evoluciona. (Actualmente, incluso puedes hacer ML en SQL). ¿No preferirías una clasificación que perdure en el tiempo? Si es así, simplemente continúa leyendo y haz de cuenta que no leíste nada de este párrafo.
Tal vez sea aún peor la forma favorita de clasificarla de los novatos. Sí, lo has adivinado: lo hacen por algoritmos (¡sorpresa! Es cómo se estructuran los cursos universitarios). Por favor, por favor, no lo clasifiquen por histogramas vs t-tests vs redes neuronales. En realidad, si uno es inteligente y tiene claro el punto que quiere demostrar, puede usar casi el mismo algoritmo para cualquier parte de la ciencia de datos.
Bueno, ¡basta ya de darle vueltas! Aquí está la clasificación que propongo:
Ninguno-uno-muchos
¿De qué diablos se trata es esto? ¡De Decisiones, por supuesto! ¿No era obvio? Uy, perdón por no ser clara… (Bajo información incompleta, cuando todos los datos que necesitas son visibles, puedes usar analítica descriptiva para tomar tantas decisiones como desees. Solo mira los hechos y listo).
Es a través de nuestras acciones — nuestras decisiones — que afectamos el mundo que nos rodea.
Prometí que iba a hablar sobre cómo hacer que los datos sean útiles. Para mí, la idea de utilidad está estrechamente relacionada con influir en las acciones del mundo real. Si yo creo en Papá Noel, realmente no importará hasta que esa creencia pueda influir de alguna manera en mi comportamiento. Luego, dependiendo de las posibles consecuencias de mi comportamiento, podría comenzar a importar muchísimo. Es a través de nuestras acciones, nuestras decisiones, que afectamos el mundo que nos rodea (y hacemos que nos afecte a nosotros también).
Así que aquí está una nueva imagen completamente orientada a la toma de decisiones, con las tres formas principales de hacer que tus datos sean útiles.
Minería de datos
Si aún no sabes qué decisiones quieres tomar, lo mejor que puedes hacer es salir en busca de inspiración para poderlas descubrir. Esto se conoce como análisis de datos o analítica o analítica descriptiva o análisis de datos exploratorio (EDA en inglés) o descubrimiento del conocimientos (KD en inglés), dependiendo de gustos y colores. Y contrario a lo que dice el refrán, de esto si han escrito mucho los autores.
Regla de oro de la analítica: solo saca conclusiones de lo que puedes ver.
Comienza aquí, a menos que ya sepas cómo estructurar tu toma de decisiones. La buena noticia es que esto es fácil. Piensa en tu conjunto de datos como un grupo de fotos en negativo que las encontraste en un cuarto oscuro de revelado. La extracción de datos consiste en utilizar los equipos para revelar las fotos lo más rápido posible, para que puedas ver si hay algo inspirador o interesante en ellas. Al igual que con las fotos, recuerda no tomarte en serio lo que ves. Tú no tomaste las fotos, así que no sabes mucho sobre las historias que hay detrás de ellas. La regla de oro de la minería de datos es: enfocarse en lo que está aquí. Solo saca conclusiones acerca de lo que puedes ver, nunca a cerca de lo que no puedes ver (para eso necesitas estadísticas y mucha más experiencia).
La experiencia en minería de datos es juzgada por la velocidad con la que puedes examinar los datos.
El cuarto oscuro de revelado es intimidante al principio, pero no se puede hacer mucho al respecto. Solo aprender a utilizar bien el equipo de revelado. Aquí hay un tutorial en R y aquí en Python para comenzar. Puedes llamarte a ti mismo un “analista de datos” tan pronto como empieces el trabajo, y puedes llamarte un “analista experto” cuando puedas revelar las fotos (y todos los demás tipos de conjuntos de datos) a la velocidad de un rayo.
Inferencia estadística
La inspiración es barata, pero el rigor es caro. Si quieres llegar más lejos con los datos, necesitarás capacitación especializada. Teniendo yo un bachillerato y posgrado en estadística, pueda que mi opinión esté un poco parcializada, pero creo que la inferencia estadística (las estadísticas para abreviar) es de las tres áreas, la más difícil y cargada de filosofía. Llegar a ser bueno en esto, lleva más tiempo.
La inspiración es barata, pero el rigor es caro.
Si quieres tomar decisiones importantes, de alta calidad, y con riesgo controlado, que se basen en conclusiones sobre el mundo más allá de los datos disponibles, tendrás que agregar habilidades estadísticas a tu equipo. Un buen ejemplo es el momento en el que tu dedo está dando vueltas alrededor del botón de inicio de un sistema de Inteligencia Artificial (AI) y te viene a mente que debes verificar que funcione correctamente antes de apretarlo (siempre es una buena idea, en serio). Aléjate del botón y llama al estadístico.
La estadística es la ciencia de cambiar tu mente (cuando hay incertidumbre).
Si quieres saber más al respecto, he escrito este super-resumen de estadística de 8 minutos para que lo disfrutes.
Machine learning (Aprendizaje automático)
El Machine Learning consiste esencialmente en hacer recetas para etiquetar cosas utilizando ejemplos en lugar de instrucciones . He escrito algunas publicaciones al respecto, incluyendo si ML es diferente de AI, cómo comenzar con ML, por qué las empresas fallan en ML y el primer par de artículos de una serie de artículos escritos en lenguaje sencillo sobre toda esta jerga (empieza aquí ). Ah, y si quieres compartirlo con amigos que no hablen inglés, un montón de ellos están traducidos aquí.
Ingeniería de datos
¿Qué hay de la ingeniería de datos, que es el primero en entregar datos al equipo de ciencia de datos? Como es un campo sofisticado, prefiero protegerlo de las aspiraciones hegemónicas de la ciencia de datos y además, está mucho más cerca de la ingeniería de software que de las estadísticas.
La diferencia entre la ingeniería de datos y la ciencia de datos es la diferencia del antes y el después.
Siéntete libre de ver la diferencia entre la ingeniería de datos y la ciencia de datos como un antes y después. La mayor parte del trabajo técnico que conduce al nacimiento de los datos (antes) puede llamarse “ingeniería de datos” y todo lo que hacemos cuando llegan algo de datos (después) es “ciencia de datos”.
Inteligencia de decisiones (DI)
DI tiene que ver con decisiones, incluida la toma de decisiones a escala con datos, lo que la convierte en una disciplina de ingeniería. Amplía la aplicación de la ciencia de datos con las ideas de las ciencias sociales y de gestión.
La inteligencia de decisiones agrega componentes de las ciencias sociales y de gestión.
En otras palabras, es un super conjunto de esos pedazos de la ciencia de datos que no se ocupan de cosas de investigación, tales como la creación de metodologías fundamentales para uso general.
¿Te quedaste con hambre? Aquí hay un detalle de los roles en un proyecto de ciencia de datos para que te entretengas mientras termino de hacer clic en mi teclado.
Traducido por Carlos Secada del original por Cassie Kozyrkov