¿Cómo convertirte en un Data Scientist en Chile?(sin ser un genio) parte 2
Parto recordando que esta columna es la continuación de la primera parte en donde expresé mi opinión sobre cuáles son las características que normalmente tiene un Data Scientist y qué habilidades/herramientas se requieren para ser un buen Data Scientist. En esta segunda parte abordaremos las siguientes preguntas:
1.-¿Qué debes estar dispuesto a hacer para lograrlo?
2.-¿Cuál es es la mejor forma de partir?
Qué debes estar dispuesto a hacer y trabajar para ser un Data Scientist
Más allá de la parafernalia estilo Hollywood con la que se suele hablar de los cargos de Data Scientist en los medios (como este artículo) y Linkedin, la verdad es que el camino para llegar ahí no es tan idílico y requiere trabajar en ciertos aspectos técnicos y personales.
- A ratos, y sobre todo al comienzo, es un camino algo solitario y debes sacrificar tiempo libre: Las cervezas, hackatones y datos listos para modelar estilo Kaggle son un buen entrenamiento una vez que ya sabes lo básico pero el verdadero aprendizaje inicial probablemente ocurra frente a la pantalla de tu computador con una taza de mate o café entendiendo tutoriales o revisando cursos online durante largas horas post-pega o los fin de semana intentando comprender cómo limpiar y armar tus datos para darles sentido o buscando la forma adecuada de implementar los algoritmos sin que tarde 2 días en correr. Si bien la cosa se va haciendo más simple a medida que vas agarrando experiencia y perfeccionando tu sistema de estudio-trabajo, deberás seguir dedicado una importante cantidad de horas al estudio y la mejora continua de tus conocimientos y habilidades teóricas y prácticas. Siguiendo en esta linea, un buen consejo es que dediques tiempo a entender tus hábitos para mejorar tu productividad (artículo útil para entender cómo funciona la productividad)
- Deberás trabajar tus habilidades blandas (nos cuesta harto normalmente) y la capacidad de negociación: Pondrás en práctica tu capacidad de negociación y habilidades blandas en la medida que te enfrentes a reuniones con tus stackeholders donde deberás entender el problema de negocio que tienen, buscar cómo los datos pueden ayudar a resolverlos, convencerlos de acotar el problema y explicarles que no puedes tener todo listo para mañana de una forma adecuada. Luego, durante el desarrollo del proyecto, también debes manejar las ansiedades y trabajar con equipos multidisciplinarios, lo que requerirá mucho control de tus emociones y tolerancia a la frustración. Trabaja en esto porque aquí es donde normalmente fallamos todos en algún momento, no es fácil pero se puede. Recomiendo este artículo sobre el tema
- Olvídate de ser experto en 1 año y de que alguna vez dejarás de estudiar: La curva de aprendizaje es lenta y requiere tiempo para que los conceptos maduren y se genere un verdadero entendimiento tanto a nivel teórico como práctico, por lo tanto debes ser perseverante y constante, pero por favor hazlo con calma, no te sobrecargues durante 3 meses para estar los próximos 3 quemado. Créeme, a mi me paso en más de una ocasión y no da buenos resultados, es mejor estudiar una o dos horas al día que 10 horas el fin de semana. Crea tu propio sistema y mide tu desempeño de la forma adecuada (por ejemplo midiendo tu velocidad promedio)
- Busca oportunidades para participar en un problema real y cuando la tengas se humilde: No creas que por resolver un Challenge adecuadamente ya estás super listo para enfrentar un problema de la vida real porque normalmente no es así. Hay muchas situaciones a las que jamás te enfrentaras hasta que estés trabajando en un problema real, así que cuando tengas la oportunidad de hacerlo se humilde, escucha antes de hablar, cuestiona tus ideas con más rigurosidad de lo que cuestionas las ideas del resto y respeta a las personas con experiencia laboral porque probablemente ellos tiene la experiencia e información cualitativa que será clave en la interpretación de tus resultados. (artículo interesante sobre el tema)
- Colaborar es importante (agradecimientos al feedback de Javier Espinosa en el post anterior): Gran parte de los conocimientos que vas a ir adquiriendo los obtendrás de contenido creado por distintas personas alrededor del mundo y al cual tú tienes acceso gratuito. Es importante que entiendas lo importante de este hecho y cómo nuestra generación ha sido privilegiada al vivir en un mundo donde el conocimiento está más accesible que nunca en la historia de la humanidad. Conoce la historia de cómo esto fue posible y nunca olvides que es una de las grandes causas del avance tecnológico que vemos hoy en el mundo. Ahora que ya lo sabes, debes entender que como recibes debes aprender a dar: colabora con tus compañeros de equipo, con la comunidad local e internacional y busca espacios para aportar tu grano de arena para que tengamos más y mejor contenido de nuestra disciplina. El mundo estará mejor después que lo hagas y tú también serás más feliz.
- Vas a fracasar alguna vez: No una, sino que muchas veces. Si realmente estás intentando llegar a ser un buen data scientist es muy probable que fracases más de una vez a lo largo de tu carrera, ya sea por inmadurez, por errores tuyos, por errores de otros, por reestructuración de la empresa donde trabajas, porque estabas distraído por problemas personales o porque simplemente no diste el ancho en esa momento de tu vida. Y adivina qué, así es la vida. No todo es luces, rock, cervezas y éxitos, la vida te va a golpear más de una vez en el trabajo y debes aprender a levantarte, aprender y seguir adelante.
La mejor forma de partir es una mezcla de teoría y práctica
Al contrario de lo que muchos piensan, no me centraré en dar una lista detallada de la A a la Z de los miles de cursos que hay en el mercado para transformarte de novato a experto en Data Science. Esto por dos simples razones:
- No soy experto, por lo tanto solo podría decirte qué cursos tomé para llegar a donde estoy hoy (Data Science semi-senior)
- Está lleno de post de gente con mucha más experiencia y nivel que yo donde puedes encontrar ese contenido con sus respectivos links, solo debes googlear.
En lo que si me centraré en dar una sugerencia sobre la metodología que debes aplicar para balancear el aprendizaje teórico con la práctica.
Hace algunos meses vi este video que establece una tesis que me hizo todo el sentido del mundo, la tesis es simple: en 20 horas puedes pasar de saber nada sobre algún tema a comprender los conceptos básicos y poder aplicarlos para resolver problemas que no sean demasiado complejos. Así que mi recomendación es que sigas esta metodología y fijes un tema que quieres aprender, luego lo descompongas por alguna categoría que te acomode y vayas aplicando 20 horas de estudio por cada uno de ellos.
Supongamos que quiero aprender a resolver problemas de clasificación con target binarios entonces sé que como mínimo debo aprender:
- EDA: el cual se descompone en análisis univariante, bivariante y multivariante entre las variables explicativas y también de las variables explicativas con respecto al target
- Selección de variables: en donde debo aprender a determinar la importancia de las variables con respecto al target binario y los mecanismos y/o criterios de eliminación de variables
- Modelamiento: Aprender a entrenar y aplicar de forma adecuada cuáles son los algoritmos más utilizados y útiles para resolver este tipo de problemas
- Test: Aprender a testear y validar el modelo, reportando adecuadamente las métricas de performance del algoritmo escogido
- Interpretación de resultados: Aprender a interpretar adecuadamente los resultados
Ahora, estos son los grandes temas que ahora debo seguir descomponiendo hasta llegar a tareas específicas. Para ejemplificar descompondremos el EDA en:
- Análisis univariante: Aprender a comprender la distribución y estructura de los datos con distintas herramientas y pruebas estadísticas.
- Análisis bivariante: Aprender a comprender la relación entre dos variables explicativas y/o entre una explicativa y el target con distintas herramientas y pruebas estadísticas.
- Análisis multivariante: Aprender a comprender el impacto conjunto entre las explicativas y el target con distintas herramientas y pruebas estadísticas.
Si luego de entrar a un tema veo que hay más subtemas que no domino previamente y que son demasiado grande en conjunto para ser tratados en 20 horas, seguiré descomponiendo hasta llegar a los temas que requiero aprender para lograr mi objetivo final: resolver un problema de clasificación con target binario
Ahora, la pregunta que nace de forma natural a este razonamiento es ¿Cuánto tiempo debo dedicar a los aspectos teóricos y cuánto a los prácticos? y la respuesta es la que nos dan los economistas frente a cada pregunta que les hacemos: depende.
Depende de tus hábitos de estudio previos, de cómo estás acostumbrado o cómo se te hace más fácil aprender y del objetivo final con el cual estás aprendiendo el contenido. Por ejemplo:
- Si estás aprendiendo para obtener nociones generales porque tienes un cargo de más alto nivel en donde solo debes tomar decisiones estratégicas y supervisar, no es lo mismo que el conocimiento que vas a requerir para ser capaz de diseñar, crear y ejecutar un modelo para resolver un problema de negocio y tampoco es lo mismo si además debes ser tú quien lo deja en producción. Estas personas deberían, según mi opinión, considerar deberían entrar a algún programa académico impartido de forma online o presencial que se ajuste a sus necesidades y cubra los conocimientos que requieren para disponer de un lenguaje común con los ejecutores, lo cual contribuirá significativamente a mejorar la toma de decisiones tácticas y estratégicas que involucren el uso de datos. Existen algunas alternativas online más low cost como el curso Data Science para ejecutivos de la Universidad Jhon Hopkins en Coursera con las cuales puedes ir creando una buena base, pero en general te rendirá más tomar un programa académico en donde puedas colaborar de forma presencial con distintas personas que están enfrentando los mismos desafíos profesionales que tú.
- Si eres de las personas que se aburre fácilmente cuando te enseñan de forma demasiado teórica los conceptos y te distraes fácilmente, entonces requieres hacer un buen mix entre teoría y práctica. Esto no significa que vayas a dejar conceptos sin cubrir, solo significa que debes descomponer el aprendizaje en pequeños ciclos que te permitan tomar un concepto y aplicarlo inmediatamente, para luego pasar al siguiente. Para personas como nosotros, plataformas como Udemy (revisa los comentarios antes de comprar uno), Datacamp o Coursera son ideales para iniciarnos en los temas.
- Para quienes buscan obtener conocimientos un poco más robustos en términos teóricos antes de escribir la primera línea de código pueden comenzar como calentamiento previo (y alternativa low cost) con los cursos de Edx o Udacity, que tienden a ser más robustos en términos teóricos que los de Coursera o Datacamp aunque algo más lentos y requieren más tiempo de dedicación.
- Si te interesa la acreditación y no solo el conocimiento adquirido, mi recomendación es que ingreses a un magister o doctorado (dependiendo si quieres solo aplicar o también crear) para obtener una certificación que esté validada en el mercado y sirva de señalización para los reclutadores.
- Si dispones de recursos (unos 10.000 a 30.000 USD entre pasajes+alojamiento+fee) y estás dispuesto a dedicar 2 a 6 meses estudiando full time para pasar de un conocimiento muy vago a disponer de conocimientos intermedios con uno o dos proyectos en tu portafolio, entonces los Boot Camp son tu alternativa. Acá hay una guía sobre los mejores bootcamps para Data Science
Si llegaron hasta aquí los felicito, ya se habrán dado cuenta que es un largo camino igual que este post, pero si realmente te gusta descubrir cosas nuevas, buscar nuevas respuestas a preguntas que han sido resueltas antes o resolver nuevos problemas utilizando datos, vale la pena se los aseguro.
En la tercera parte contestaremos a las siguientes preguntas:
1.-¿Es tan importante la colaboración y hacer comunidad? ¿Por qué?
2.-¿En qué trabajan los Data Scientist en Chile?
Nos vemos en la próxima!
Profesional de Inversiones | Acreditado CAMV | MBA | Python | Aprendiz de Data Analytics
2 añosSe agradecen un montón las dos publicaciones, quedo a la espera de la tercera. Tal como comentas, aún hay poco material (quizás más que en ese entonces que escribiste los artículos) de este tipo, en especial con experiencias acá en Chile. Un abrazo!
Markets Brazil Architect and Enginnering Excellence Culture Lead at Citi / Zumba Instructor
5 añosHola! me encantó tu post. Finalizas diciendo que hay una próxima parte... pudiste publicarla? Estoy interesadísima en este tema!!!
Software Engineer | Python, PHP, Go, AWS
6 añosGracias por el artículo, ahora a revisar los links :) En mi caso, actualmente en mi caso estoy tomando el curso de Machine Learning de Stanford en Coursera.
Data Analyst, Analytics, BI, Insights, Visualization, Report & Database Developer, Python, SQL | Master in Data Science
6 añosGracias por compartir la experiencia. Saludos
Business Intelligence | Data Analytics | Python | Data Visualization
6 añosMuy buen articulo, felicitaciones!!