Collaborative Notebooks in the Cloud part 1
En este Artículo , vamos a sumergirnos en una de las herramientas más importantes para los científicos de datos , el cuaderno colaborativo en la nube. Como pronto veremos, los cuadernos son una excelente manera de dividir un problema de Bigdata o ML en pasos distintos y repetibles. Vamos a revisar qué son los cuadernos, cómo traer y acceder a los datasets de BigQuery, cómo visualizar esos datos dentro del mismo cuaderno. Ahora, ¿has oído hablar de o usado los cuadernos iPython o Jupyter antes? porque cada vez más, los científicos de datos están trabajando en estos cuadernos ejecutables colaborativos, autodescriptivos cada vez que deseen hacer algún tipo de análisis de datos o tareas de aprendizaje automático.
IPython (Python interactivo) es un shell de comandos para computación interactiva en múltiples lenguajes de programación, desarrollado originalmente para el lenguaje de programación Python, que ofrece introspección, medios enriquecidos, sintaxis de shell, finalización de pestañas e historial.
Jupyter es el último entorno de desarrollo interactivo basado en la web para cuadernos, código y datos. Su interfaz flexible nos permite configurar y organizar flujos de trabajo en ciencia de datos, computación científica, periodismo computacional y aprendizaje automático. Jupyter Notebook es la aplicación web original para crear y compartir documentos computacionales. Ofrece una experiencia simple, optimizada y centrada en documentos. Su código puede generar resultados ricos e interactivos: HTML, imágenes, videos, LaTeX y tipos MIME personalizados.
Y Cloud Datalab se basa en Jupyter, y es de código abierto. Ahora, lo que ves aquí es cómo se ve la interfaz de Cloud Datalab. Y notarás cómo hay secciones de código que se mezclan con el Markup y la salida del codigo.
Y este entrelazado es lo que hace que este estilo de computación sea tan útil. Así que puedes hacer cosas como ejecutar un experimento, ejecutar una consulta, mirar la salida de tu codigo, actualizar tu documentación, agregar enlaces, y luego ejecutar más experimentos y compartir esos resultados y también colaborar con otros. Así que es un poco más interactivo y dinámico que hacer algo como escribir una consulta SQL. Y es lo que hace que el análisis de datos en el aprendizaje automático, siempre sea un esfuerzo experimental, comúnmente llevado a cabo a través de un cuaderno como este.
Se puede ejecutar cada bloque de código individualmente haciendo clic en ese botón Ejecutar o escribiendo Shift+Enter. Y observe cómo la salida aquí no es solo salida de línea de comandos, sino también gráficos y visualizaciones. Y como puedes ver en las secciones verdes, una de ellas contiene un botón, ese botón de cuaderno. Vamos a exportar realmente el cuaderno como un archivo independiente. En la otra sección verde a la derecha está en lo que puede hacer clic si desea confirmar sus cambios en una biblioteca de control de versiones como un repositorio de código a través de Git en el repositorio de códigos de Google Cloud Platform.
Recomendado por LinkedIn
De acuerdo, entonces, ¿cómo se comienza realmente con esta cosa llamada Cloud Datalab?
Buuuenoo lo primero, es que con tu cuenta de GCP crees un proyecto le asignes un nombre si ya lo tienes pues en ese mismo. Despues, haz clic en Cloud Shell. Es el icono que se encuentra en la esquina superior izquierda de tu cuenta de Google Cloud Platform. Y luego aparecerá una ventana de terminal. Y luego una vez que la ventana de la terminal está abierta, paso dos, todo lo que tienes que hacer es escribir datalab create. Dale a tu instancia un nombre elegante de tu elección especificar algun tipo de máquina, si lo desea. Y especificar en qué zona debería ejecutarse su instancia.
Quizás te estés preguntando, ¿qué es Cloud Shell? ¿Qué es este tipo de máquina? Bueno Cloud Shell es un entorno de operaciones y desarrollo en línea accesible desde cualquier lugar con su navegador. Puede administrar sus recursos con su terminal en línea precargado con utilidades como la herramienta de línea de comandos de gcloud, kubectl y más. También puede desarrollar, compilar, depurar e implementar sus aplicaciones basadas en la nube con el editor de Cloud Shell. Cloud Shell aprovisiona 5 GB de almacenamiento en disco persistente montado como su directorio $HOME en la instancia de Cloud Shell. Todos los archivos que almacena en su directorio de inicio, incluidos los scripts y los archivos de configuración de usuario como .bashrc y .vimrc, persisten entre sesiones.
Así que Cloud Datalab se está ejecutando esencialmente en un contenedor de Compute Engine de Google. Y entonces lo que estás haciendo es visualizar ese cuaderno IPython, a través del portal web. Y ese paso tres es una URL con la que puedes interactuar y jugar. Así que vamos a profundizar un poco en este tema.Así que los propios cuadernos se ejecutan en Compute Engine.
Y se puede pensar en esto como una infraestructura alquilada. Y si se está preguntando si o no necesita mantener esa instancia de Compute Engine funcionando todo el tiempo, porque de nuevo, está pagando por el hardware o mejor dicho por esos ciclos de computación, la respuesta es no. Pero si su instancia de Compute Engine o donde aloja ese cuaderno Cloud Datalab desaparece, ¿qué cree que le pasará al portátil? Bueno, desaparecerá también, ¿verdad? Por lo tanto, debe guardar el código fuente de su cuaderno en Git. Y así es mas fácil cuidar el cuaderno. Pero, ¿qué sucede si estás diciendo, bueno, tengo un montón de archivos CSV diferentes y diferentes salidas que estoy ejecutando como parte de esta consulta? ¿Qué voy a hacer con esos datos? Así que cuando hablamos de cosas como crear conjuntos de datos de capacitación para sus modelos de aprendizaje automático dentro de CSV y dividir esos datos, puede realizar todas esas operaciones con relativa facilidad dentro de los cuadernos Cloud Datalab. Y luego guardarlos y dividirlos, es decir, guardarlos en tablas de datos de BigQuery. Y simplemente diríjirse a Google Cloud Storage, y luego ya estará listo. Cloud Datalab, es la interfaz, pero se basa en todas las tecnologias subyacentes que hay para que usted ejecute modelos de machine learning , o almacene y acceda a datos y llame a cosas a través de BigQuery, Y esa es una gran ventaja, Aparte en lugar de hacer todo esto localmente, obten las ventajas de todo ese hardware que existe en la nube.
Por el momento es todo nos vemos en la siguiente entrega.