Collaborative Notebooks in the Cloud part 1

Neftali Ramirez

<CloudRockStar_FULLStackDEVTechLead/>

Fecha de publicación: 12 ene 2022

En este Artículo , vamos a sumergirnos en una de las herramientas más importantes para los científicos de datos , el cuaderno colaborativo en la nube. Como pronto veremos, los cuadernos son una excelente manera de dividir un problema de Bigdata o ML en pasos distintos y repetibles. Vamos a revisar qué son los cuadernos, cómo traer y acceder a los datasets de BigQuery, cómo visualizar esos datos dentro del mismo cuaderno. Ahora, ¿has oído hablar de o usado los cuadernos iPython o Jupyter antes? porque cada vez más, los científicos de datos están trabajando en estos cuadernos ejecutables colaborativos, autodescriptivos cada vez que deseen hacer algún tipo de análisis de datos o tareas de aprendizaje automático.

No hay texto alternativo para esta imagen

IPython (Python interactivo) es un shell de comandos para computación interactiva en múltiples lenguajes de programación, desarrollado originalmente para el lenguaje de programación Python, que ofrece introspección, medios enriquecidos, sintaxis de shell, finalización de pestañas e historial.

Jupyter es el último entorno de desarrollo interactivo basado en la web para cuadernos, código y datos. Su interfaz flexible nos permite configurar y organizar flujos de trabajo en ciencia de datos, computación científica, periodismo computacional y aprendizaje automático. Jupyter Notebook es la aplicación web original para crear y compartir documentos computacionales. Ofrece una experiencia simple, optimizada y centrada en documentos. Su código puede generar resultados ricos e interactivos: HTML, imágenes, videos, LaTeX y tipos MIME personalizados.

Y Cloud Datalab se basa en Jupyter, y es de código abierto. Ahora, lo que ves aquí es cómo se ve la interfaz de Cloud Datalab. Y notarás cómo hay secciones de código que se mezclan con el Markup y la salida del codigo.

Y este entrelazado es lo que hace que este estilo de computación sea tan útil. Así que puedes hacer cosas como ejecutar un experimento, ejecutar una consulta, mirar la salida de tu codigo, actualizar tu documentación, agregar enlaces, y luego ejecutar más experimentos y compartir esos resultados y también colaborar con otros. Así que es un poco más interactivo y dinámico que hacer algo como escribir una consulta SQL. Y es lo que hace que el análisis de datos en el aprendizaje automático, siempre sea un esfuerzo experimental, comúnmente llevado a cabo a través de un cuaderno como este.

Se puede ejecutar cada bloque de código individualmente haciendo clic en ese botón Ejecutar o escribiendo Shift+Enter. Y observe cómo la salida aquí no es solo salida de línea de comandos, sino también gráficos y visualizaciones. Y como puedes ver en las secciones verdes, una de ellas contiene un botón, ese botón de cuaderno. Vamos a exportar realmente el cuaderno como un archivo independiente. En la otra sección verde a la derecha está en lo que puede hacer clic si desea confirmar sus cambios en una biblioteca de control de versiones como un repositorio de código a través de Git en el repositorio de códigos de Google Cloud Platform.

Recomendado por LinkedIn

Estructuras Ocultas: Latent Dirichlet Allocation (LDA)…

Juan M. Ramirez Sosa Hace 7 meses

Descubriendo el potencial de Object2Vec en Amazon…

Juan M. Ramirez Sosa Hace 10 meses

Optimización de Procesos en Pandas: Estrategias para…

Jordi Pompas Gutiérrez Hace 1 año

De acuerdo, entonces, ¿cómo se comienza realmente con esta cosa llamada Cloud Datalab?

Buuuenoo lo primero, es que con tu cuenta de GCP crees un proyecto le asignes un nombre si ya lo tienes pues en ese mismo. Despues, haz clic en Cloud Shell. Es el icono que se encuentra en la esquina superior izquierda de tu cuenta de Google Cloud Platform. Y luego aparecerá una ventana de terminal. Y luego una vez que la ventana de la terminal está abierta, paso dos, todo lo que tienes que hacer es escribir datalab create. Dale a tu instancia un nombre elegante de tu elección especificar algun tipo de máquina, si lo desea. Y especificar en qué zona debería ejecutarse su instancia.

Quizás te estés preguntando, ¿qué es Cloud Shell? ¿Qué es este tipo de máquina? Bueno Cloud Shell es un entorno de operaciones y desarrollo en línea accesible desde cualquier lugar con su navegador. Puede administrar sus recursos con su terminal en línea precargado con utilidades como la herramienta de línea de comandos de gcloud, kubectl y más. También puede desarrollar, compilar, depurar e implementar sus aplicaciones basadas en la nube con el editor de Cloud Shell. Cloud Shell aprovisiona 5 GB de almacenamiento en disco persistente montado como su directorio $HOME en la instancia de Cloud Shell. Todos los archivos que almacena en su directorio de inicio, incluidos los scripts y los archivos de configuración de usuario como .bashrc y .vimrc, persisten entre sesiones.

Así que Cloud Datalab se está ejecutando esencialmente en un contenedor de Compute Engine de Google. Y entonces lo que estás haciendo es visualizar ese cuaderno IPython, a través del portal web. Y ese paso tres es una URL con la que puedes interactuar y jugar. Así que vamos a profundizar un poco en este tema.Así que los propios cuadernos se ejecutan en Compute Engine.

Y se puede pensar en esto como una infraestructura alquilada. Y si se está preguntando si o no necesita mantener esa instancia de Compute Engine funcionando todo el tiempo, porque de nuevo, está pagando por el hardware o mejor dicho por esos ciclos de computación, la respuesta es no. Pero si su instancia de Compute Engine o donde aloja ese cuaderno Cloud Datalab desaparece, ¿qué cree que le pasará al portátil? Bueno, desaparecerá también, ¿verdad? Por lo tanto, debe guardar el código fuente de su cuaderno en Git. Y así es mas fácil cuidar el cuaderno. Pero, ¿qué sucede si estás diciendo, bueno, tengo un montón de archivos CSV diferentes y diferentes salidas que estoy ejecutando como parte de esta consulta? ¿Qué voy a hacer con esos datos? Así que cuando hablamos de cosas como crear conjuntos de datos de capacitación para sus modelos de aprendizaje automático dentro de CSV y dividir esos datos, puede realizar todas esas operaciones con relativa facilidad dentro de los cuadernos Cloud Datalab. Y luego guardarlos y dividirlos, es decir, guardarlos en tablas de datos de BigQuery. Y simplemente diríjirse a Google Cloud Storage, y luego ya estará listo. Cloud Datalab, es la interfaz, pero se basa en todas las tecnologias subyacentes que hay para que usted ejecute modelos de machine learning , o almacene y acceda a datos y llame a cosas a través de BigQuery, Y esa es una gran ventaja, Aparte en lugar de hacer todo esto localmente, obten las ventajas de todo ese hardware que existe en la nube.

Por el momento es todo nos vemos en la siguiente entrega.

Introduction to ML

83 seguidores

+ Suscribirse

Inicia sesión para ver o añadir un comentario.

Más artículos de Neftali Ramirez

Hacer más con menos: cómo MicroStrategy redujo los costos de la nube en un 30 %

19 sept 2024

Hacer más con menos: cómo MicroStrategy redujo los costos de la nube en un 30 %

Acerca de MicroStrategy MicroStrategy, es la empresa de inteligencia empresarial independiente más grande que cotiza en…
Chaos Engineering: una vacuna

11 oct 2022

Chaos Engineering: una vacuna

Imagina que estamos en 1796 y te han seleccionado para que te inyecten la nueva vacuna contra la viruela de Edward…
Chaos Engineering: encontrar fallas antes de que se conviertan en interrupciones

6 jul 2022

Chaos Engineering: encontrar fallas antes de que se conviertan en interrupciones

Diane Glazman nunca volará con British Airways (BA) otra vez. Glazman y su esposo se encontraban entre las 75,000…
<Trabajando_con_Google Compute Engine/>vol.2

4 jul 2022

<Trabajando_con_Google Compute Engine/>vol.2

Plantillas de instancias y grupos de instancias Incluso cuando pensamos en la arquitectura local, muchos de los…
<Trabajando_con_Google Compute_Engine/>vol.1

15 jun 2022

<Trabajando_con_Google Compute_Engine/>vol.1

Google Compute Engine (GCE) es uno de los servicios fundamentales dentro de Google Cloud Platform (GCP). Si bien la…
Google Cloud Platform Core Services part 2

14 may 2022

Google Cloud Platform Core Services part 2

Conociendo los servicios de red Las redes de GCP se basan en redes definidas por software (SDN), que permiten a los…
Google Cloud Platform Core Services

4 may 2022

Google Cloud Platform Core Services

Antes de profundizar en los servicios de Google Cloud Platform (GCP), hagamos un recorrido para presentar todos los…
Exportación de Facturación,Presupuestos y Alertas

12 abr 2022

Exportación de Facturación,Presupuestos y Alertas

Exportación de facturación GCP te permite exportar la información de facturación a un conjunto de datos de BigQuery…
Gestión de Proyectos,Concesión de permisos y Facturación

20 mar 2022

Gestión de Proyectos,Concesión de permisos y Facturación

Gestión de proyectos Para crear un nuevo proyecto, sigue la receta de cocina, realice los siguientes pasos: 1. Inicie…
Ubicaciones de GCP & Resource manager

15 mar 2022

Ubicaciones de GCP & Resource manager

Como ya mencionamos, GCP tiene una presencia global que incluye América del Norte, América del Sur, Europa, Asia y…

See all articles

Collaborative Notebooks in the Cloud part 1

Neftali Ramirez

<CloudRockStar_FULLStackDEVTechLead/>

Recomendado por LinkedIn

Introduction to ML

83 seguidores

Más artículos de Neftali Ramirez

Otros usuarios han visto

7 Recursos Git para explorar Roadmaps en IA e Ingeniería y Ciencia de Datos

Comparación de Jupyter Notebook vs Google Colab como herramientas para tratar con datos

Mucho más que desarrollar código

Servicios de AWS para poner APIs de machine learning

Ventajas de Utilizar Scikit-Learn 1.5 en el Análisis de Datos y Machine Learning

Cómo Construir un Buscador Eficiente Utilizando IA

Full Stack Data Science desde Python para las empresas

Introducción a Jupyter Notebook y JupyterLab: Herramientas Esenciales para el Análisis de Datos y la Ciencia de Datos

[uDA] Oferta Junior Data Engineer - Crawling [Proceso completado]

La puesta en producción en ciencia de datos

Ver temas

Recomendado por LinkedIn

Introduction to ML

83 seguidores

Más artículos de Neftali Ramirez

Hacer más con menos: cómo MicroStrategy redujo los costos de la nube en un 30 %

Chaos Engineering: una vacuna

Chaos Engineering: encontrar fallas antes de que se conviertan en interrupciones

<Trabajando_con_Google Compute Engine/>vol.2

<Trabajando_con_Google Compute_Engine/>vol.1

Google Cloud Platform Core Services part 2

Google Cloud Platform Core Services

Exportación de Facturación,Presupuestos y Alertas

Gestión de Proyectos,Concesión de permisos y Facturación

Ubicaciones de GCP & Resource manager

Otros usuarios han visto

7 Recursos Git para explorar Roadmaps en IA e Ingeniería y Ciencia de Datos

Comparación de Jupyter Notebook vs Google Colab como herramientas para tratar con datos

Mucho más que desarrollar código

Servicios de AWS para poner APIs de machine learning

Ventajas de Utilizar Scikit-Learn 1.5 en el Análisis de Datos y Machine Learning

Cómo Construir un Buscador Eficiente Utilizando IA

Full Stack Data Science desde Python para las empresas

Introducción a Jupyter Notebook y JupyterLab: Herramientas Esenciales para el Análisis de Datos y la Ciencia de Datos

[uDA] Oferta Junior Data Engineer - Crawling [Proceso completado]

La puesta en producción en ciencia de datos

Ver temas