Estamos #Contratanto para um novo cargo de Engenheiro de Machine Learning em: Brazil. Candidate-se hoje mesmo ou compartilhe este anúncio com sua rede.
Publicação de Zummit
Publicações mais relevantes
-
Gosto sempre de compartilhar minhas experiências aqui na rede. Recentemente, estive desenvolvendo um modelo de Machine Learning para um curso que vou regravar, e decidi utilizar pipeline e make_pipeline no projeto. Aqui estão minhas opiniões sobre os pontos positivos e negativos dessa abordagem: Pontos Positivos Rapidez e Praticidade: Utilizar pipelines facilita e acelera o processo de testar vários modelos com diferentes configurações. Para um cientista de dados, cuja função é experimentar e testar diferentes configurações, o uso de pipelines oferece uma grande vantagem, aumentando significativamente a produtividade. Pontos Negativos Variáveis Categóricas e Label Encoder: Se você possui variáveis categóricas e utiliza LabelEncoder dentro do pipeline, pode perder o controle sobre a substituição das variáveis categóricas por numéricas. Imagine que você tem 100 cidades ou 100 profissões. Com o Label Encoder dentro do pipeline, você simplesmente não sabe qual é o numero da cidade/profissão que foi substituida no label encoder dentro do pipeline. Para resolver isso, é necessário salvar o conjunto de dados antes e depois da transformação e fazer uma concatenação para identificar as mudanças, o que dá bastante trabalho. Geração de Gráficos de SHAP Values: O tempo para gerar gráficos de SHAP Values pode ser muito longo. No meu caso, demorou 33 minutos para gerar um gráfico com cerca de 15 mil linhas do conjunto de teste e aproximadamente 10 colunas. Isso é bastante tempo. Agora, pretendo criar um novo modelo utilizando os mesmos critérios, mas sem colocar no pipeline. Meu objetivo é descobrir se a demora para gerar o gráfico de SHAP Values é devido ao uso do pipeline ou se o modelo em si é "pesado" demais.
Entre para ver ou adicionar um comentário
-
Olá, rede! Estamos buscando um Cientista de Dados para atuar num dos projetos da Claro em SP via Global Hitss. Se você tem uma indicação, manda pra mim! ;) Saudações! 🖖 Detalhes: Essa posição deve ser responsável por construir toda a cadeia relacionada a estruturação e implantação de projetos de Machine Learning, passando pela coleta, tratamento e preparação de dados, indução de modelos estatísticos e matemáticos, monitoramento de performance das entregas e aplicação de conceitos de engenharia de software para orquestrar sistemas autônomos baseados em dados. RESPONSABILIDADES PRINCIPAIS: · Implantação de modelos e sistemas de Machine Learning; · Manutenção da performance estatística dos modelos da prateleira; · Operação da esteira de modelos de machine learning · Desenho de solução E2E usando pipelines e containers on-premisses e Cloud REQUISITOS MÍNIMOS · Formação Acadêmica: Graduação em matemática, física, engenharia, ciência da computação, estatística, análise de sistemas e afins. · 3 a 5 anos de experiência · Vivencia no trabalho com grandes volumes de dados, dados desestruturados e movimentação de dados · Conhecimentos Específicos: · Estruturação de Projetos de Machine Learning: Substituição de uma atividade "humana" simples com modelos de Machine Learning, estabelecendo objetivos, métricas e com desempenho similar a um humano; · Estruturação dos processos de coleta, limpeza dos dados, transformação e técnicas de otimização de modelos, viabilizando a construção de modelos de Machine Learning adequados ao tempo e recursos disponíveis; · Supervised and Unsupervised Learning · Reinforcement Learning. Hybrid Learning Problems · Compreender e resolver problemas de Overfitting e Underfitting · Algoritmos: Recomendação; Classificação: Regressão Linear, Regressão Logistica ; Clusterização: K-means e Hierarquica ; Support Vector Machines ; Random Forest ; Redes Neurais e Deep Learning ; Ajustes de Hiperparâmetros, Regularização e Otimização ; Redes Neurais · Linguagens: Python, R, Scala, Java · Frameworks / Bibliotecas: Pandas, numpy, scikit-learn, tensorflow, keras, matplotlib, seaborn · Características comportamentais: Interesse pela pesquisa e aquisição de novos conhecimentos, resiliência e preocupação com aplicabilidade das soluções e seus impactos no negócio
Entre para ver ou adicionar um comentário
-
A Carreira de Mineração de Dados Se for trabalhar em alguma Big Tech, é possível que tenha que criar novos algoritmos do zero, por isso vai ter que saber matemática. Se for trabalhar como Pesquisador Acadêmico e Docente, a pessoa ensina algoritmos que já existem, orienta resolução de problemas inéditos e pesquisa algoritmos novos, nesse caso precisa saber matemática. Se for trabalhar com consultoria, é possível fazer relatórios periódicos de acordo com o surgimento de novos dados e trabalhar com algoritmos inventados por outras pessoas. Se for trabalhar com Software House, é possível trabalhar com muitos clientes usando algoritmos inventados por outras pessoas, Software House é uma empresa que faz software para outras empresas.
Entre para ver ou adicionar um comentário
-
Inteligência Artificial vai acabar com as vagas de engenheiros de dados? Fujam todos para as colinas! Vamos ficar sem emprego? Calma. Não é bem assim. Quando a gente está começando, a gente vai, pega ali, começa a estudar, quer migrar um JSON para um CSC. E a gente joga ali no ChatGPT e fica impressionado, porque ele coloca todo aquele código pandas em segundos. E a gente fala, ferrou! Porque eu demoraria uma semana para fazer, ele fez em cinco minutos. Vou desistir. Vou largar tudo. Vou estudar para concurso público. Aí você vai ver que o concurso público acabou para piorar tudo ainda. O que eu vou fazer da minha vida? Calma. Não é assim. Esse tipo de tarefa, realmente, a inteligência vai fazer. Porque é só você ler 20 minutos de documentação, você aprenderia a fazer isso também. Mas a engenheira de dados real é longe dessa simplificação. Assiste nesse vídeo que eu vou te falar a minha opinião sobre isso.
Entre para ver ou adicionar um comentário
-
Boa noite rede, espero que todos estejam bem! Recentemente vemos muitas conversas sobre como a inteligência artificial generativa revolucionou a maneira como lidamos com as tarefas do dia a dia - seja no ambiente profissional ou mesmo tarefas rotineiras - e muito se especula sobre a capacidade dessa de acabar 'roubando' espaço de certos profissionais. Todas essas conversas me remeteram a uma história de 3 anos atrás que quero compartilhar com vocês No ano de 2021 eu tive o desafio de reestruturar uma área de ciência de dados recém-criada na Empresa Junior da FGV-EAESP como coordenador e algo que era indispensável para mim seria capacitação dos consultores em como realizar análises de forma inteligente e que computadores e linguagens de programação são apenas ferramentas as quais devemos masterizar e não nos tornar reféns. Em minha primeira sessão de capacitação quis demonstrar isso a eles através de um jogo simples: Conseguiria eu, um mero aluno da universidade efetuar um cálculo mais rápido que um computador ? O desafio era somar o primeiro 1 bilhão de números impares partindo do 1. Escrevi o código de uma maneira pouco inteligente propositalmente e o executei e logo em seguida já falei o resultado aos consultores sendo 10 elevado a décima oitava potência, e após alguns segundos apenas o computador foi capaz de calcular o resultado falado por mim. Surpresos, os consultores questionaram se eu já sabia o resultado de antes e eu falei para eles que fiz a conta de cabeça, todos ficaram confusos; o fato é que eu só fui capaz de fazer a conta de cabeça devido a essa soma em especifico ser sempre a quantidade de números impares somados elevado ao quadrado - isso é simples de se demostrar utilizando da soma de progressão aritmética tendo n termos, primeiro termo sendo 1 e razão de 2 - ilustrando que o computador é uma ferramenta que executa muito bem aquilo que lhe é pedido mas não necessariamente encontra a melhor maneira de executar para você e isso vai totalmente de encontro com a conversa sobre AI generativa roubar os empregos das pessoas. Hoje eu fiz o seguinte prompt para o Chat GPT: Create a python code which creates a function that gets an argument -n- and adds up all odd numbers from the first to the nthn one. Ele me entregou um código que somada de forma a executar as operações uma a uma sendo 1+3+5+7+9+.... até o enésimo número impar. Programei também a função que apenas retorna o quadrado de n e rodei simulações de tempo gasto para o computador executar os dois para as primeiras 9 potências de 10 e o resultado é o visto na imagem do post. A AI generativa não vai roubar seu emprego, ela apenas te auxilia a atingir seu potencial mais alto de forma mais rápida, o mundo dos dados é dinâmico e temos novidades acontecendo a todo instante. Isso abaixo é uma demonstração simples que o músico extrai o máximo do instrumento e não o contrário.
Entre para ver ou adicionar um comentário
-
O melhor AutoML? 🤷♂️ Recentemente, eu estava lendo sobre ensemble learning em séries temporais e esbarrei com o AutoGluon, uma ferramenta AutoML da AWS que promete tornar o trabalho do cientista de dados mais fácil, rápido e preciso. Grandes promessas. Cumpriu? Mais preciso? Não tenho certeza. Mais simples? Com certeza. - Simplesmente chamei fit() no TimeSeriesPredictor, selecionei preset de treinamento e deixei o AutoGluon fazer sua mágica. - Os resultados foram surpreendentemente próximos aos que eu havia levado dias de trabalho para obter. A imagem é literalmente todo código que precisei para a seleção de modelos (que ficam salvos para utilizar depois). Confesso que os resultados me surpreenderam. Você já conhecia? Testa aí e me conta 😁
Entre para ver ou adicionar um comentário
-
Um modelo de previsão simples baseados em dados históricos. Em vermelho, os dados previstos pelo meu modelo, em azul os dados originais. Foi um código simples, usando poucas funções do aprendizado até agora, mas se mostrou bastante eficiente, o objetivo agora é aperfeiçoar esse código e melhorar o desenvolvimento de modelos de machine learning
Entre para ver ou adicionar um comentário
-
Olá, minha rede! Seis tão Bão? Quando comecei esse caminho de dados, algumas pessoas me disseram que eu precisaria estudar. Principalmente, pensando em ciência de dados. Atualmente, fazendo estatística na Faculdade de Tecnologia de São Paulo - FATEC-SP, percebi que eu não sabia nada sobre o tema. As IA's estão dominando o mundo, mas poucos são os que dominam as IA's. Por isso, estou levando essa matéria o mais sério possível. Não para apenas passar, porém para também compreender esse mundo que cada vez mais estará presente em nosso dia a dia. E sim, eu sou bem nerd rs Bora estudar mais um pouco, pois ficar parado é fácil demais!
Entre para ver ou adicionar um comentário
-
Coisas que são duras de dizer para Cientistas de Dados mas é preciso ser dito[Parte II](Não sou politicamente correto): 1. Você pode até chamar a atenção de recrutadores e alguns cientistas com aquele tutorial todo pomposo do que é 'regressão linear', 'decision tree' e dar aquele exemplo mais manjado que sorvete de creme 'agora vamos aplicar num dado público(iris dataset)'[ôhhh raiva que me dá isso, sô. Não me mata não], mas o que vai te tornar bom e chamar atenção de líderes e te fazer passar no processo seletivo são projetos complexos. 2. Quando você começar a sentar a b*** na cadeira para escrever códigos de pipeline de feature engineering, de treinamento de modelos, de monitoramento, você não terá tempo de fazer power point sobre regressão logística. 3. Teoria é fundamental, mas decorar teoria é uma coisa, entender e aplicar é outra. Se você não tem condição de entender de fato e aplicar, você precisa continuar a tentar entender até ser natural para você. É preciso estar na massa do sangue aquilo que é importante na sua área. Exemplo: o que é estimadores de máxima verossimilhança. Tem que saber. 4. Quando você parar de querer ler tudo e estar atualizado de tudo e começar a fortificar bem fundamentos, executar bem projetos e entender que nem tudo que é hype deve ser aprendido na mesma hora, você vai solidificar seu conhecimento e, logo logo, vai conseguir aprender seu desejado RAG e LangChain. Mas se não sabe o básico, talvez isso não seja hora(tem gente aí que fala de RAG e LangChain e ainda é muito coda fofo para conseguir gerar produto com isso). 5. O influencer de AI normalmente(há excessões, não se inflamem) não é bom em AI, ele só parece ser, mas na hora do pega-pá-capá, ele some. Já falei algumas vezes: quem é bom não precisa de autopromoção, joga calado, coda calado, mas tem resultados impressionantes. 6. A maioria das empresas de consultoria vive de MVPs e POCs ou projetos mais simples, pois o cliente dificilmente vai pagar um projeto de alta complexidade, que demandará muitos meses, ou até mais de um ano, para ser concluído, pois consultoria é caro. Então, é muito natural que consultorias possuem muitos juniores e poucos(alguns lugares nenhum) sêniores. O alerta que dou é: caso haja oportunidade de migrar para um projeto em que você vai trabalhar numa empresa de inovação ou que possuem produtos de longo prazo, se prepare para uma adaptação no modo de trabalho e no nível de profundidade de conhecimento que os projetos e produtos dessa empresa podem exigir de você. Isso pode levar tempo, meses, para começar a ser produtivo. Vale alinhar muito bem com equipe, líderes e gestores. 7. Se você codar mal, você não entregará bons resultados. Se você não conhece bem a teoria dos modelos e os fundamentos de estatística, você não extrairá(provavelmente) vários atributos e insights dos dados e da modelagem em si. Se você não buscar conhecimento e resolver lacunas fundamentais, você está fadado a projetos superficiais.
Entre para ver ou adicionar um comentário
-
Hoje algo que aconteceu poucas vezes na minha carreira, se repetiu: Um modelo de regressão logística performou melhor que dezenas de outros modelos. Abaixo coloco só o Top4... Fiquei insistindo em tunagem de hiperparâmetros, mas não mudou nada! Sempre quando me acontece isso, eu perco um tempo enorme verificando tudo de novo! LogReg não foi o melhor em achar a classe minoritária, mas foi o mais "balanceado", pois o falso positivo tem um custo financeiro... Isso serve como um "tapa" na cara de quem tem "modelo preferido". Quantas vezes já não conhecemos "profissionais" cientistas de dados que começam uma entrevista, dizendo "Ah, eu aplico uma XGBoost" ? O profissional que responde isso perde pontos...ninguém, em condições normais, deve ter "modelo preferido". Quem usa "apenas um modelo" , já está errado! E isso vale pra IA Generativa também! Você que está colocando em produção projetos complexos usando apenas um tipo de LLM, está escondendo uma série de erros conceituais , além de expor ao risco operacional a empresa que está te pagando! Também queria lembrar que, entre os "Agentes de IA" que sempre meciono aqui, e também quem estuda na Scoras Academy já me viu criar em LangGraph e rodar: - Agente de IA DevOps; -Agente de IA DBA; -Agente de Data Analyst; -Agente de IA QA , e etc... O único que você não me viu criar ainda é o "Agente de IA Cientista de Dados", pois esse é de longe dos mais difíceis de se automatizar! O bom cientista de dados é multidisciplinar, entende de estatística, de matemática, de código , sabe se comunicar, e adapta os seus modelos às necessidades de negócio, não o contrário! Será que em breve vamos conseguir criar um Agente de IA Cientista de Dados que seja excepcional ?
Entre para ver ou adicionar um comentário
8.130 seguidores