Aceite e cadastre-se no LinkedIn

Ao clicar em Continuar para se cadastrar ou entrar, você aceita o Contrato do Usuário, a Política de Privacidade e a Política de Cookies do LinkedIn.

Pular para conteúdo principal
LinkedIn
  • Artigos
  • Pessoas
  • Learning
  • Vagas
  • Jogos
Cadastre-se agora Entrar

Alterar idioma do artigo


  1. Todos
  2. Engenharia
  3. Ciência de dados

O que é engenharia de recursos e como ela afeta a avaliação e validação do modelo?

Alimentado por IA e pela comunidade do LinkedIn

1

Por que engenharia de recursos?

2

Como fazer engenharia de recursos?

3

Como avaliar a engenharia de recursos?

4

Como melhorar a engenharia de recursos?

5

Veja o que mais considerar

A engenharia de recursos é o processo de transformar dados brutos em recursos que podem ser usados para criar e treinar modelos de aprendizado de máquina. Características são os atributos ou variáveis que representam as características dos dados e influenciam o desempenho e a precisão do modelo. Neste artigo, você aprenderá o que é engenharia de recursos, por que ela é importante e como ela afeta a avaliação e a validação de modelos de aprendizado de máquina.

Principais especialistas neste artigo
Selecionados pela comunidade a partir de 41 contribuições. Saiba mais
  • imagem do perfil do usuário
    Soledad Galli
    Data scientist | Best-selling instructor | Open-source developer | Book author
    21
  • imagem do perfil do usuário
    Khushee Kapoor
    UWaterloo | Master of Data Science and Artificial Intelligence (Co-op) | LinkedIn Top Voice for Data Science | Amongst…
    11
  • imagem do perfil do usuário
    Shravan Kumar K.
    Indian | AI Leader | IIT Madras | IIM Bangalore | Associate Director at Novartis| Generative AI | Kaggle Competitions…
    9

1 Por que engenharia de recursos?

A engenharia de recursos é essencial para criar modelos de aprendizado de máquina eficazes e robustos. Ele pode ajudá-lo a extrair informações relevantes dos dados, reduzir o ruído e a redundância, melhorar a eficiência computacional e melhorar a interpretabilidade e a generalizabilidade dos modelos. A engenharia de recursos também pode ajudá-lo a superar limitações de dados, como valores ausentes, valores atípicos, desequilíbrios ou vieses, aplicando técnicas apropriadas para lidar com eles.

Adicione sua opinião
Ajude outras pessoas compartilhando pelo menos mais (125 caracteres)
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Shravan Kumar K.

    Indian | AI Leader | IIT Madras | IIM Bangalore | Associate Director at Novartis| Generative AI | Kaggle Competitions Expert | Top 10 in AnalyticsVidhya Competition Rankings

    • Denunciar contribuição

    FE is basically about transforming or engineering the raw data into a format which helps improve the ML model outcomes. Doing thorough exploratory data analysis using domain knowledge helps - some of the FE techniques are 1. Tagging outliers 2. Imputation 3. Variable transformations 4. Scaling of data (min-max, standard scaler) 5. Encoding of categorical columns 6. Binning or discretization etc.. Develop a strong cross validation technique like Kfold, stratifiedKfold etc., based on the business case and apply features to model in a sequential way and record the cross validation scores based on accuracy/precision (based on business objective). If the scores improve with FE then we can say a robust validation and evaluation is done.

    Traduzido
    Gostei
    9
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Kirti Bihade

    CEO | Digital Transformation & AI Leader | Empowering Businesses through Data Engineering and AI Solutions at Datasmith AI | Co-founder Parallel Minds

    • Denunciar contribuição

    Here is the one aspect of feature engineering out of many - when we work with a lot of data, sometimes different pieces of information (features) can be very similar to each other. This similarity is not helpful and can make things more complicated than they need to be. So, in feature engineering, we check how closely related these pieces of information are. If we find that two or more pieces are almost the same (highly correlated), we keep just one and get rid of the others. This helps in making the data simpler and clearer for the models we use. By doing this, we can save time and effort when training these models. It's like cleaning up and organizing data so that the models can learn better and faster.

    Traduzido
    Gostei
    5
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Seshan Saravanan

    Computer Vision Research Intern at Indian Institute of Science (IISc) || ECE - Final Year || AI/ ML || Quantum Computing and Quantum Machine Learning

    • Denunciar contribuição

    Feature engineering is the art of transforming raw data to enhance machine learning model performance. It involves tweaking, creating, or selecting features to improve the model's pattern recognition. Effective feature engineering directly impacts model evaluation and validation. Well-crafted features boost accuracy and robustness, while poorly engineered ones introduce noise, hindering performance. Think of it as sculpting raw data into a form that empowers your models to reveal meaningful insights. It's not just about building models; it's about optimizing the very material they work with.

    Traduzido
    Gostei
    3
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Girish Udeg

    Data Analyst & Gen AI Solutions Architect at DATASMITH AI SOLUTIONS PVT. LTD. | Gen AI | Azure | MySQL | Python |

    • Denunciar contribuição

    Feature engineering plays vital role in machine learning to optimize model performance. By carefully selecting, transforming, or creating features from raw data, it enables the extraction of relevant information, reduces noise and redundancy, improves computational efficiency, enhances model interpretability, and addresses data limitations. This process ensures that machine learning models are well-prepared to make accurate predictions on new data, contributing to their effectiveness and robustness.

    Traduzido
    Gostei
    3
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Kai Maurin-Jones, MDSCL

    Applied AI Developer @Klick | AI Engineer | Quantitative Linguistics | Forever Builder

    • Denunciar contribuição

    Feature engineering is one of the best ways to make your model leaner. It is the optimization of the data you pass through it. As a simple example, if you were to create a classifier with over 100 hundred features, you would hopefully get an amazing F1 score with the trained model. However, there will be a point with the trained model where its performance reaches saturation, and adding new features will cease to improve it. The goal of feature engineering is find this point (i.e. having the best performance with the fewest features), as 1) making the model process information beyond this about each example can add noise and potentially negatively affect performance, 2) and increase inference time needlessly.

    Traduzido
    Gostei
    3
Carregar mais contribuições

2 Como fazer engenharia de recursos?

A engenharia de recursos é um processo complexo, dependendo do tipo e da complexidade dos dados e do domínio do problema. A exploração e análise de dados é uma etapa essencial para a compreensão dos dados, sua distribuição, suas relações, sua qualidade e suas potenciais características. O pré-processamento dos dados também é necessário para torná-los prontos para a engenharia de recursos. A extração de recursos envolve a criação de novos recursos a partir de dados existentes, como a aplicação de transformações matemáticas ou agregações. A seleção de recursos requer a seleção dos recursos mais relevantes e informativos para o modelo, como o uso de testes estatísticos ou análise de correlação. Finalmente, a codificação de recursos envolve a conversão de recursos categóricos ou textuais em valores numéricos que podem ser usados pelo modelo, como usando codificação a quente ou codificação de rótulo.

Adicione sua opinião
Ajude outras pessoas compartilhando pelo menos mais (125 caracteres)
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Khushee Kapoor

    UWaterloo | Master of Data Science and Artificial Intelligence (Co-op) | LinkedIn Top Voice for Data Science | Amongst the Top 0.5% Data Scientists on Kaggle

    • Denunciar contribuição

    1. Explore & Understand: - Know your problem and target. - Analyze data, identify missing values, outliers, and types. 2. Transform: - Handle missing values and outliers. - Encode categorical features. - Scale features to prevent biases. 3. Create: - Use domain knowledge and input from subject matter experts to build new features. - Extract hidden patterns with techniques like PCA. - Select relevant features for better performance. 4. Evaluate & Iterate: - Train models with and without engineered features. - Continuously experiment and refine your approach.

    Traduzido
    Gostei
    11
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Hammad Zaki

    Data Scientist ✦ 2+ Years of Experience in Python, SQL & Machine Learning ✦ Expertise in NLP, GenAI & LLM ✦ Skilled in ETL Pipelines & Cloud Solutions

    • Denunciar contribuição

    Feature engineering includes many steps, but some are pretty common: 1. Dealing with Missing Values: Choices between removal based on completeness or distribution. 2. Handling Outliers: Managing them through removal or transformation based on their significance. 3. Feature Scaling: Ensuring uniformity and reshaping data for improved model performance. 4. Handling Numerical and Categorical Data: Strategies like encoding, binning, splitting, and transformations. 5. Feature Transformation: Applying mathematical operations for better data distribution. 6. Feature Selection: Using filter, wrapper, or embedded techniques for variable selection. 7. Dimensionality Reduction: Utilizing PCA, Randomised PCA, or other methods to simplify data.

    Traduzido
    Gostei
    2
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Soledad Galli

    Data scientist | Best-selling instructor | Open-source developer | Book author

    • Denunciar contribuição

    To perform feature engineering, we need to: 1) understand the model, 2) understand the data, and 3) know the methods available to transform variables and how they affect the transformed variable and its relationship with the rest of the dataset. Different machine learning models require different transformations. I.E., linear models make assumptions over the data, and when these are not met we apply mathematical transformations or discretization. Linear and distance based models require scaling, tree based models do not. Some, but not all, implementations of tree based models tackle categorical variables under the hood. For the rest, we need some sort of encoding. Since data preprocessing is key, it's worth spending on it.

    Traduzido
    Gostei
    2
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Kirti Bihade

    CEO | Digital Transformation & AI Leader | Empowering Businesses through Data Engineering and AI Solutions at Datasmith AI | Co-founder Parallel Minds

    • Denunciar contribuição

    Feature engineering is all about working with data to make it better and more useful for achieving our goals. Here are some ways to do it. EDA- We look at how the data is spread out. If some data doesn't change much (low variance), it might not be very useful for our models, so we can consider removing it. Dealing with Missing Values: If a lot of data is missing in a certain area and we can't fill it in a way that makes sense (like using average values), it might be better to just remove these parts. Creating New Features: Sometimes, we can add new feature from what we already have. e.g. from a birthdate, we can calculate age or we can transform existing features into new feature. There are many other methods too.

    Traduzido
    Gostei
    1
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Md. Aamir Sohail
    • Denunciar contribuição

    Feature Engineering is one of the important part of ML models implementation process. It can help in visualization of standardized data and optimisation of results. Feature engineering helps to construct new features with the combination of multiple features in the dataset and thus, it can even be used for dimensionality reduction.

    Traduzido
    Gostei
    1
Carregar mais contribuições

3 Como avaliar a engenharia de recursos?

A engenharia de recursos é um processo iterativo e experimental que requer avaliação e validação constantes. Para medir seu impacto no desempenho, precisão, recursos computacionais e tempo do modelo, você pode usar validação cruzada, métricas e visualização. A validação cruzada envolve a divisão dos dados em vários subconjuntos para treinar e testar o modelo. As métricas envolvem a comparação das previsões do modelo com os resultados reais usando medidas quantitativas como precisão, precisão, recordação, escore F1, erro quadrático médio ou erro absoluto médio. A visualização usa ferramentas gráficas para explorar a distribuição, correlação, importância ou desempenho dos recursos e do modelo. Vários gráficos, como histogramas, gráficos de dispersão, gráficos de caixa, mapas de calor ou matrizes de confusão podem ser usados para essa finalidade.

Adicione sua opinião
Ajude outras pessoas compartilhando pelo menos mais (125 caracteres)
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Kirti Bihade

    CEO | Digital Transformation & AI Leader | Empowering Businesses through Data Engineering and AI Solutions at Datasmith AI | Co-founder Parallel Minds

    • Denunciar contribuição

    Comparing model accuracy, error and the presence of overfitting or underfitting before and after feature engineering is crucial for effective evaluation. This comparison reveals whether the newly added features are valuable. Additionally, plotting the importance of each feature offers insights into their contribution to the model's predictions, aiding in the understanding of the impact of newly engineered features on the model's performance. Performing cross validation before and after feature engineering helps in comparing robustness and stability of the model.

    Traduzido
    Gostei
    4
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Soledad Galli

    Data scientist | Best-selling instructor | Open-source developer | Book author

    • Denunciar contribuição

    What does it mean "evaluate feature engineering"? Evaluate if the transformation returned the expected result? Evaluate if the transformation improved the model performance? Evaluate if the transformation is still interpretable? Vague questions can only get vague answers. I think the key here is to understand what we need to evaluate. First, if our code has no bugs, that is, if the transformation returned what we expect. Plots help. Second, model performance: use different transformations and compare performance metrics after transforming the data. Third interpretability: can I understand the feature after I transformed it? One hot encoding returns interpretable features, feature hashing does not.

    Traduzido
    Gostei
    3
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Srishti Hazra

    C++,Web Dev, UI/UX Postman API Student Expert. LNCT'26 CSE

    • Denunciar contribuição

    Evaluating feature engineering involves assessing its impact on model performance. Metrics such as accuracy, precision, recall, and F1 score can be used before and after applying feature engineering to gauge improvements. Additionally, cross-validation and comparing performance on a validation set help ensure the robustness of the feature engineering process.

    Traduzido
    Gostei
    1
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Brijesh Soni

    Unlocking Language Potential || NLP Expert || Making a Difference in Human-Machine Interaction 🌟

    • Denunciar contribuição

    By generating or altering input features, feature engineering improves models. Use cross-validation to assess its influence by contrasting measures with and without designed features, such as accuracy or precision. Keep an eye on the model's complexity to prevent overfitting and make sure the characteristics you've chosen provide meaningful information. This evaluation guarantees enhanced model robustness and performance.

    Traduzido
    Gostei
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Kamal Das

    Digital Transformation & AI for Public Good | Dean, WGDT | Kaggle Grandmaster, Top 0.04% in Global Competitions

    • Denunciar contribuição

    Evaluating feature engineering is a dynamic, iterative process crucial for model enhancement. Employ cross-validation, metrics, and visualization to gauge its impact on accuracy, computational efficiency, and time. Cross-validation entails dividing data into subsets for model training and testing. Metrics, including accuracy, precision, recall, F1-score, mean squared error, or mean absolute error, quantitatively compare model predictions with actual outcomes. Visualization, using tools like histograms, scatter plots, box plots, heat maps, or confusion matrices, offers insights into feature distribution, correlation, importance, and overall model performance.

    Traduzido
    Gostei
Carregar mais contribuições

4 Como melhorar a engenharia de recursos?

A engenharia de recursos não é uma solução única, mas requer criatividade, conhecimento de domínio e experimentação. Você sempre pode tentar melhorar sua engenharia de recursos aplicando técnicas diferentes, testando combinações diferentes ou adicionando novas fontes de dados. Por exemplo, você pode usar fluxos de trabalho automatizados para aplicar várias etapas e técnicas de engenharia de recursos de maneira consistente e eficiente com ferramentas como scikit-learn, pandas ou TensorFlow. Além disso, você pode usar abordagens sistemáticas para projetar e otimizar seu processo de engenharia de recursos com estratégias como engenharia de recursos para modelos lineares, modelos baseados em árvore ou modelos de aprendizado profundo. Finalmente, é importante seguir as práticas recomendadas, como entender os dados e o problema, começar com recursos simples, testar e validar os recursos ou documentar e explicar os recursos para garantir a qualidade e a confiabilidade de sua engenharia de recursos. Entender o que é engenharia de recursos, por que ela é importante e como ela afeta a avaliação e a validação de seus modelos ajudará você a criar melhores soluções para seus problemas.

Adicione sua opinião
Ajude outras pessoas compartilhando pelo menos mais (125 caracteres)
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Tejas Bankar

    AI Consultant @ EY | GenAI | Machine Learning | Deep Learning | NLP | Data Science | Python | Continuous Learner | Ex-TCS

    • Denunciar contribuição

    Feature engineering steps depends on which ML algorithm we are using. To build optimised Feature Engineering pipeline we should have strong domain knowledge, knowledge of each feature in data and it's importance. Based on that we should select best feature engineering steps. For example, If using distance based algorithms, we should use feature scaling to avoid biasness of feature with high magnitude, If using outliers sensitive algorithms we should handle outliers using optimised strategy like mean/median/mode/capping/flooring. To handle missing values we can use advanced methods like iterative imputation or KNNImputer To handle imbalance data we can use advanced methods like SMOTomek, SMOTENN.

    Traduzido
    Gostei
    2
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Yodi Aditya

    Technical Expert AI & ML at Vidio.com

    (editado)
    • Denunciar contribuição

    1) My personal framework to improve feature engineering: Domain Knowledge integration, Automation Tools and Advanced Technique from paper research in Arxiv 2) Domain Knowledge Integration: Bring an expert to examine your features and hypothesis to the target model. You will be surprised that expert able to think a new features from the dataset or even give suggestion to consider additional external features. 3) Automation Tools: Featuretools and PyCaret are nice libraries to start. Especially on the Deep Feature Synthesis. 4) Advanced Technique: Many research like DIFER, MACFE, Statistically Enhanced Learning, where combine the latest Deep Learning and approach to improve features engineering.

    Traduzido
    Gostei
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Ijtaba Hussain

    13k LinkedIn Members | Data Analyst | Data Science | Machine Learning | SQL | Python | PowerBI

    • Denunciar contribuição

    Rather than a cookie-cutter approach, feature engineering calls for imagination, expertise in the relevant domain, and trial and error. Applying new methods, trying out novel combinations, or incorporating additional data sources are all approaches to enhance your feature engineering. For instance, with tools like scikit-learn, pandas, or TensorFlow, you may automate workflows to apply various feature engineering procedures and strategies in a consistent and effective manner. Feature engineering for linear models, tree-based models, and deep learning models are just a few examples of the ways you may use to build and optimize your feature engineering process. Lastly, to make sure your feature engineering is reliable and high-quality

    Traduzido
    Gostei

5 Veja o que mais considerar

Este é um espaço para compartilhar exemplos, histórias ou insights que não se encaixam em nenhuma das seções anteriores. O que mais gostaria de acrescentar?

Adicione sua opinião
Ajude outras pessoas compartilhando pelo menos mais (125 caracteres)
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Soledad Galli

    Data scientist | Best-selling instructor | Open-source developer | Book author

    • Denunciar contribuição

    There are plenty of Python libraries that help you streamline feature engineering: Scikit-learn and Feature-engine support a broad range of methods for tabular data. Category encoders supports most methods for categorical encoding. tsfresh extracts features from time series for classification. Featuretools extracts features from transactions for classification or regression. Some forecasting libraries now support the creation of basic features from lags and windows, eg skforecast and sktime. The list is growing. Stay tuned.

    Traduzido
    Gostei
    21
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Sandhya Oza

    Co-founder and Chief Project Officer @ Data Science Wizards | AI and Data Science

    • Denunciar contribuição

    Apart from all above, understand your industry for unique insights. Capture time-related patterns and explore feature interactions. Create features related to what you're predicting, like past trends. Use techniques like Heat Map to find correlations and Random Forests to check feature importance. For complex data, try advanced methods like embeddings. Transform data to capture hidden relationships. Ensure your features help the model generalize to new data and look for ethical concerns. Keep updating your strategies as you learn more or as the data changes. It's an ongoing process to keep your model effective and relevant to the current data flowing in the model.

    Traduzido
    Gostei
    3
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Yodi Aditya

    Technical Expert AI & ML at Vidio.com

    • Denunciar contribuição

    1) Features engineering is a way to convert the raw data into a new set of features to understand the underlying problem, which results in better model performance, reduced computation, prevention of overfitting, and better interpretability (related to regulation). 2) Spending 60% or more time doing data preprocessing feature engineering is common in practice. The concept of garbage in and garbage out is very real here. As scientist, is important to provide data with high quality into the model 3) Leveraging the automation tools and domain expert in early process I found saving a lot of time when dealing with project timeline

    Traduzido
    Gostei
  • Foto do perfil do contribuidor
    Foto do perfil do contribuidor
    Ijtaba Hussain

    13k LinkedIn Members | Data Analyst | Data Science | Machine Learning | SQL | Python | PowerBI

    • Denunciar contribuição

    There are multiple python and R packages which can help in feature engineering. I used a few based on the priority of these features we can reduce/remove it.

    Traduzido
    Gostei
Ciência de dados Ciência de dados

Ciência de dados

+ Siga

Classificar este artigo

Criamos este artigo com a ajuda da IA. O que você achou?
É ótimo Não é muito bom

Agradecemos seu feedback

Seu feedback é privado. Adicione sua reação para que sua rede tenha acesso a conversa.

Forneça mais informações

Denunciar este artigo

Outros artigos sobre Ciência de dados

Não há mais conteúdo anterior
  • Você está lidando com problemas de qualidade de dados e prazos apertados. Como você prioriza resolvê-los?

  • You're facing resistance from cross-functional teams. How do you prove the value of data science?

    1 contribuição

  • You're facing resistance to new data processing tools. How do you secure IT buy-in?

    1 contribuição

  • You're juggling multiple data tasks and the project scope changes. How do you adapt efficiently?

    1 contribuição

  • Your data science team faces conflicting stakeholder demands. How do you prioritize effectively?

    5 contribuições

  • You're pushing the boundaries in feature engineering. How do you ensure your predictive model stays robust?

    3 contribuições

  • Scaling machine learning models for real-time analytics is a daunting task. Can you overcome the hurdles?

    1 contribuição

Não há mais próximo conteúdo
Ver todos

Conhecer outras competências

  • Programação (computação)
  • Desenvolvimento web
  • Metodologias Agile
  • Aprendizado de máquina
  • Desenvolvimento de software
  • Ciência da computação
  • Engenharia de dados
  • Analítica de dados
  • Inteligência artificial
  • Computação em nuvem

Leitura mais relevante

  • Inteligência artificial
    Como você pode usar a normalização para melhorar a engenharia de recursos?
  • Aprendizado de máquina
    Como você pode minimizar o erro de medição ao treinar um modelo de ML?
  • Modelagem preditiva
    Quais são algumas maneiras eficazes de reduzir a dimensionalidade e a complexidade dos recursos?
  • Aprendizado de máquina
    Você tem como objetivo aumentar o desempenho do modelo. Quais tarefas de engenharia de recursos você deve priorizar?

Tem certeza de que quer excluir sua contribuição?

Tem certeza de que quer excluir sua resposta?

  • LinkedIn © 2024
  • Sobre
  • Acessibilidade
  • Contrato do Usuário
  • Política de Privacidade do LinkedIn
  • Política de Cookies
  • Política de Direitos Autorais
  • Política da Marca
  • Controles de visitantes
  • Diretrizes da Comunidade
Gostei
8
41 contribuições
  翻译:

Entre para visualizar mais conteúdos

Crie sua conta gratuita ou entre para continuar sua pesquisa

Olá novamente

Esqueceu a senha?

ou

Ao clicar em Continuar para se cadastrar ou entrar, você aceita o Contrato do Usuário, a Política de Privacidade e a Política de Cookies do LinkedIn.

Nunca usou o LinkedIn? Cadastre-se agora

ou

Nunca usou o LinkedIn? Cadastre-se agora

Ao clicar em Continuar para se cadastrar ou entrar, você aceita o Contrato do Usuário, a Política de Privacidade e a Política de Cookies do LinkedIn.