Análise dos Dados do Airbnb - BERLIN
O Airbnb já é considerado como sendo a maior empresa hoteleira da atualidade. Ah, o detalhe é que ele não possui nenhum hotel! É uma empresa americana de mercado on-line com sede em San Francisco, Califórnia, Estados Unidos. A empresa revoluciona o conceito do mercado de hotelaria.
Com as mudanças de hábitos da humanidade, onde se realiza tudo via Internet; a plataforma traz a Conectividade entre pessoas que quer se hospedar com os que querem alugar seus imóveis de maneira prática. Pensando nisso o Airbnb fornece uma plataforma inovadora para tornar a hospedagem alternativa.
Em de 2019, a startup atingiu a marca de já 500 milhões de hóspedes ao redor de todo o mundo, desafiando as redes hoteleiras tradicionais.
O Airbnb é disponibiliza dados do site, para algumas das principais cidades do mundo. Por meio do portal do seu portal Inside Airbnb, é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de Data Science.
Iremos analisar os dados referentes à cidade Berlin - Capital da Alemanha, e ver quais insights podem ser extraídos a partir de dados brutos.
Obtenção dos Dados
Os dados utilizados nessa análise são disponíveis publicamente pelo site Inside Airbnb onde permite explorar como a empresa está se comportando ao redor do mundo.
Para esta análise, será baixado o seguinte arquivo:
- listings.csv - Summary information and metrics for listings in Boston (good for visualisations).
Primeiro passo iremos visualizar o data science, no notebook
Tamanho da amostra (Conjunto de dados)
Primeiramente vamos identificar o tamanho das nossas amostras que o nosso conjunto de dados possui.
- Quantidade de Entradas.
- Tipos de Variáveis.
Os dados a serem analisados possuem 24.678 entradas, e 16 variáveis a serem analisados.
Mineração de dados.
Identificaremos a porcentagem de valores ausentes no dataset,
As Variáveis:
- Ás variáveis reviews_per_month, e last_review são as variáveis incompletas, apresentados mais de 18% dos valores nulos não sendo utilizado na análise.
Para visualizarmos a distribuição das variáveis, plotaremos histogramas
Exibindo a frequência que de cada amostra ocorreu, assim podemos obter algumas conclusões:
- A disponibilidade de imóveis mudam de acordo com as temporadas;
- Os preços dos imóveis mudam drasticamente;
- A quantidade imóveis que possibilitam alugueis a longo prazo.
Identificação de Outliers
Pela distribuição do histograma as variáveis price, minimum_nights, e calculated_host_listings_count, é possível verificar indícios da presença de outliers (valores atípico).
A existência que valores não seguem uma destruição, implica tipicamente em prejuízo de interpretação e distorcem toda a representação gráfica. Para confirmar a detecção de outliers executaremos as seguintes funções:
- Resumo estatístico por meio do método describe()
- Plotar boxplots para a variável.
Com os resultados estatístico acima, podemos concluir que:
- O maior PREÇO (price) apresenta um percentil de 75% dos valores estão abaixo de US$79, mas o valor máximo apresentado é de 9000.
- A quantidade MÍNIMA DE NOITES(minimum_nigths) está acima de 365 dias no ano o percentil está de 4 noites
Boxplot para Minimu_nigths
o Boxplot representa graficamente a quantidade de outlier contém na variável, que são os pontos mais escuros no gráfico.
Boxplot para Price
o Boxplot representa graficamente a quantidade de outlier contém na variável, que são os pontos mais escuros no gráfico.
De acordo com o gráfico plotado, podemos visualizar que a presença de Outlier são superiores a distribuição do primeiro e terceiro quartil.
Histogramas sem outliers
Já que identificamos outliers nas variáveis price e minimum_nights, vamos agora limpar o DataFrame delas e plotar novamente o histograma.
Qual a correlação existente entre as variáveis
Correlação significa que existe uma relação entre duas coisas. No nosso contexto, estamos buscando relação ou semelhança entre duas variáveis.
Essa relação pode ser medida, e é função do coeficiente de correlação estabelecer qual a intensidade dela. Para identificar as correlações existentes entre as variáveis de interesse, vou:
Criar uma matriz de correlação Gerar um heatmap a partir dessa matriz, usando a biblioteca seaborn.
Qual o tipo de imóvel mais alugado no Airbnb?
A coluna da variável room_type indica o tipo de locação que está anunciada no Airbnb. Se você já alugou no site, sabe que existem opções de apartamentos/casas inteiras, apenas o aluguel de um quarto ou mesmo dividir o quarto com outras pessoas.
Vamos contar a quantidade de ocorrências de cada tipo de aluguel, usando o método value_counts().
Qual a localidade mais cara de Berlim?
Segundo o resultado da nossa analise o bairro mais caro e o Haselhorst, e o mais em conta e o Halensee.
Conclusões
Berlin e um dos destinos turístico mais procurados, podemos ver através das analise que a rede hoteleira Airbnb oferece inúmeras vantagens e vários bairros da cidade, que varia de locais extremamente caros, a locais com preços mais em contas como o Bairro de Helensee. A maioria dos hospedagem disponíveis são em home/apt.
Arrume suas malas, faça sua reserva e Boa viagem ......
--
4 aMuito legal!! 👏👏Estava assistindo vídeos sobre análise de dados ontem rs.
Engenheiro Eletricista | Supervisor de Operações | Raízen S.A.
4 aBelo Artigo Naábia guedes!! Parabéns