Mestrado em Ciência de Dados da Unifor - Disciplina de Estatística.

Mestrado em Ciência de Dados da Unifor - Disciplina de Estatística.

Em 2020 resolvi começar meu tão sonhado mestrado, e o melhor, na área de Tecnologia, área que comecei a atuar desde 2003 quando entrei na Graduação de Análise e Desenvolvimento de Sistemas.

Falar um pouco da mega experiência da disciplina de estatística.

Primeiro ponto, professores extremamente qualificados, @JoseFurlanDuarte e @ElizabethFurtado, além da coordenação da prof @VladiaCelia.

Segundo ponto, varias experiências novas, o uso da linguagem de programação R com o R Studio, ferramenta poderosa, com poucas linhas de código você consegue analisar informações além de plotar os dados usando bibliotecas como o GGPLOT. Também utilizamos a ferramenta Orange, bastante didática e de fácil utilização.

A cereja do bolo ainda estava por vir, Python utilizando a interface do Anaconda com Jupyter Notebook com as bibliotecas numpy, pandas, matplotlib, acompanhe meu trabalho final no github:

Conhecemos vários tipos de testes, abaixo alguns deles:

Teste de Normalidade: Em estatística, os testes de normalidade são usados para determinar se um conjunto de dados de uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída. Mais precisamente, os testes são uma forma de seleção de modelos, e podem ser interpretados de várias maneiras.(fonte Wikipedia)

Teste de Kolmogorov-Smirnov: Em estatística, o teste Kolmogorov–Smirnov (também conhecido como teste KS ou teste K–S) é um teste não paramétrico sobre a igualdade de distribuições de probabilidade contínuas e unidimensionais que pode ser usado para comparar uma amostra com uma distribuição de probabilidade de referência (teste K–S uniamostral) ou duas amostras uma com a outra (teste K–S biamostral). Recebe este nome em homenagem aos matemáticos russos Andrei Kolmogorov e Nikolai Smirnov. A estatística de Kolmogorov–Smirnov quantifica a distância entre a função distribuição empírica da amostra e a função distribuição acumulada da distribuição de referência ou entre as funções distribuição empírica de duas amostras. A distribuição nula desta estatística é calculada sob a hipótese nula de que a amostra é retirada da distribuição de referência (no caso uniamostral) ou de que as amostras são retiradas da mesma distribuição (no caso biamostral). Em cada caso, as distribuições consideradas sob a hipótese nula são distribuições contínuas, mas não restritas. (fonte Wikipedia)

Teste de Shapiro-Wilk: A hipótese nula deste teste é que a população é normalmente distribuída. Portanto, se o valor de p for menor que o nível alfa escolhido , a hipótese nula será rejeitada e há evidências de que os dados testados não são normalmente distribuídos. Por outro lado, se o valor de p for maior que o nível alfa escolhido, a hipótese nula de que os dados vieram de uma população normalmente distribuída não poderá ser rejeitada (por exemplo, para um nível alfa de 0,05, um conjunto de dados com um valor O valor de p menor que 0,05 rejeita a hipótese nula de que os dados são de uma população normalmente distribuída). Como a maioria dos testes de significância estatística , se o tamanho da amostra for suficientemente grande, esse teste poderá detectar desvios triviais da hipótese nula (ou seja, embora possa haver algum efeito estatisticamente significativo , pode ser muito pequeno para ter algum significado prático); portanto, uma investigação adicional do tamanho do efeito é geralmente aconselhável, por exemplo, um gráfico Q-Q nesse caso.(fonte Wikipedia)

Teste Qui Quadrado: Qui-Quadrado é um teste não-paramétrico, também muito utilizado na área biológica e de saúde. Quando se trabalha apenas com uma variável este teste vai investigar a existência ou não de diferença significativa entre suas frequência, no caso de duas variáveis ele procura a existência de alguma dependência entre elas.

Teste Multinomial: Um experimento multinomial é um experimento estatístico que possui as seguintes características: O experimento envolve uma ou mais tentativas. Cada estudo possui um número discreto de resultados possíveis. Em qualquer estudo, a probabilidade de um resultado específico ocorrer é constante. Todos os ensaios no experimento são independentes.

Teste Binomial: É um modelo probabilístico usado para dados discretos. É um dos modelos mais simples. Ele considera que um experimento tem dois possíveis resultados que podem ser chamados de sucesso e fracasso. Para cada um destes resultados existe uma probabilidade associada de forma que a soma destas sempre será igual a 1. O interesse neste modelo é descrever o comportamento probabilístico do número de sucessos em n repetições do experimento.

Teste G Test: O teste G é uma alternativa ao ✘2 e está baseado na distribuição multinominal de probabilidades. Seu cálculo é baseado na relação entre os valores observados e esperado.

Teste de Fisher: Tanto o teste do ✘2 de Pearson quanto o G são teste assimptóticos, ou seja aproximam-se da distribuição do ✘2 para amostras grandes. De fato, uma boa aproximação! Entretanto, Fisher desenvolveu um teste para o cálculo exato do valore de p, desde que os totais marginais da tabela de contingência sejam definidos a priori. Quando ambos totais marginais, de colunas e linhas, são fixos, o cálculo do valor de p exato é conceitualmente simples mas computacionalmente intensivo. A valor exato é a probabilidade de obter o valor observado ou valores extremos ao valore esperado, ao acaso, dado os totais marginais fixados.

Marcio Vidal

Gestão de TI | Tecnologia da Informação | Telecomunicações | Projetos | Agilidade | Transformação Digital

4 a

é possível fazer bem o curso, mesmo não sendo desenvolvedor?

Entre para ver ou adicionar um comentário

Outros artigos de MARCUS MIRANDA Msc.

Outras pessoas também visualizaram

Conferir tópicos