Potência estatística

A potência estatística de um teste de hipóteses binário é a probabilidade de que o teste rejeite corretamente a hipótese nula ( $H_{0}$ ) quando uma hipótese alternativa ( $H_{1}$ ) é verdadeira. A potência estatística vai de 0 a 1. Conforme a potência estatística aumenta, a probabilidade de cometer um erro (especificamente um erro de tipo II) diminui, sendo o erro de tipo II $\beta$ e a potência estatística $1-\beta$ . Por exemplo, se um experimento 1 tem potência estatística igual a 0,7 e um experimento 2 tem potência estatística igual a 0,95, então, há uma probabilidade maior de que o experimento 1 tenha um erro de tipo II do que o experimento 2, sendo o experimento 2 mais confiável do que experimento 1 devido à redução da probabilidade de um erro de tipo II. Pode ser equivalentemente pensada com a probabilidade de aceitar a hipótese alternativa ( $H_{1}$ ) quando ela é verdadeira — isto é, a habilidade que um teste tem de detectar um efeito específico, quando o efeito específico realmente existe, ou seja:

$pot{\hat {e}}ncia=\Pr {\big (}rejeitar\ H_{0}|H_{1}\ {\acute {e}}\ verdadeira{\big )}.$

Se $H_{1}$ não for uma igualdade, mas, em vez disto, simplesmente a negação de $H_{0}$ (por exemplo, com $H_{0}:\mu =0$ para algum parâmetro de população não observado $\mu$ , temos simplesmente $H_{1}:\mu \neq 0$ ), a potência não pode ser calculada a não ser que as probabilidades sejam conhecidas para todos os valores possíveis do parâmetro que violam a hipótese nula. Assim, neste caso, geralmente se fala da potência de um teste contra uma hipótese alternativa específica.

Conforme a potência aumenta, há uma probabilidade decrescente de um erro de tipo II (falso negativo), também chamada de taxa de falso negativo ( $\beta$ ), já que a potência é igual a $1-\beta$ . Um conceito similar é a probabilidade de erro de tipo I, também chamada de taxa de falso positivo ou nível de um teste sob a hipótese nula.

A análise de potência pode ser usada para calcular o tamanho de amostra mínimo exigido de modo que alguém tenha uma probabilidade razoável de detectar um efeito de um dado tamanho. Por exemplo, "quantas vezes devo jogar uma moeda para concluir que ela é manipulada por um certo montante?".^[1] A análise de potência também pode ser usada para calcular o tamanho de efeito mínimo que será provavelmente detectado em um estudo que usa uma amostra de um dado tamanho. Além disto, o conceito de potência é usado para fazer comparações entre diferentes procedimentos de testes estatísticos, por exemplo, entre um teste paramétrico e um teste não paramétrico da mesma hipótese.

Um conceito semelhante, mas de certa forma diferente é a sensibilidade estatística, que mede a probabilidade de um dado teste oferecer o resultado correto, por exemplo, a probabilidade que um teste para determinar se um paciente tem uma doença particular tem de reconhecer corretamente a doença.

Plano de fundo

Testes estatísticos usam dados de amostras para avaliar ou fazer inferências sobre uma população estatística. Na configuração concreta de uma comparação entre duas amostras, o objetivo é avaliar se os valores médios de algum atributo obtidos para indivíduos nas duas subpopulações diferem entre si. Por exemplo, para testar a hipótese nula de que as pontuações médias de homens e mulheres em um exame não diferem entre si, retiram-se amostras de homens e mulheres, aplica-se o exame e a pontuação média de um grupo é comparada àquela do outro grupo usando um teste estatístico, tal como o teste Z biamostral. A potência do teste é a probabilidade de que o teste encontre um diferença estatisticamente significante entre homens e mulheres, como uma função do tamanho da diferença verdadeira entre aquelas duas populações.^[2]

Fatores que influenciam a potência

A potência estatística pode depender de um número de fatores. Alguns fatores podem ser específicos de uma situação de teste particular, mas, pelo menos, a potência quase sempre depende dos seguintes três fatores:

O critério de significância estatística usado no teste;
A magnitude do efeito de interesse na população;
O tamanho da amostra usada para detectar o efeito.

Um critério de significância é uma afirmação de quão improvável um resultado positivo deve ser, se a hipótese nula de nenhum efeito for verdadeira, para que a hipótese nula seja rejeitada. Os critérios mais comumente usados são probabilidades de 0,05 (5% ou 1 em 20), 0,01 (1% ou 1 em 100) e 0,001 (0,1% ou 1 em 1.000). Se o critério for igual a 0,05, a probabilidade de que os dados impliquem um efeito no mínimo tão grande quanto o efeito observado quando a hipótese nula é verdadeira deve ser menor do que 0,05 para que a hipótese nula ou de nenhum efeito seja rejeitada. Uma maneira fácil de aumentar a potência de um teste pode ser conduzir um teste menos conservador, usando um critério de significância maior, por exemplo, 0,10 em vez de 0,05. Isto aumenta a chance de rejeição da hipótese nula (isto é, obtendo um resultado estatisticamente significante) quando a hipótese nula é falsa, ou seja, reduz o risco de um erro de tipo II (falso negativo ao dizer se um efeito existe). No entanto, também aumenta o risco de obter um resultado estatisticamente significante (isto é, rejeitando a hipótese nula) quando a hipótese nula não é falsa, ou seja, aumenta o risco de um erro de tipo I (falso positivo).

A magnitude do efeito de interesse na população pode ser quantificada nos termos de um tamanho de efeito, em que há maior potência para detectar efeitos maiores. Um tamanho de efeito pode ser um valor direto da quantidade de interesse ou pode ser uma medida padronizada que também responde pela variabilidade na população. Por exemplo, em uma análise que compara os valores observadores entre uma população tratada e uma população de controle, a diferença entre as médias dos valores observadores ${\bar {Y}}-{\bar {X}}$ seria uma estimativa direta do tamanho de efeito, enquanto $({\bar {Y}}-{\bar {X}})/\sigma$ , em que $\sigma$ é o desvio padrão comum dos resultados nos grupos tratados e de controle, seria um estimativa padronizada do tamanho de defeito. Se construído apropriadamente, um tamanho de efeito padronizado, junto com o tamanho da amostra, determinará completamente a potência. Um tamanho de efeito não padronizado (direto) raramente será suficiente para determinar a potência, já que não contém informação sobre a variabilidade nas medições.

O tamanho da amostra determina a quantidade de erro de amostragem inerente ao resultado de um teste. Com as outras coisas sendo iguais, é mais difícil detectar efeitos em amostras menores. Aumentar o tamanho da amostra é frequentemente a maneira mais fácil de aumentar a potência estatística de um teste. A intensidade com que um aumento no tamanho da amostra se traduz em maior potência é uma medida da eficiência do teste — por exemplo, o tamanho de amostra exigida para uma dada potência.^[3]

A precisão com que os dados são medidos também influencia a potência estatística. Consequentemente, a potência pode ser frequentemente aumentada ao reduzir o erro de medida nos dados. Um conceito relacionado diz respeito a melhorar a "confiabilidade" da medida avaliada.

O desenho de um experimento ou de um estudo de observação frequentemente influencia a potência. Por exemplo, em uma situação de teste biamostral com um dado tamanho de amostra total $n$ , é ótimo ter números iguais de observações a partir das duas populações comparadas (desde que as variâncias nas duas populações sejam as mesmas). Na análise de regressão e na análise de variância, há teorias extensivas e estratégias práticas para aumentar a potência baseadas em configurar otimamente os valores das variáveis independentes no modelo.

Interpretação

Ainda que não haja padrões formais para potência (às vezes referida como $\pi$ ), a maioria dos pesquisadores avalia a potência de seus testes usando $\pi =0,80$ como um padrão para adequação. Esta convenção implica um tradeoff de quatro a um entre risco $\beta$ e risco $\alpha$ ( $\beta$ é a probabilidade de um erro de tipo II e $\alpha$ é a probabilidade de um erro de tipo I, sendo 0,2 e 0,05 valores convencionais para $\beta$ e $\alpha$ ). Entretanto, há momentos em que esta ponderação 4 a 1 será inapropriada. Em medicina, por exemplo, testes são frequentemente desenhados de modo que nenhum falso negativo (erro de tipo II) seja produzido. Mas isto inevitavelmente aumenta o risco de se obter um falso positivo (erro de tipo I). O raciocínio por trás disto é que é melhor dizer a um paciente saudável "podemos ter encontrado algo — vamos fazer mais um teste" do que dizer a um paciente doente "está tudo bem".^[4]

A análise de potência é apropriada quando a preocupação é com a rejeição correta da hipótese nula falsa. Em muitos contextos, a questão é menos sobre determinar se há ou não há uma diferença e mais sobre obter uma estimativa mais refinada do tamanho de efeito da população. Por exemplo, se estivermos esperando uma correlação de população entre inteligência e desempenho no trabalho de aproximadamente 0,50, um tamanho de amostra igual a 20 nos dará uma potência igual a aproximadamente 80% ( $\alpha =0,05$ , bicaudal) para rejeitar a hipótese nula de correlação zero. Entretanto, ao fazer este estudo, estamos provavelmente mais interessados em saber se a correlação é igual a 0,30; 0,60 ou 0,50. Neste contexto, precisaríamos de um tamanho de amostra muito maior a fim de reduzir o intervalo de confiança de nossa estimativa a um intervalo aceitável para nossos propósitos. Técnicas semelhantes àqueles empregadas em análise de potência tradicional podem ser usadas para determinar o tamanho da amostra exigido para que a amplitude do intervalo de confiança seja menor do que um dado valor.

Muitas análises estatísticas envolvem a estimação de várias quantidades desconhecidas. Em casos simples, todas estas quantidades exceto uma são parâmetros incômodos. Nesta configuração, a única potência relevante diz respeito à única quantidade que se submeterá à inferência estatística formal. Em algumas configurações, particularmente, se os objetivos forem mais "exploratórios", pode haver uma série de quantidades de interesse na análise. Por exemplo, em uma análise de regressão múltipla, podemos incluir várias covariáveis de interesse potencial. Em situações tal como esta em que várias hipóteses estão sob consideração, é comum que as potências associadas com diferentes hipóteses difiram entre si. Por exemplo, em um análise de regressão múltipla, a potência de detectar um efeito de um dado tamanho está relacionada com a variância da covariável. Já que diferentes covariáveis terão diferentes variâncias, suas potências diferirão da mesma forma.

Qualquer análise estatística envolvendo múltiplas hipóteses está sujeita à inflação da taxa de erro de tipo I se medidas apropriadas não forem tomadas. Tais medidas tipicamente envolvem aplicar um limiar mais elevado de estringência para rejeitar uma hipótese a fim de compensar para as múltiplas comparações sendo feitas (por exemplo, como no método de Bonferroni). Nesta situação, a análise de potência deve refletir a abordagem de múltiplos testes a ser usada. Assim, por exemplo, um dado estudo pode ter uma boa potência para detectar um certo tamanho de efeito quando apenas um teste é feito, mas o mesmo tamanho de efeito pode ter uma potência muito menor se vários testes forem realizados.

Também é importante considerar a potência estatística de um teste de hipóteses quando se interpretam seus resultados. A potência de um teste é a probabilidade de rejeitar corretamente a hipótese nula quando ela é falsa. A potência de um teste é influenciada pela escolha do nível de significância para o teste, o tamanho do efeito sendo medido e a quantidade de dados disponível. Um teste de hipóteses pode falhar em rejeitar a hipótese nula, por exemplo, se uma diferença verdadeira existe entre duas populações comparadas entre si por um teste t, mas o efeito é reduzido e o tamanho da amostra é pequeno demais para que distinga o efeito de uma probabilidade aleatória.^[4] Muitos ensaios clínicos, por exemplo, têm baixa potência estatística para detectar diferenças em efeitos adversos dos tratamentos, já que tais efeitos podem ser raros e o número de pacientes afetados pequeno.^[5]

Análise a priori versus análise post hoc

A análise de potência pode ser feita tanto antes (análise de potência a priori ou prospectiva) como depois (análise de potência post hoc ou retrospectiva) que os dados foram coletados. A análise de potência a priori é considerada antes do estudo da pesquisa e é tipicamente usada na estimação de tamanhos de amostra suficientes para atingir potência adequada. A análise post hoc de "potência observada" é conduzida depois que o estudo foi concluído e usa o tamanho de amostra obtido e o tamanho de efeito para determina qual foi a potência no estudo, assumindo que o tamanho de efeito na amostra é igual ao tamanho de efeito na população. Enquanto a utilidade da análise de potência prospectiva no desenho de experimentos é universalmente aceita, a análise de potência post hoc é fundamentalmente falha.^[6] Cair na tentação de usar a análise estatística dos dados coletados para estimar a potência resultará em valores não informativos e enganadores. Em particular, tem-se mostrado que a "potência observada" post hoc é uma função um a um do valor-p obtido.^[6] Isto tem sido estendido para mostrar que toda análise de potência post hoc sofre do que se chama de "paradoxo da abordagem de potência" (PAP), em que se pensa que um estudo com resultado nulo mostra mais evidências de que a hipótese nula é verdadeira quando o valor-p é menor, já que a aparente potência de detectar um efeito real seria mais alta.^[6]^[7] De fato, entende-se adequadamente que um valor-p menor torna relativamente menos provável que a hipótese nula seja verdadeira.

Aplicação

Agências de financiamento, conselhos de ética e painéis de revisão de pesquisa frequentemente solicitam que o pesquisador realize uma análise de potência, por exemplo, para determinar o número mínimo de animais sujeitos a teste necessários para que um experimento seja informativo. Em estatística frequencista, é improvável que um estudo de potência baixa permita que se escolha entre hipóteses a um nível de significância desejado. Em estatística bayesiana, o teste de hipóteses do tipo usado em análise clássica de potência não é realizado. No quadro de trabalho bayesiano, atualizam-se os postulados a priori usando os dados obtidos em um dado estudo. A princípio, um estudo que seria considerado de potência baixa a partir da perspectiva do teste de hipóteses pode ainda ser usado em tal processo de atualização. Entretanto, a potência permanece uma medida útil da intensidade com que se pode esperar que um dado tamanho de experimento refine os postulados. É improvável que um estudo com baixa potência leve a uma grande mudança nos postulados.^[8]

Exemplo

O que se segue é um exemplo que mostra como computar a potência para um experimento aleatório. Suponha que o objetivo do experimento seja estudar o efeito de um tratamento sobre alguma quantidade e comparar os sujeitos de pesquisa ao medir a quantidade antes e depois do tratamento, analisando os dados usando um teste t pareado. Considere que $A_{i}$ e $B_{i}$ denotam respectivamente as medidas pré-tratamento e pós-tratamento do sujeito $i$ . O possível efeito do tratamento deve ser visível nas diferenças $D_{i}=B_{i}-A_{i}$ , assumidas como independentemente distribuídas, todas com o mesmo valor esperado e a mesma variância.

O efeito do tratamento pode ser analisado usando um teste t unilateral. A hipótese nula de nenhum efeito será que a diferença média é igual a zero, isto é, $H_{0}:\mu _{D}=0$ . Neste caso, a hipótese alternativa afirma um efeito positivo, correspondente a $H_{1}:\mu _{D}>0$ . A estatística do teste é:

$T_{n}={\frac {{\bar {D}}_{n}-0}{{\hat {\sigma }}_{D}/{\sqrt {n}}}},$

em que

${\bar {D}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}D_{i},$

sendo $n$ o tamanho da amostra e ${\hat {\sigma }}_{D}/{\sqrt {n}}$ o desvio padrão. A estatística do teste sob a hipótese nula segue uma distribuição t de Student. Além disso, assuma que a hipótese nula será rejeitada ao nível de significância $\alpha =0,05$ . Já que $n$ é grande, pode-se aproximar a distribuição t por uma distribuição normal e calcular o valor crítico usando a função quantil $\Phi ^{-1}$ , o inverso da função distribuição acumulada da distribuição normal. A hipótese nula será rejeitada se:

$T_{n}>1,64.$

Agora, suponha que a hipótese alternativa seja verdadeira e $\mu _{D}=\theta$ . Então, a potência é:

${\begin{aligned}B(\theta )&=\Pr \left(T_{n}>1,64\mid \mu _{D}=\theta \right)\\&=\Pr \left({\frac {{\bar {D}}_{n}-0}{{\hat {\sigma }}_{D}/{\sqrt {n}}}}>1,64\mid \mu _{D}=\theta \right)\\&=\Pr \left({\frac {{\bar {D}}_{n}-\theta +\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}>1,64\mid \mu _{D}=\theta \right)\\&=\Pr \left({\frac {{\bar {D}}_{n}-\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}>1,64-{\frac {\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}\mid \mu _{D}=\theta \right)\\&=1-\Pr \left({\frac {{\bar {D}}_{n}-\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}<1,64-{\frac {\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}\mid \mu _{D}=\theta \right).\\\end{aligned}}$

Para $n$ grande, $T_{n}$ segue aproximadamente uma distribuição normal padrão quando a hipótese alternativa é verdadeira e a potência aproximada pode ser calculada como:

$B(\theta )\approx 1-\Phi \left(1,64-{\frac {\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}\right).$

De acordo com esta fórmula, a potência aumenta com os valores do parâmetro $\theta$ . Para um valor específico de $\theta$ , uma potência maior pode ser obtida ao aumentar o tamanho da amostra $n$ .

Não é possível garantir uma potência grande o bastante para todos os valores de $\theta$ , já que $\theta$ pode estar muito próximo de 0. O valor mínimo (ínfimo) da potência é igual ao tamanho do teste $\alpha$ , neste exemplo, igual a 0,05. Entretanto, não é importante distinguir entre $\theta =0$ e pequenos valores positivos. Se for desejável ter potência suficiente, por exemplo, pelo menos 0,90 para detectar valores de $\theta >1$ , o tamanho de amostra exigido pode ser calculado aproximadamente:

$B(1)\approx 1-\Phi \left(1,64-{\frac {\sqrt {n}}{{\hat {\sigma }}_{D}}}\right)>0.90,$

a partir do que se segue que:

$\Phi \left(1,64-{\frac {\sqrt {n}}{{\hat {\sigma }}_{D}}}\right)<0,10.$

Assim, usando a função quantil,

${\frac {\sqrt {n}}{{\hat {\sigma }}_{D}}}>1,64-z_{0,10}=1,64+1,28\approx 2,92\qquad {\text{ou}}\qquad n>8,56{\hat {\sigma }}_{D}^{2},$

em que $z_{0,10}$ é um quantil normal padrão.^[8]

Extensão

Potência bayesiana

Na configuração frequencista, assume-se que os parâmetros têm um valor específico improvavelmente verdadeiro. Esta questão pode ser abordada assumindo que o parâmetro tem uma distribuição. A potência resultante é às vezes chamada de potência bayesiana, que é comummente usada no desenho de ensaios clínicos.^[9]

Probabilidade preditiva de sucesso

Tanto a potência frequencista, como a potência bayesiana usam a significância estatística como critério de sucesso. Entretanto, a significância estatística frequentemente não é suficiente para definir sucesso. Para abordar esta questão, o conceito de potência pode ser estendida para o conceito de probabilidade preditiva de sucesso. O critério de sucesso para a probabilidade preditiva de sucesso não se restringe à significância estatística e é comummente usado no desenho de ensaios clínicos.^[10]

Ver também

Referências

↑ «Statistical power and underpowered statistics — Statistics Done Wrong». www.statisticsdonewrong.com. Consultado em 9 de outubro de 2017
↑ 1923-1998., Cohen, Jacob, (1988). Statistical power analysis for the behavioral sciences 2nd ed. Hillsdale, N.J.: L. Erlbaum Associates. ISBN 0805802835. OCLC 17877467
↑ Brian., Everitt, (2002). The Cambridge Dictionary of Statistics 2nd ed. Cambridge, UK: Cambridge University Press. ISBN 052181099X. OCLC 559246178
↑ ^a ^b 1969-, Ellis, Paul D., (2010). The essential guide to effect sizes : statistical power, meta-analysis, and the interpretation of research results. Cambridge: Cambridge University Press. ISBN 9780521142465. OCLC 562766608
↑ Tsang, Ruth; Colley, Lindsey; Lynd, Larry D. «Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials». Journal of Clinical Epidemiology. 62 (6): 609–616. doi:10.1016/j.jclinepi.2008.08.005
↑ ^a ^b ^c Hoenig, John M.; Heisey, Dennis M. (1 de fevereiro de 2001). «The Abuse of Power». The American Statistician. 55 (1): 19–24. ISSN 0003-1305. doi:10.1198/000313001300339897
↑ Thomas, Len (17 de fevereiro de 1997). «Retrospective Power Analysis». Conservation Biology (em inglês). 11 (1): 276–280. ISSN 1523-1739. doi:10.1046/j.1523-1739.1997.96102.x
↑ ^a ^b L., Aberson, Christopher (2010). Applied power analysis for the behavioral sciences. New York: Routledge. ISBN 1848728352. OCLC 424554700
↑ Kruschke, John K. «What to believe: Bayesian methods for data analysis». Trends in Cognitive Sciences. 14 (7): 293–300. doi:10.1016/j.tics.2010.05.001
↑ Grieve, A. P.; Choi, S. C.; Pepple, P. A. (1991). «Predictive Probability in Clinical Trials». Biometrics. 47 (1): 323–330. doi:10.2307/2532518

[1] «Statistical power and underpowered statistics — Statistics Done Wrong». www.statisticsdonewrong.com. Consultado em 9 de outubro de 2017

[2] 1923-1998., Cohen, Jacob, (1988). Statistical power analysis for the behavioral sciences 2nd ed. Hillsdale, N.J.: L. Erlbaum Associates. ISBN 0805802835. OCLC 17877467

[3] Brian., Everitt, (2002). The Cambridge Dictionary of Statistics 2nd ed. Cambridge, UK: Cambridge University Press. ISBN 052181099X. OCLC 559246178

[:0-4] 1969-, Ellis, Paul D., (2010). The essential guide to effect sizes : statistical power, meta-analysis, and the interpretation of research results. Cambridge: Cambridge University Press. ISBN 9780521142465. OCLC 562766608

[5] Tsang, Ruth; Colley, Lindsey; Lynd, Larry D. «Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials». Journal of Clinical Epidemiology. 62 (6): 609–616. doi:10.1016/j.jclinepi.2008.08.005

[:1-6] Hoenig, John M.; Heisey, Dennis M. (1 de fevereiro de 2001). «The Abuse of Power». The American Statistician. 55 (1): 19–24. ISSN 0003-1305. doi:10.1198/000313001300339897

[7] Thomas, Len (17 de fevereiro de 1997). «Retrospective Power Analysis». Conservation Biology (em inglês). 11 (1): 276–280. ISSN 1523-1739. doi:10.1046/j.1523-1739.1997.96102.x

[:2-8] L., Aberson, Christopher (2010). Applied power analysis for the behavioral sciences. New York: Routledge. ISBN 1848728352. OCLC 424554700

[9] Kruschke, John K. «What to believe: Bayesian methods for data analysis». Trends in Cognitive Sciences. 14 (7): 293–300. doi:10.1016/j.tics.2010.05.001

[10] Grieve, A. P.; Choi, S. C.; Pepple, P. A. (1991). «Predictive Probability in Clinical Trials». Biometrics. 47 (1): 323–330. doi:10.2307/2532518

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]