Winsorized Mean DEFINITION of Winsorized Mean Um método de média que inicialmente substitui os menores e maiores valores com as observações mais próximas a eles. Depois de substituir os valores, uma fórmula aritmética média é usada para calcular a média winsorized. Os meios winsorizados são expressos de duas maneiras. A késima média winsorizada refere-se à substituição das k observações menores e maiores, onde k é um inteiro. Uma média X winsorized envolve a substituição de uma determinada percentagem de valores de ambas as extremidades dos dados. BREAKING DOWN Winsorized Mean A média winsorized é menos sensível aos outliers porque os substitui por valores menos influentes. Este método de obtenção de média é semelhante à média recortada no entanto, em vez de eliminar dados, as observações são alteradas, permitindo um certo grau de influência. Vamos calcular a primeira média winsorizada para o conjunto de dados a seguir: 1, 5, 7, 8, 9, 10, 14. Como a média winsorized está na primeira ordem, substituímos os valores menores e maiores pelas suas observações mais próximas. O conjunto de dados aparece agora como segue: 5, 5, 7, 8, 9, 10, 10. Tomando uma média aritmética do novo conjunto produz uma média winsorized de 7,71 ((557891010) / 7). Análise de regressão O objetivo da regressão Análise é descrever a relação entre duas variáveis com base em dados observados e prever o valor da variável dependente com base no valor da variável independente. Mesmo que possamos fazer tais previsões, isso não implica que possamos reivindicar qualquer relação causal entre as variáveis independentes e dependentes. Definição 1. Se y é uma variável dependente e x é uma variável independente, então o modelo de regressão linear fornece uma previsão de y de x da forma em que x é a porção determinística do modelo e é o erro aleatório. Admitimos ainda que para qualquer valor dado de x o erro aleatório é normalmente e independentemente distribuído com média zero. Observação. Na prática, construiremos o modelo de regressão linear a partir dos dados da amostra usando o método dos mínimos quadrados. Assim, buscamos coeficientes a e b tais que para os dados em nossa amostra teremos onde i é o valor de y predito pelo modelo em x i. Assim, o termo de erro para o modelo é dado pelo Exemplo 1. Para cada valor de x nos dados de amostra do Exemplo 1 de Teste de Hipótese de Amostra para Correlação. Encontre o valor previsto correspondente a x. Isto é, o valor de y na linha de regressão correspondente a x. Também encontrar a expectativa de vida prevista de homens que fumam 4, 24 e 44 cigarros com base no modelo de regressão. Figura 1 Obtenção dos valores previstos para os dados no Exemplo 1 Os valores previstos podem ser obtidos utilizando o facto de que para qualquer i. O ponto (x i. I) fica na linha de regressão e então i a bx i. Por exemplo. A célula K5 na Figura 1 contém a fórmula I5E4E5, em que I5 contém o primeiro valor x 5, E4 contém a inclinação b e E5 contém a intercepção y (referindo-se à planilha na Figura 1 do Método de Mínimos Quadrados). Em alternativa, este valor pode ser obtido utilizando a fórmula PREVISÃO (I5, J5: J19, I5: I19). De fato, os valores de y previstos podem ser obtidos, como uma única unidade, usando a fórmula de matriz TREND. Isso é feito destacando o intervalo K5: K19 e inserindo a fórmula de matriz TREND (J5: J19, I5: I19) seguida de pressionar Ctrl-Shft-Enter. Os valores previstos para x4, 24 e 44 podem ser obtidos de um modo semelhante utilizando qualquer um dos três métodos definidos acima. A segunda forma da fórmula TREND pode ser usada. Por exemplo. Para obter os valores previstos de 4, 24 e 44 (armazenados em N19: N21), destaque gama O19: O21, introduza a fórmula de matriz TREND (N19: N21, J5: J19, I5: I19) e prima Ctrl-Shft - Entrar. Observe que essas abordagens produzem valores previstos mesmo para valores de x que não estão na amostra (como 24 e 44). A expectativa de vida prevista para os homens que fumam 4, 24 e 44 cigarros é de 83,2, 70,6 e 58,1 anos, respectivamente. Definição 2. Usamos a seguinte terminologia: O Residual é o termo de erro da Definição 1. Também definimos os graus de liberdade df T. Df Reg. Df Res. A soma dos quadrados SS T. SS Reg. SS Res e os quadrados médios MS T. MS Reg. MS Re s como se segue: Observação. SS T é a variabilidade total de y (por exemplo, a variabilidade da esperança de vida no Exemplo 1 de Teste de Hipótese de Amostra para Correlação). SS Reg representa a variabilidade de y que pode ser explicada pelo modelo de regressão (isto é, a variabilidade na expectativa de vida que pode ser explicada pelo número de cigarros fumados) e, portanto, pela Propriedade 1, SS Res expressa a variabilidade de y que não pode ser Explicado pelo modelo de regressão. Assim SS Reg / SS T representa a porcentagem da variabilidade de y que pode ser explicada pelo modelo de regressão. Acontece que este é igual ao coeficiente de determinação. Observação: Observe que para um tamanho de amostra de 100, um coeficiente de correlação tão baixo quanto .197 resultará na hipótese nula de que o coeficiente de correlação populacional é 0 sendo rejeitado (pelo Teorema 1 de Um Teste de Hipótese de Amostra para Correlação). Mas quando o coeficiente de correlação r .197, então r 2 .039, o que significa que a variância do modelo SS Reg é menor que 4 da variância total SS T que é uma associação bastante pequena. Considerando que este efeito é significativo, certamente não é muito grande. Observação. A partir da propriedade 2, vemos que o coeficiente de determinação r 2 é uma medida da precisão da predicação do modelo de regressão linear. R 2 tem um valor entre 0 e 1, com 1 indicando um ajuste perfeito entre o modelo de regressão linear e os dados. Definição 3. O erro padrão da estimativa é definido como Observação. A segunda asserção na Propriedade 4 pode ser reformulada como Para amostras grandes 1 e assim Note que se r .5, então o que indica que o erro padrão da estimativa é ainda 86.6 do erro padrão que não fator em qualquer informação sobre x ou seja, tendo Informações sobre x somente reduzem o erro em 13,4. Mesmo se r .9, então s y. x .436s y. Que indica que a informação sobre x reduz o erro padrão (sem informação sobre x) apenas por um pouco mais de 50. a) As somas dos valores de y são iguais à soma dos valores ie b) A média dos valores de y e O valor de correlação de y com é o valor absoluto do coeficiente de correlação de x com y ie f) O coeficiente de determinação de y com É o mesmo que o coeficiente de correlação de x com y ie Observação. Clique aqui para as provas das várias propriedades descritas acima. Amanda Steele diz: Gostaria de receber alguma orientação - Estou ajudando com um estudo destinado a avaliar se uma pontuação pré-operatória em uma certa escala (pontuações contínuas de 1-100) pode prever resultados pós-operatórios (também pontuado em escalas contínuas de 1-100) . Isso parece uma situação de regressão bastante direta para mim, mas usando o pacote realstats parece-me estar em problemas, pois tenho uma variável independente (pontuação pré-operatória) e múltiplas variáveis dependentes (pontuação pós-operatória). Você pode sugerir uma estratégia de análise Amanda, Você pode múltiplas regressões, uma para cada variável dependente. Isto deve ser suficiente se houver pouca correlação entre as variáveis dependentes. Alternativamente, você pode usar a regressão linear múltipla multivariada. A saída inicial é idêntica à de regressões múltiplas separadas, mas análises adicionais são realizadas. O Real Statistics Resource Pack doesn8217t apoiar esta segunda etapa ainda. Charles Caro Charles, Tenho uma amostra de 30 para medir os fatores que restringem a adoção da tecnologia. Estou pensando em executar análise de regressão para taxa de adoção (se for mais de 50 considerados como 1 e menos de 50 é 0, tendo 50 por cento de adoção como limite). Para medir os fatores constrangedores. Eu usei a escala de likert de 5 pontos. (Altamente significativo a menos significativo) e já extraíram variáveis importantes usando a análise de componentes principais. Agora, que tipo de análise de regressão devo usar para medir a importância relativa de cada um dos fatores. Linear ou múltiplo. Quando você diz 8220multiple8221 eu suponho que você quer dizer 8220 regressão linear múltipla8221, o que significa apenas que você tem mais de uma variável independente. Quando você tem apenas uma variável independente muitas vezes o termo regressão linear 8222 ou 8220 simples regressão linear 8221 é usado. Uma vez que você diz que tem múltiplos fatores, muitas vezes você usaria a regressão linear múltipla. Uma vez que seu resultado (variável dependente) pode ser visto como dicotômico (0 ou 1), você pode achar que a regressão logística dá um melhor ajuste para os dados. Você pode comparar valores AIC para isso.
No comments:
Post a Comment