Sunday 3 November 2019

Winsorizing dados em stata forex


Winsorized Mean DEFINITION of Winsorized Mean Um método de média que inicialmente substitui os menores e maiores valores com as observações mais próximas a eles. Depois de substituir os valores, uma fórmula aritmética média é usada para calcular a média winsorized. Os meios winsorizados são expressos de duas maneiras. A késima média winsorizada refere-se à substituição das k observações menores e maiores, onde k é um inteiro. Uma média X winsorized envolve a substituição de uma determinada percentagem de valores de ambas as extremidades dos dados. BREAKING DOWN Winsorized Mean A média winsorized é menos sensível aos outliers porque os substitui por valores menos influentes. Este método de obtenção de média é semelhante à média recortada no entanto, em vez de eliminar dados, as observações são alteradas, permitindo um certo grau de influência. Vamos calcular a primeira média winsorizada para o conjunto de dados a seguir: 1, 5, 7, 8, 9, 10, 14. Como a média winsorized está na primeira ordem, substituímos os valores menores e maiores pelas suas observações mais próximas. O conjunto de dados aparece agora como segue: 5, 5, 7, 8, 9, 10, 10. Tomando uma média aritmética do novo conjunto produz uma média winsorized de 7,71 ((557891010) / 7). Análise de regressão O objetivo da regressão Análise é descrever a relação entre duas variáveis ​​com base em dados observados e prever o valor da variável dependente com base no valor da variável independente. Mesmo que possamos fazer tais previsões, isso não implica que possamos reivindicar qualquer relação causal entre as variáveis ​​independentes e dependentes. Definição 1. Se y é uma variável dependente e x é uma variável independente, então o modelo de regressão linear fornece uma previsão de y de x da forma em que x é a porção determinística do modelo e é o erro aleatório. Admitimos ainda que para qualquer valor dado de x o erro aleatório é normalmente e independentemente distribuído com média zero. Observação. Na prática, construiremos o modelo de regressão linear a partir dos dados da amostra usando o método dos mínimos quadrados. Assim, buscamos coeficientes a e b tais que para os dados em nossa amostra teremos onde i é o valor de y predito pelo modelo em x i. Assim, o termo de erro para o modelo é dado pelo Exemplo 1. Para cada valor de x nos dados de amostra do Exemplo 1 de Teste de Hipótese de Amostra para Correlação. Encontre o valor previsto correspondente a x. Isto é, o valor de y na linha de regressão correspondente a x. Também encontrar a expectativa de vida prevista de homens que fumam 4, 24 e 44 cigarros com base no modelo de regressão. Figura 1 Obtenção dos valores previstos para os dados no Exemplo 1 Os valores previstos podem ser obtidos utilizando o facto de que para qualquer i. O ponto (x i. I) fica na linha de regressão e então i a bx i. Por exemplo. A célula K5 na Figura 1 contém a fórmula I5E4E5, em que I5 contém o primeiro valor x 5, E4 contém a inclinação b e E5 contém a intercepção y (referindo-se à planilha na Figura 1 do Método de Mínimos Quadrados). Em alternativa, este valor pode ser obtido utilizando a fórmula PREVISÃO (I5, J5: J19, I5: I19). De fato, os valores de y previstos podem ser obtidos, como uma única unidade, usando a fórmula de matriz TREND. Isso é feito destacando o intervalo K5: K19 e inserindo a fórmula de matriz TREND (J5: J19, I5: I19) seguida de pressionar Ctrl-Shft-Enter. Os valores previstos para x4, 24 e 44 podem ser obtidos de um modo semelhante utilizando qualquer um dos três métodos definidos acima. A segunda forma da fórmula TREND pode ser usada. Por exemplo. Para obter os valores previstos de 4, 24 e 44 (armazenados em N19: N21), destaque gama O19: O21, introduza a fórmula de matriz TREND (N19: N21, J5: J19, I5: I19) e prima Ctrl-Shft - Entrar. Observe que essas abordagens produzem valores previstos mesmo para valores de x que não estão na amostra (como 24 e 44). A expectativa de vida prevista para os homens que fumam 4, 24 e 44 cigarros é de 83,2, 70,6 e 58,1 anos, respectivamente. Definição 2. Usamos a seguinte terminologia: O Residual é o termo de erro da Definição 1. Também definimos os graus de liberdade df T. Df Reg. Df Res. A soma dos quadrados SS T. SS Reg. SS Res e os quadrados médios MS T. MS Reg. MS Re s como se segue: Observação. SS T é a variabilidade total de y (por exemplo, a variabilidade da esperança de vida no Exemplo 1 de Teste de Hipótese de Amostra para Correlação). SS Reg representa a variabilidade de y que pode ser explicada pelo modelo de regressão (isto é, a variabilidade na expectativa de vida que pode ser explicada pelo número de cigarros fumados) e, portanto, pela Propriedade 1, SS Res expressa a variabilidade de y que não pode ser Explicado pelo modelo de regressão. Assim SS Reg / SS T representa a porcentagem da variabilidade de y que pode ser explicada pelo modelo de regressão. Acontece que este é igual ao coeficiente de determinação. Observação: Observe que para um tamanho de amostra de 100, um coeficiente de correlação tão baixo quanto .197 resultará na hipótese nula de que o coeficiente de correlação populacional é 0 sendo rejeitado (pelo Teorema 1 de Um Teste de Hipótese de Amostra para Correlação). Mas quando o coeficiente de correlação r .197, então r 2 .039, o que significa que a variância do modelo SS Reg é menor que 4 da variância total SS T que é uma associação bastante pequena. Considerando que este efeito é significativo, certamente não é muito grande. Observação. A partir da propriedade 2, vemos que o coeficiente de determinação r 2 é uma medida da precisão da predicação do modelo de regressão linear. R 2 tem um valor entre 0 e 1, com 1 indicando um ajuste perfeito entre o modelo de regressão linear e os dados. Definição 3. O erro padrão da estimativa é definido como Observação. A segunda asserção na Propriedade 4 pode ser reformulada como Para amostras grandes 1 e assim Note que se r .5, então o que indica que o erro padrão da estimativa é ainda 86.6 do erro padrão que não fator em qualquer informação sobre x ou seja, tendo Informações sobre x somente reduzem o erro em 13,4. Mesmo se r .9, então s y. x .436s y. Que indica que a informação sobre x reduz o erro padrão (sem informação sobre x) apenas por um pouco mais de 50. a) As somas dos valores de y são iguais à soma dos valores ie b) A média dos valores de y e O valor de correlação de y com é o valor absoluto do coeficiente de correlação de x com y ie f) O coeficiente de determinação de y com É o mesmo que o coeficiente de correlação de x com y ie Observação. Clique aqui para as provas das várias propriedades descritas acima. Amanda Steele diz: Gostaria de receber alguma orientação - Estou ajudando com um estudo destinado a avaliar se uma pontuação pré-operatória em uma certa escala (pontuações contínuas de 1-100) pode prever resultados pós-operatórios (também pontuado em escalas contínuas de 1-100) . Isso parece uma situação de regressão bastante direta para mim, mas usando o pacote realstats parece-me estar em problemas, pois tenho uma variável independente (pontuação pré-operatória) e múltiplas variáveis ​​dependentes (pontuação pós-operatória). Você pode sugerir uma estratégia de análise Amanda, Você pode múltiplas regressões, uma para cada variável dependente. Isto deve ser suficiente se houver pouca correlação entre as variáveis ​​dependentes. Alternativamente, você pode usar a regressão linear múltipla multivariada. A saída inicial é idêntica à de regressões múltiplas separadas, mas análises adicionais são realizadas. O Real Statistics Resource Pack doesn8217t apoiar esta segunda etapa ainda. Charles Caro Charles, Tenho uma amostra de 30 para medir os fatores que restringem a adoção da tecnologia. Estou pensando em executar análise de regressão para taxa de adoção (se for mais de 50 considerados como 1 e menos de 50 é 0, tendo 50 por cento de adoção como limite). Para medir os fatores constrangedores. Eu usei a escala de likert de 5 pontos. (Altamente significativo a menos significativo) e já extraíram variáveis ​​importantes usando a análise de componentes principais. Agora, que tipo de análise de regressão devo usar para medir a importância relativa de cada um dos fatores. Linear ou múltiplo. Quando você diz 8220multiple8221 eu suponho que você quer dizer 8220 regressão linear múltipla8221, o que significa apenas que você tem mais de uma variável independente. Quando você tem apenas uma variável independente muitas vezes o termo regressão linear 8222 ou 8220 simples regressão linear 8221 é usado. Uma vez que você diz que tem múltiplos fatores, muitas vezes você usaria a regressão linear múltipla. Uma vez que seu resultado (variável dependente) pode ser visto como dicotômico (0 ou 1), você pode achar que a regressão logística dá um melhor ajuste para os dados. Você pode comparar valores AIC para isso.

No comments:

Post a Comment