Friday 24 November 2017

How To Do Cross Tabulation In Stata Forex


Bem-vindo ao Instituto de Pesquisa Digital e Educação Stata FAQ Como você pode obter tabulação cruzada de 3 vias, 4 vias, 5 vias ou mais em Stata O comando tabulate é ótimo para tabulações cruzadas bidirecionais. Mas como você faz 3-way, 4-way, 5-way de mais tabulações cruzadas A resposta é usar o comando de tabela com a opção de conteúdo (freq). Aqui está a forma geral do comando table. Antes de começar, vamos carregar o dataset e criar uma variável categórica adicional, readlevel. Começamos por olhar para todas as tabelas de 1 sentido para as nossas variáveis ​​categóricas. Em seguida a tabela de 2 vias. Agora a tabela de 3 vias. Seguido por uma tabela de 4 vias. Finalmente uma tabela de 5 vias. 5-way tabelas não são o limite. Você pode adicionar mais níveis. Deixamos como um exercício para encontrar o número máximo de variáveis ​​permitidas. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Learning Module Um sampler estatístico em Stata Versão info: O código para esta página foi testado no Stata 12. Este módulo dará uma breve visão geral de alguns testes estatísticos comuns no Stata. Permite usar o arquivo de dados automático que usaremos para nossos exemplos. T-testes Vamos fazer um t-teste comparando as milhas por galão (mpg) de carros estrangeiros e nacionais. Como você vê na saída acima, os carros domésticos tinham significativamente menor mpg (19,8) do que os carros estrangeiros (24,7). Qui-quadrado Permite comparar a classificação reparação (rep78) dos carros nacionais e estrangeiros. Podemos fazer uma crosstab de rep78 por estrangeiros. Podemos querer perguntar se essas variáveis ​​são independentes. Podemos usar a opção chi2 para solicitar um teste qui-quadrado de independência, bem como o crosstab. O qui-quadrado não é realmente válido quando você tem células vazias. Em tais casos, quando você tem células vazias, ou células com pequenas freqüências, você pode solicitar Fishers teste exato com a opção exata. Correlação Podemos usar o comando correlate para obter as correlações entre as variáveis. Vamos olhar para as correlações entre o preço mpg peso e rep78. (Usamos rep78 na correlação mesmo que não seja contínua para ilustrar o que acontece quando você usa correlacionar com variáveis ​​com dados ausentes.) Note que a saída acima disse (obs69). O comando correlate descarta dados em uma base listwise, significando que se alguma das variáveis ​​estiver faltando, então a observação inteira é omitida da análise de correlação. Podemos usar pwcorr (correlações pairwise) se quisermos obter correlações que elimina os dados em falta em uma base pairwise em vez de uma base listwise. Usaremos a opção obs para mostrar o número de observações usadas para calcular cada correlação. Observe como as correlações que envolvem rep78 têm um N de 69 em comparação com as outras correlações que têm um N de 74. Isso ocorre porque rep78 tem cinco valores em falta, portanto, ele tinha apenas 69 observações válidas, mas as outras variáveis ​​não tinham dados faltantes assim Eles tiveram 74 observações válidas. Regressão Vamos olhar para fazer análise de regressão no Stata. Para este exemplo, vamos deixar cair os casos em que rep78 é 1 ou 2 ou ausente. Agora, vamos prever mpg de preço e peso. Como você vê abaixo, o peso é um preditor significativo de mpg. Mas o preço não é. E se nós quisemos prever mpg de rep78 também. Rep78 é realmente mais de uma variável categórica do que uma variável contínua. Para incluí-lo na regressão, devemos converter rep78 em variáveis ​​dummy. Felizmente, Stata torna as variáveis ​​dummy facilmente usando tabulate. A opção gen (rep) diz a Stata que queremos gerar variáveis ​​dummy de rep78 e queremos que a haste das variáveis ​​dummy seja rep. Stata criou rep1 (1 se rep78 é 3), rep2 (1 se rep78 é 4) e rep3 (1 se rep78 é 5). Podemos usar o comando tabulate para verificar se as variáveis ​​dummy foram criadas corretamente. Agora podemos incluir rep1 e rep2 como variáveis ​​dummy no modelo de regressão. Análise de variância Se você quisesse fazer uma análise de variância olhando as diferenças em mpg entre os três grupos de reparo, você pode usar o comando oneway para fazer isso. Se você incluir a opção tabulate, você obtém mpg média para os três grupos, o que mostra que o grupo com a melhor classificação de reparo (rep78 de 5) também tem o mpg mais alto (27,3). Se você quiser incluir covariados, você precisará usar o comando anova. A opção contínua (preço do peso) diz a Stata que essas variáveis ​​são covariáveis. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Estatísticas somáticas em Stata Depois de ter um conjunto de dados pronto para analisar1. O primeiro passo de qualquer bom projeto empírico deve ser criar estatísticas sumárias. As estatísticas de resumo são uma maneira de explorar seu conjunto de dados, encontrar padrões e talvez até mesmo refinar sua pergunta de interesse. Neste workshop, você aprenderá a usar o Stata para criar estatísticas básicas de resumo, tabelas cruzadas e tabelas cada vez mais ricas de estatísticas resumidas. Este workshop foi concebido para ensinar-lhe sintaxe, em vez de apontar e clicar comandos. A principal vantagem de escrever um arquivo do é que você sempre pode reutilizar a maior parte dele em projetos diferentes, com apenas alguns ajustes se você usar comandos Stata por ponto e clique, você será condenado a começar do zero toda vez. Usaremos um conjunto de dados do inquérito à saúde da comunidade canadiana (ESCC). Você pode encontrá-lo no caminho de inserção de pasta aqui, o conjunto de dados é U: STAFFJLStatasummarystatsprojectsummstats. dta, um subconjunto de CCHS eu criei e limpei um pouco (recode para fazer binário 0-1). Antes de começar, vamos olhar para a descrição de cada variável2: Uma tabulação simples deve ser sempre a sua primeira facada em seus dados. O comando tabulate retorna uma freqüência e tabela de distribuição cumulativa no visualizador Stata. Vamos dizer que você quer saber a proporção de entrevistado na amostra que já teve uma vacina contra gripe: Note que você pode combinar o comando tabulate com o prefixo by (ou bysort) para olhar para a tabulação de subgrupos em seu conjunto de dados. O prefixo bysort é uma combinação de por e classificar você poderia equivalentemente dividi-lo em dois comandos, mas geralmente é mais simples de usar bysort Stata primeiro classificar os dados e, em seguida, retornar as informações por categoria. Por exemplo, aqui vamos ver se os padrões de vacinas contra a gripe parecem diferentes para cada província: Se você está interessado em apenas um subgrupo, você também pode usar o qualificador if com o comando tabulate. Aqui, vamos dizer que queremos saber a freqüência de vacinas contra a gripe na amostra de Ontário: Finalmente, você pode usar o comando tabulate para fazer uma tabulação cruzada simples usando variáveis ​​categóricas. Digamos que você quer saber quantas das mulheres na amostra fumou mais de 100 cigarros em sua vida: Uma vez que você tenha tabulado seus dados, você pode começar a olhar para estatísticas de resumo diferente da freqüência. O comando resumo retorna média, desvio padrão, mínimo, máximo e freqüência. O exemplo é construído da mesma forma que o exemplo de tabulação foi. Primeiro olhamos para as estatísticas de resumo de toda a amostra, e depois olhamos para as estatísticas de subamostras (cada província). Usando o qualificador if retorna as estatísticas de resumo de um subgrupo específico. Nestes exemplos, nós nos concentramos na divisão da amostra por província, mas qualquer variável categórica pode ser usada. Em exemplos subseqüentes, veremos homens e mulheres, fumantes e não-fumantes, fisicamente ativos ou não. A forma como você olha para os seus dados depende do tipo de perguntas que você quer fazer o mais claro a sua pergunta, mais específica a sua análise pode ser. Essa combinação de comandos permite que você crie tabelas de estatísticas resumidas de sentido único e bidirecional simples no Stata. A primeira parte do comando (tabulate) dividirá seus dados de acordo com uma variável categórica (aqui usaremos sexo). A segunda parte dará estatísticas resumidas para outra variável (preferencialmente quantitativa). Vamos dizer que você quer saber como (se) homens e mulheres diferem no seu consumo diário de frutas e legumes: Esta tabela nos dará a média, o desvio padrão ea freqüência do consumo diário de frutas e legumes para homens e mulheres na amostra : Se você quer saber se homens e mulheres de diferentes províncias têm padrões diferentes em seu consumo diário médio de frutas e legumes, você pode usar o comando bysort novamente para fazer a mesma consulta província por província: Note que você também pode usar o if Qualificador aqui (como fizemos no tabular e resumir comandos) para olhar, digamos, uma província only3. Você também pode usar o comando tabulate, summarize () para criar uma tabela rápida de estatísticas resumidas de quatro vias. Por exemplo, se você quisesse olhar para os padrões de consumo diário de frutas e vegetais para homens e mulheres com hábitos tabágicos diferentes, você poderia criar uma tabela para isso: O resultado parece mostrar um certo padrão: os fumantes parecem comer menos frutas e Vegetais do que os não-fumantes, e as mulheres parecem comer mais frutas e vegetais do que os homens, em média4. O comando tabstat exibe estatísticas de resumo de uma série de variáveis ​​numéricas em uma tabela, possivelmente discriminada por (condicionada por) outra variável. Sem a opção by (), tabstat é uma alternativa útil para resumir porque permite especificar a lista de estatísticas a serem exibidas. Com a opção by (), o tabstat se assemelha ao tabulate usado com sua opção summarize () em que ambas as estatísticas do relatório varlist para os diferentes valores de varname. O comando tabstat permite mais flexibilidade em termos das estatísticas apresentadas e do formato da tabela. A primeira linha retornará as estatísticas (média, desvio padrão e freqüência) para 4 variáveis ​​(HWTGHTM HWTGWTK HWTGBMI PACFD) para toda a amostra. A janela de resultado se parece com a seguinte: A segunda linha diz Stata para fazer o mesmo, mas para dividir a amostra entre macho e fêmea. Este é o resultado: Observe como nós também obter o total, por isso, se você estiver interessado nas amostras de divisão eo total, não há necessidade de fazer ambos separadamente. Finalmente, a terceira linha de comando, com o prefixo bysort, fará o mesmo turno para cada província, e dividirá cada sub-amostra em macho e fêmea. Os resultados estão no mesmo formato, no entanto isso retorna subamostra (isto é, provincial) total para homens e mulheres combinados, mas não o total geral para todas as províncias: Note que você escolhe as estatísticas que são relatadas na tabela. As estatísticas disponíveis estão listadas na ajuda tabstat: O comando table calcula e exibe tabelas de estatísticas. Assim como no tabstat, você pode escolher as estatísticas que deseja reportar, mas também escolher a variável para a qual deseja que as estatísticas sejam relatadas, bem como as variáveis ​​que você deseja que as informações sejam cruzadas. A estrutura da sintaxe é simples, mas tem um olhar mais atento: Isso fará com que uma tabela com PACFD como a variável de linha (mas somente se o valor para PACFD não for. d5), DHHSEX como a variável superrow eo conteúdo de cada célula Será média, desvio padrão e freqüência da variável FVCDTOT: Podemos fazer melhor Sim, nós podemos. Até quatro variáveis ​​podem ser especificadas no by (), assim com as três linhas, coluna e supercolumn variáveis, tabelas de sete vias podem ser exibidas. Nós não estaremos fazendo uma tabela de sete vias hoje, mas vamos olhar para uma tabela de quatro vias com superrow (uma tabela de cinco vias, se youd gosta): A sintaxe é o mesmo, só parece mais complicado. Tabela rowvar colvar supercolvar se em peso, options6 No nosso exemplo, a variável de linha é novamente PACDFD, a variável de coluna é SMK01B. Estamos usando o qualificador if para restringir a observação para o qual os valores das variáveis ​​de linha e coluna é 0 ou 1, o conteúdo das células é novamente média, desvio padrão e freqüência da variável FVCDTOT, e temos DHHSEX como um Superrow variável. A maneira de ler esta tabela é simples: um entrevistado que não se envolve em mais de 15 minutos de atividade diária e nunca fumou um cigarro inteiro come em média 5.1 unidades de frutas e legumes diariamente. Agora, um final flourish Uma tabela de quatro vias com supercolumn e superrow Aqui está o comando: tabela PACFD SMK01B FLU160 se ((PACFD. d) amp (SMK01B0SMK01B1) amp (FLU1600FLU1601)), c (média FVCDTOT sd FVCDTOT n FVCDTOT) por (DHHSEX) Agora, você pode se perguntar, eu realmente preciso fazer tudo isso apenas para olhar para estatísticas de resumo A resposta variará com base no seu nível de sofisticação, sua pergunta de pesquisa ou sua agenda de pesquisa de supervisor Para alguns, tabule E talvez tabulate, resume () será mais do que suficiente. Para outros, tabstat e tabela podem ser ferramentas muito úteis. Encorajamos você a jogar com dados e a obter um conhecimento profundo de seu conjunto de dados antes de realizar uma análise estatística mais formal. Há muitas fontes interenet boas para leituras suplementares na criação de estatísticas de resumo no Stata. Seja específico quando você insere uma consulta em um mecanismo de pesquisa e você deve encontrar muito conselho escrito pelo usuário. 1 Consulte as guias para obter dados de ltodesigt, limpeza de dados no Stata 2 Você notará alguns comandos administrativos antes do comando describe (aqui abreviado para des) 3 A sintaxe seria simplesmente: tab DHHSEX se GEOGPRV35, sum (FVCDTOT) 4 We cant Extrair inferência de olhar para os meios que seria necessário para testar se ou não qualquer destes meios é estatisticamente diferente dos outros. No entanto, olhar para estas estatísticas de resumo é um bom começo investigar padrões nos dados. 5 Neste conjunto de dados. D é um código de dados em falta 6 Escreva a tabela de ajuda na janela de comandos do Stata para uma apresentação detalhada dos recursos deste comando.

No comments:

Post a Comment