Bye Bye “Fortify” >> broom: let’s tidy up a bit #R

June 24, 2017 no comments Posted in Análise de Dados, R

[tradução Google Translated livremente adaptada]

O pacote “broom” tira a saída desordenada de funções incorporadas em R, como lm, nls ou t.test, e as transforma em quadros de dados arrumados.

O conceito de “TIDY DATA”, apresentado por Hadley Wickham, oferece uma estrutura poderosa para manipulação e análise de dados.

O artigo faz uma proposição convincente sobre o problema que este pacote tenta resolver (enfâse a minha): enquanto as entradas do modelo geralmente requerem entradas arrumadas, tal atenção aos detalhes não se aplica ao modelo  de saídas. Saídas como previsões e coeficientes estimados nem sempre são arrumadas. Isso torna mais difícil combinar resultados de vários modelos.

Por exemplo, em R, a representação padrão dos coeficientes do modelo não é organizada porque não possui uma variável explícita que registre o nome da variável para cada estimativa; em vez disso, elas são registradas como nomes de linhas.

Em R, os nomes de linha devem ser únicos, de modo a combinar coeficientes de muitos modelos (por exemplo, de resmastras de inicialização ou subgrupos) requerem soluções alternativas para evitar a perda de informações importantes. Isso o afasta do fluxo de análise e torna mais difícil combinar os resultados de vários modelos.

Atualmente, não conheço nenhum pacote que resolva esse problema.

O “broom” é uma tentativa de preencher a lacuna das saídas desordenadas de previsões e estimativas para os dados arrumados com os quais queremos trabalhar.

Centra-se em torno de três métodos S3, cada um dos quais obtém objetos comuns produzidos por funções estatísticas R (lm, t.test, nls, etc.) e converte-os em um quadro de dados.

O pacote “broom” é especialmente projetado para trabalhar com o pacote Dplyr de Hadley (veja a vassoura da vassoura + dplyr para mais).

O pacote “broom” deve ser distinguida de pacotes como reshape2 e tidyr, que reorganizam e remodelam os quadros de dados em diferentes formas. Esses pacotes executam tarefas críticas na análise de dados arrumados, mas se concentram na manipulação de quadros de dados em um formato específico para outro.

Em contraste, pacote “broom” é projetado para ter um formato que não está em um quadro de dados (às vezes, nem em qualquer lugar próximo) e convertê-lo em um quadro de dados arrumado.

A organização das saídas do modelo não é uma ciência exata, e é baseado em um julgamento dos tipos de valores que um cientista de dados normalmente deseja fora de uma análise arrumada (por exemplo, estimativas, estatísticas de teste e valores de p).

Você pode perder algumas das informações no objeto original que você queria, ou manter mais informações do que você precisa.

The broom package takes the messy output of built-in functions in R, such as lm, nls, or t.test, and turns them into tidy data frames. The concept of “tidy data”, as introduced by Hadley Wickham, offers a powerful framework for data manipulation and analysis. That paper makes a convincing statement of the problem this package tries to solve (emphasis mine): While model inputs usually require tidy inputs, such attention to detail doesn’t carry over to model outputs. Outputs such as predictions and estimate

Source: broom: let’s tidy up a bit

Photo:  Santeri Viinamäki [CC BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0)], via Wikimedia Commons

Leave a Comment

Related Story
%d bloggers like this: