Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms | Neural Computation | MIT Press Journals

June 25, 2017 no comments Posted in Análise de Dados

“This article reviews five approximate statistical tests for determining whether one learning algorithm outperforms another on a particular learning task. These test sare compared experimentally to determine their probability of incorrectly detecting a difference when no difference exists (type I error). Two widely used statistical tests are shown to have high probability of type I error in certain situations and should never be used: a test for the difference of two proportions and a paired-differences t test based on taking several random train-test splits. A third test, a paired-differences t test based on 10-fold cross-validation, exhibits somewhat elevated probability of type I error. A fourth test, McNemar’s test, is shown to have low type I error. The fifth test is a new test, 5 × 2 cv, based on five iterations of twofold cross-validation. Experiments show that this test also has acceptable type I error. The article also measures the power (ability to detect algorithm differences when they do exist) of these tests. The cross-validated t test is the most powerful. The 5×2 cv test is shown to be slightly more powerful than McNemar’s test. The choice of the best test is determined by the computational cost of running the learning algorithm. For algorithms that can be executed only once, Mc-Nemar’s test is the only test with acceptable type I error. For algorithms that can be executed 10 times, the 5 × 2 cv test is recommended, because it is slightly more powerful and because it directly measures variation due to the choice of training set.”

A cover of Neural Computing Journal 

Source: Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms | Neural Computation | MIT Press Journals

Bye Bye “Fortify” >> broom: let’s tidy up a bit #R

June 24, 2017 no comments Posted in Análise de Dados, R

[tradução Google Translated livremente adaptada]

O pacote “broom” tira a saída desordenada de funções incorporadas em R, como lm, nls ou t.test, e as transforma em quadros de dados arrumados.

O conceito de “TIDY DATA”, apresentado por Hadley Wickham, oferece uma estrutura poderosa para manipulação e análise de dados.

O artigo faz uma proposição convincente sobre o problema que este pacote tenta resolver (enfâse a minha): enquanto as entradas do modelo geralmente requerem entradas arrumadas, tal atenção aos detalhes não se aplica ao modelo  de saídas. Saídas como previsões e coeficientes estimados nem sempre são arrumadas. Isso torna mais difícil combinar resultados de vários modelos.

Por exemplo, em R, a representação padrão dos coeficientes do modelo não é organizada porque não possui uma variável explícita que registre o nome da variável para cada estimativa; em vez disso, elas são registradas como nomes de linhas.

Em R, os nomes de linha devem ser únicos, de modo a combinar coeficientes de muitos modelos (por exemplo, de resmastras de inicialização ou subgrupos) requerem soluções alternativas para evitar a perda de informações importantes. Isso o afasta do fluxo de análise e torna mais difícil combinar os resultados de vários modelos.

Atualmente, não conheço nenhum pacote que resolva esse problema.

O “broom” é uma tentativa de preencher a lacuna das saídas desordenadas de previsões e estimativas para os dados arrumados com os quais queremos trabalhar.

Centra-se em torno de três métodos S3, cada um dos quais obtém objetos comuns produzidos por funções estatísticas R (lm, t.test, nls, etc.) e converte-os em um quadro de dados.

O pacote “broom” é especialmente projetado para trabalhar com o pacote Dplyr de Hadley (veja a vassoura da vassoura + dplyr para mais).

O pacote “broom” deve ser distinguida de pacotes como reshape2 e tidyr, que reorganizam e remodelam os quadros de dados em diferentes formas. Esses pacotes executam tarefas críticas na análise de dados arrumados, mas se concentram na manipulação de quadros de dados em um formato específico para outro.

Em contraste, pacote “broom” é projetado para ter um formato que não está em um quadro de dados (às vezes, nem em qualquer lugar próximo) e convertê-lo em um quadro de dados arrumado.

A organização das saídas do modelo não é uma ciência exata, e é baseado em um julgamento dos tipos de valores que um cientista de dados normalmente deseja fora de uma análise arrumada (por exemplo, estimativas, estatísticas de teste e valores de p).

Você pode perder algumas das informações no objeto original que você queria, ou manter mais informações do que você precisa.

The broom package takes the messy output of built-in functions in R, such as lm, nls, or t.test, and turns them into tidy data frames. The concept of “tidy data”, as introduced by Hadley Wickham, offers a powerful framework for data manipulation and analysis. That paper makes a convincing statement of the problem this package tries to solve (emphasis mine): While model inputs usually require tidy inputs, such attention to detail doesn’t carry over to model outputs. Outputs such as predictions and estimate

Source: broom: let’s tidy up a bit

Photo:  Santeri Viinamäki [CC BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0)], via Wikimedia Commons

How to install the full R statistical software on a mobile Android device | Linux Journal

June 22, 2017 no comments Posted in Análise de Dados

This month, you also will learn how to install the full R statistical software on a mobile Android device. Mobile devices are powerful enough that installing such packages makes sense, and with the help of Marius Hofert and Kurt Hornik, you’ll learn how to do so using Linux in a chroot environment on Android. Even if you’re not interested in installing R, the process for installing Linux inside Android is fascinating and fun! Marius and Kurt go through the entire process, including information on unlocking bootloaders and rooting devices.

Source: June 2016 Issue of Linux Journal | Linux Journal

On the Origin of Samples: Attribution of Output to a Particular Algorithm

June 21, 2017 no comments Posted in Análise de Dados

“Com avanços sem precedentes na engenharia genética, estamos começando a ver progressivamente exemplos mais originais de vida sintética. À medida que esses organismos se tornam mais comuns, é desejável distinguir entre formas de vida naturais e artificiais. Neste artigo, apresentamos esse desafio como uma versão generalizada do problema original de Darwin, que ele abordou tão brilhantemente em Origem das Espécies. Depois de formalizar o problema da determinação da origem das amostras, demonstramos que o problema é de fato insolúvel, no caso geral, se os recursos computacionais dos algoritmos originadores criados não tiverem sido limitados e os priores para esses algoritmos são conhecidos como iguais. Nossos resultados devem ser de interesse para astrobiologistas e cientistas interessados em produzir uma teoria mais completa da vida, bem como pesquisadores da AI-Safety.” [ via @googletranslate]

Roman V. Yampolskiy

Source: [1608.06172] On the Origin of Samples: Attribution of Output to a Particular Algorithm

Are you a plugin developer #wordpress #woocommerce? There is an opportunity out there to offer an extension for PagSeguro gateway.

June 8, 2017 no comments Posted in Análise de Dados

Do you know PagSeguro?

“PagSeguro, founded in 2007, is the first choice, to small business, in the Brazilian market with regard to the choice of online payment methods, surpassing the recognized Elavon and Getnet. It already has over 500,000 sellers and more than 40 million buyers, becoming thus the largest online payment platform in Brazil.In Brazil, a huge e-commerce market a lot of stores need to offer products and services through Woocommerce stores and be paid as recurring payments and that is quite different than monthly installments.” (Fintech Brazil http://fintechbrazil.com/know-pagseguro-brazilian-paypal/)

Recurring payments is great not only because the customer doesn’t have to pay extra taxes and for a lot of o services where he has the offer to leave at any time as me membership programs or protected content websites.

The issue is that the current plugins for #WooCommerce for PagSeguro, the official from PagSeguro and outdated (it does not work with 3,0) plugin and the Woocommerce 3.0, they both don’t support the creation of a product which price is a recurring payment.

Here the automated translation for the page with technical data about how the checkout for recurring payments occurs:

Transparent Recurring Payment

Overview

With Transparent Recurring Payment, your application can easily and easily recoup your billing without the need to redirect the customer to PagSeguro. Recurring Payment is available for Seller and Business accounts and only accepts payment by credit card.

How it works?

With the Recurring Payment you create a plan, defining the rules of collection, periodicity, value, among others. With the plan you’ve created, your app registers the buyers to be charged to the desired plan. In addition, you can set a discount for the next charge, list payments for a plan, make payment retry, change the status of a recurrence, and also change your payment method.Here’s how to integrate the PagSeguro Recurring Payment into your system:

 

 

 

“Open Intro”, Textos Didáticos em Estatística, custo Zero.

May 25, 2017 no comments Posted in Análise de Dados

Um achado a alta qualidade desses textos que vão da Estatística Básica à Avançada, passando por tópicos de simulação.

O textos são um esforço colaborativo, gratuito, gente de bem, oferecendo conteúdo de qualidade a custo zero, reduzindo as barreiras de entrada ao mundo da Análise de Dados.

Em sua declaração de motivação está:

Pesquisas realizadas pelo Fundo de Educação dos EUA para PIRG e pelo Estudo de Livros de Texto da Florida de 2012 descobriram que “65% dos estudantes optaram por não comprar o livro de texto da faculdade devido ao seu alto preço”, e 94% deles sabem que sofrem academicamente em função dessa decisão.

No OpenIntro, estamos trabalhando para “abrir” um dos mercados mais fechados, o dos livros didáticos sobre Estatística. Os professores escolhem o livro didático, mas os alunos pagam por ele, o que significa que somente os professores tem o poder de interromper esse ciclo de livros didáticos caros. É nossa missão criar livros de alta qualidade ainda que baratos, que inerentemente têm vantagens educacionais significativas sobre livros didáticos caros. (tradução livre)

O que mais me encantou foi a qualidade dos exemplos e a farta quantidade de exercícios resolvidos, vídeos, forum de suporte.

O estudante pode seguir um caminho bem sólido e muito didático indo dos tópicos mais básicos ao mais avançados.

tela so site www.openintro.org

 

Pena que apenas em Inglês.

Uma linha pode ser aderir a tradução dos textos para o Portugês.  Professores de Estatística em Português, apresentem-se. 🙂

https://www.openintro.org/stat/