R para Não Programadores – Conteúdo – Curso Prático

November 18, 2016 no comments Posted in Análise de Dados, R para não Programadores

Índice de conteúdos do – Curso Tutorial  – R para Não Programadores e Usuários de Excel

R e Shiny para não Programadores e usuários de Excel – [1] Um Mapa e Dados das Capitais do Brasil R

R e Shiny para não Programadores e usuários de Excel – [2] Um Mapa e Dados das Capitais do Brasil R

R e Shiny para não Programadores e usuários de Excel – [3] Um Mapa e Dados das Capitais do Brasil R

R e Shiny para não Programadores e usuários de Excel – [4] Um Mapa e Dados das Capitais do Brasil – Norte e Nordeste em R e Leaflet

R e Shiny para não Programadores e usuários de Excel – [5] Pausa para falar de filtros em data frames, mapas e outros – R

R e Shiny para não Programadores – [6] Finalmente gerando uma página HTMLDownloads

R e Shiny para não Programadores – [7]  Qual o Caminho mais rápido com R? O Problema do Delivery de Sushi – Pizza. parte 1 de 3

Anexos – Curso Tutorial – R para Não Programadores

Open Data – Projeção da população do Brasil e das Unidades da Federação – 11/2016

November 17, 2016 no comments Posted in Análise de Dados

Passeando pelo site do IBGE me deparei com uma bela novidade.

Na página que trata de Projeção da População do Brasil e das Unidades de Federação, não só a página está muito bem desenhada e distribúída,

Screen Shot 2016-11-16 at 18.18.25.png

mas principalmente os dados usados no gráficos e comparações estão lá disponíveis para serem vistos e baixados.

Screen Shot 2016-11-16 at 18.17.39.png

e para cada grande painel de representação dos dados, há um acesso para incorporação em outra página.

Parabens IBGE!

Alguem me ajuda? Como posso comparar o custo de vida entre 2 cidades ?

November 16, 2016 no comments Posted in Análise de Dados, Fontes de Dados

Argumentar sem bases em evidências ou alguma leitura preliminar sobre qualquer tema é o prenúncio de uma potencial conversa desgastante e que nem sempre acaba bem.

Na falta de informações mais precisas, não nos sobra outra alternativa senão para apelar para o “achismo” e a consolidação de vieses e estereótipos.

Não que a discussão livre das idéias e preferências pessoais deva se limitar a simples comparação de dados e estatísticas. Idéias são idéias ou ideiais, preferências idem, mas caso os argumentos  envolvam quantidades, é bom ter cuidado.

Falando em quantidades, em várias discussões sobre o custo das coisas e o valor efetivo dos salários e rendas surge a questão em como relativizar por País, Cidade ou Região.

“Ah o salário médio em Nova York é o dobro do salário médio em Calcutá mas o custo de vida deve ser altíssimo.”

Deve mesmo?

Se o tema for custo de vida, moradia, alimentação e transporte em cidades do mundo recomendo o NUMBEO.com como fonte  para ajudar você a reduzir parte da incerteza e poder argumentar com convicção.

O site é muito bem desenvolvido com uma interface clara e simples e mesmo para aqueles menos confortáveis com o Inglês a navegação é bem intuitiva.

Screen Shot 2016-11-16 at 16.42.44.png

Falando em dificuldades com outros idiomas, lembre-se você sempre pode contar com o Tradutor do Google e ele pode ser facilmente ativado em seu navegador, mas isso é tópico para outra publicação.

https://www.numbeo.com/cost-of-living/gmaps.jsp

O que mais me despertou a curiosidade é o recurso de COMPARAR cidade a cidade e em tópicos como custo de moradia, saúde, trânsito, crime etc.

Aqui a comparação entre o custo de vida no Rio de Janeiro e São Paulo.

Screen Shot 2016-11-16 at 16.52.07.png

Rio, São Paulo e algumas cidades de referência!

Screen Shot 2016-11-16 at 17.02.35.png

Segundo uma grande amiga, o NUMBEO pode ser um grande auxiliar na preparação de su próxima viagem.

Boas Comparações!

João Carlos

 

 

R e Shiny para não Programadores e usuários de Excel – Uma Mapa de Pontos Turísticos da sua Cidade em R 1/4

November 10, 2016 no comments Posted in Análise de Dados

Aqui uma série de conceitos para uma aplicação (simples) mas relativamente completa em R para a publicação de dados em mapas.

Ainda não tocaremos em “Análise de Dados”, apenas em como visualizar Locais, mas apresentaremos uma série de conceitos indispensáveis para um que os nosso scripts em R comecem a ter recursos mais robustos e principalmente possam ser replicados e publicados.

O script a seguir tem os seguintes componentes que ao nosso ver contemplam uma série de cenários de usos mais corriqueiros.

  1. Importar um arquivo/planilha Excel com dados de capitais do Brasil
  2. Filtrar colunas do arquivo importado
  3. Filtrar linhas do arquivo importado
  4. Geocode Reverso das Coordenadas Geográficas, latitude e longitude
  5. Visualizar as capitais filtradas em um Mapa leaflet
  6. Exportar o resultado como uma página HTML

Vamos lá.

Requisitos?  RStudio versão desktop, 1.04 ou superior.

Esse post está sendo escrito após o lançamento da versão 1.0 do RStudio em 2016, que tornou a importação de arquivos e a publicação de resultados bem mais agradável. Se ainda não tem o RStudio, trate de instalar a versão desktop [1]. Se você tem recursos para instalar a versão servidora na intranet da sua empresa, melhor ainda, pois todos os interessados dentra do seu espaço de trabalho podem se beneficiar.

Importar um arquivo Excel com dados de capitais do Brasil

Aqui a parte legal do novo RStudio, as telas falam tudo, veja:

Aba Environment, Import Excel. Aproveite e perceba logo as opções de importação SAS, STATA, SPSS.

Screen Shot 2016-11-10 at 10.21.03.png

Se estiver conectado a internet o RStudio vai verificar a necessidade de instalação de pacotes adicionais para a tarefa e irá emitir um alerta. Aceite.

screen-shot-2016-11-10-at-10-23-53

Bem aqui vem a parte super cool, uma janela se abre,

screen-shot-2016-11-10-at-10-25-00

voce seleciona o seu arquivo,

screen-shot-2016-11-10-at-10-25-28

um preview dos dados são apresentados,

screen-shot-2016-11-10-at-10-25-50

Primeira linha tem nomes das colunas?

screen-shot-2016-11-10-at-10-26-17

o código que gerou o preview e que iremos inserir em nosso script

screen-shot-2016-11-10-at-10-26-04

aceite e pronto os dados já importados para um data frame com o mesmo nome do arquivo sem a extensão .xlsx.  O arquivo era “capitasMetrico.xlsx”, agora temos um data frame capitaisMetrico para trabalhar.

screen-shot-2016-11-10-at-10-26-35

Aqui o código ja inserido no script.

E aqui uma pausa para falar em Diretórios e Referências dentro dos códigos em R. O código gerado faz uma apontamento ao caminho físico completo onde está o nosso script, o que é problema, toda vez que movermos esse script teremos que alterar o código.

Se você pretende que o script seja executado no próprio RStudio, mas eventualmente em em outra pasta, o próprio RStudio facilita a nossa vida,  vá no menu SESSION > To Source File Location. Pronto ele ajustará o diretório de trabalho para a pasta aonde está o seu script.

Screen Shot 2016-11-10 at 10.41.52.png

Mas é possível automatizar ainda mais e evitar essa ida ao meu Session. Basta inserir o comando abaixo logo

em uma linha que anteceda a qualquer comando que pretenda referenciar arquivos externos.

Feito isso agora o nosso script pode fazer referências relativas a diretórios que estão dentro da pasta do script.

Agora podemos mover a vontade toda a pasta para outros locais sabendo que as referências não serão afetadas.

Uau, ficou grande demais. 🙂

Teremos que continuar em outra publicação.

Referências

Choose Your Version of RStudio – RStudio Desktop  https://www.rstudio.com/products/rstudio/download3/

Qual o menor caminho entre 2 pontos no meio de uma floresta de caminhos segundo Dijkstra?

November 7, 2016 one comment Posted in Algos, Análise de Dados, Artigos Recomendados

Falando em caminhos e partir do tradicional dispersão que somos levados contínuamente na web,  eis que inicio passeando pelo site de uma editora de livros e termino num belo artigo de autoria de Daan van Berkel sobre o algoritmo de Dijkstra para encontrar o caminho mínimo.

O autor abre o artigo enfatizando como o problema de encontrar um caminho mínimo é um caso recorrente em alguns tipos de Jogos e apresenta uma animação interativa onde é possível visualizar o algoritmo em ação.

http://dvberkel.github.io/Dijkstra/

 

O artigo está em Inglês aqui https://www.packtpub.com/books/content/search-algorithms-game-play-going-b

Aproveitei para fazer uma rápida pesquisa sobre o tema em páginas no nosso idioma e encontrei farto material entre eles:

Algoritmo de Dijkstra para cálculo do Caminho de Custo Mínimo  em um site do Departamento de Informática e Estatística – INE da Universidade Federal de Santa Catarina.

Algoritmo de Dijkstra – na página do Prof. Paulo Feofiloff doDepartamento de Matemática e Estatística – IME – USP

Mas quem foi Dijkstra?

R e Shiny para não Programadores e usuários de Excel – Executando scripts no RStudio. Método Copia e Cola.

November 1, 2016 no comments Posted in Análise de Dados

Na forma bruta e visual. 🙂

Novo R Script

Copie o código do texto de origem com CTRL+C e copie com CTRL + V no painel de scripts onde deve estar Untitled1

painelrstudio

Salve!

Observe no canto superior do Painel de Script a palavra “Source”. Clique lá observe os resultados.

painelrstudioafter

Clicando no nome do de um data frame podemos visualizar o seu conteúdo.

painelrstudiodframe

Teste com o script abaixo. Não deixe de instalar os pacotes referenciados ou não irá funcionar como esperado.

Hóquei, Futebol, Regras de Associação e Mineração de Dados

November 2, 2015 no comments Posted in Algos, Artigos Recomendados

A Análise de Padrões do tipo regras de associação se tornou mais conhecida a partir dos primeiros informes de que empresas como Google e Amazon eram capazes de “prever” nossas preferências ante uma lista de outros itens visitados ou comprados anteriormente.

A frequência com que visitamos páginas e compramos produtos de determinada categoria de produtos oferece claros indícios de nossas preferências, até mesmo de nossos próximos passos, por mais irritante que isso possa parecer. Feliz ou infelizmente, somos, nós humanos, muito mais previsíveis do que pensamos ser, até mesmo quando tomamos decisões irracionais. Isso já é outro tema interessante abordado com frequência pelo Professor Dan Ariely.

Aqui indicamos um artigo em Inglês sobre uma análise exploratória feita com estatísticas da liga americana de hóquei, a National Hockey League ou  NHL.   https://www.google.pt/search?q=Professor+Dan+Ariely&oq=Professor+Dan+Ariely&aqs=chrome..69i57&sourceid=chrome&ie=UTF-8

 

No artigo, Alex Diaz, analisa a associação entre os nomes dos jogadores e as jogadas ou lances que fizeram. Assim como no futebol, sites especializados publicam em tempo real as jogadas a medida que vão acontecendo. O que o autor procurava é entender se alguma combinação específica de jogadas e jogadores era mais propicia ou mais provável de levar ao gol.

Os resultados não são plenamente conclusivos até porque é a análise de uma única partida, mas servem para demonstrar como conduzir uma análise de dados na busca de evidências ou de modelos que ajudem a previsão de acontecimentos.

Mining and analyzing five seasons of NHL data  por ALEX DIAZ.

Quer saber mais sobre Regras de Associação?

Encontrei esse excelente material assinado por (Sarajane M. Peres e Clodoaldo A. M. Lima) no site da Profa. Dr. Sarajane M. Peres, incluso segundo informações da página no conteúdo do curso SIN5017 – Data Mining (PPgSI) da Escola de Artes, Ciências e Humanidades da USP.