Referências Bibliográficas, Métricas, Fatores de Impacto, Co-citação? > Bibliometrix

December 1, 2016 no comments Posted in Análise de Dados, R

Pouco tempo para escrever, mas continuo tentando coletar coisas interessantes do mundo R e assemelhados. O conteúdo desse post interessa aos que lidam referências bibliográficas e gostam de gráficos.

Com a falta de tempo aqui terei uma enxurrada de links relacionados a gráficos relacionais, associações, publicações e conexões entre autores.

As descobertas da semana vieram no curso de tentar representar de forma hierárquica e também histórica um conjunto de referências bibliográficas disponíveis em sites especializados como o Web of Science, Scopus e Google Scholar.

A representação que desejo se assemelha a uma árvore onde os níveis são função das datas e cada nó pode ter mais pai, ou seja, um grafo acíclico direcionado,  mas com um layout de representação bem particular, similar ao da figura a seguir.

Alguns autores chamam de lattice, o que geral provoca alguma confusão com lattices em cristais, pelo menos em buscas no Google isso fica evidente.

Ou seja tenho alguns problemas para resolver, obter a informação, extrair a parte interessante e isso com frequência é muito mais complicado do que parece e ao fim representar os achados no formato desejado.

As fontes das informações priorizei as do Scopus e Web of Science em função do primeiro achado, o BIBLIOMETRIX. Um pacote para R que opera sobre referências bibliométricas em vários formatos entre eles o BIBTex.

 

Resumidamente, o Bilbiometrix é capaz de a partir de suas referências bibliográficas extrair uma série de indicadores de produção dos autores, fatores de impacto de revistas etc e tal, e o mais importante, as referências e  as citações, permitindo análises de co-citação.

Alguns dos relatórios que o Bibliometrix é capaz de produzir.

 

O Bibliometrix produz grafos de co-citação, mas acho de pouco utilidade, vejam o exemplo.

Parte da dificuldade é oriunda de diversidade de formatos das referências que ocorrem em cada referência, aqui um pequeno exemplo

Onde para os meus objetivos de exibir em diagrama a principal dificuldade é a existência de informações adicionais depois do título e que podem estar ou não presentes. Alem disso o ano está embebido no título e entre parêntesis e para piorar existem títulos que adotam vírgulas, mas isso é outra conversa.  Até o presente momento já consegui extrair o núcleo da informação no formato <ano> | < primeiro autor> | < parte inicial do título >

[1] “1993 | AGRAWAL, R | MINING ASSOCIATION RULES BETWEE…;1995 |  AGRAWAL, R | MINING SEQUENTIAL PATTERNS (199…;1996 |  AGRAWAL, R | FAST DISCOVERY OF ASSOCIATION R…;1995 |  BAIROCH, A | THE PROSITE DATABASE, ITS STATU…;1996 |  BETTINI, C | TESTING COMPLEX TEMPORAL RELATI…;1997 |  DAS, G | EPISODE MATCHING (1997) PROCEED…”

A seguir irei produzir o lattice desejado a partir dessa estrutura de informação. Veremos. Hei, esqueci em falar nos pacotes gráficos que encontrei nessa busca. Sem tempo agora, fica para a próxima.

Bye,

João Carlos

Tópicos de Teoria da Informação, Análise de Dados Algorítmica e Outros.

November 27, 2016 no comments Posted in Análise de Dados, Artigos Recomendados

Em buscas dispersas pela internet relacionadas ao tema citações perdidas, acabei por encontrar uma página: PHP Bibtex Library, referente uma biblioteca PHP para exibição de referências bibliográficas Bibtex em páginas web.

Não sabe o que é BibTex? Não sabe o que PHP?

A grande supresa foi ao rastrear a autoria da bliblioteca  (Jilles Vreeken ) e encontrar sua página pessoal uns slides ótimos com o conteúdo de alguns cursos de pós-graduação que ele ministra.

Graduate Courses

Fiquei particularmente interessado pelos temas ligados a descoberta de Correlação, Causa e Efeito, Significância e Medidas de “Interestingness” Subjetivas.

Interestingness é uma dilema para ser traduzido 🙂  Algo como “interessantividade”? Uma grandeza para expressar o grau de algo ser interessante segundo algum parâmetro de observação.

O professor Jilles Vreeken lidera o grupo de investigação independente “Exploratory Data Analysis” no “Cluster of Excellence on “Multimodal Computing and Interaction” da Universidade do Saarland na Alemanha.  Além disso, é afiliado como Pesquisador sênior do grupo de banco de dados e sistemas de informação do Instituto Max Planck de Informática.

R para Não Programadores – Conteúdo – Curso Prático

November 18, 2016 no comments Posted in Análise de Dados, R para não Programadores

Índice de conteúdos do – Curso Tutorial  – R para Não Programadores e Usuários de Excel

R e Shiny para não Programadores e usuários de Excel – [1] Um Mapa e Dados das Capitais do Brasil R

R e Shiny para não Programadores e usuários de Excel – [2] Um Mapa e Dados das Capitais do Brasil R

R e Shiny para não Programadores e usuários de Excel – [3] Um Mapa e Dados das Capitais do Brasil R

R e Shiny para não Programadores e usuários de Excel – [4] Um Mapa e Dados das Capitais do Brasil – Norte e Nordeste em R e Leaflet

R e Shiny para não Programadores e usuários de Excel – [5] Pausa para falar de filtros em data frames, mapas e outros – R

R e Shiny para não Programadores – [6] Finalmente gerando uma página HTMLDownloads

R e Shiny para não Programadores – [7]  Qual o Caminho mais rápido com R? O Problema do Delivery de Sushi – Pizza. parte 1 de 3

Anexos – Curso Tutorial – R para Não Programadores

Open Data – Projeção da população do Brasil e das Unidades da Federação – 11/2016

November 17, 2016 no comments Posted in Análise de Dados

Passeando pelo site do IBGE me deparei com uma bela novidade.

Na página que trata de Projeção da População do Brasil e das Unidades de Federação, não só a página está muito bem desenhada e distribúída,

Screen Shot 2016-11-16 at 18.18.25.png

mas principalmente os dados usados no gráficos e comparações estão lá disponíveis para serem vistos e baixados.

Screen Shot 2016-11-16 at 18.17.39.png

e para cada grande painel de representação dos dados, há um acesso para incorporação em outra página.

Parabens IBGE!

Alguem me ajuda? Como posso comparar o custo de vida entre 2 cidades ?

November 16, 2016 no comments Posted in Análise de Dados, Fontes de Dados

Argumentar sem bases em evidências ou alguma leitura preliminar sobre qualquer tema é o prenúncio de uma potencial conversa desgastante e que nem sempre acaba bem.

Na falta de informações mais precisas, não nos sobra outra alternativa senão para apelar para o “achismo” e a consolidação de vieses e estereótipos.

Não que a discussão livre das idéias e preferências pessoais deva se limitar a simples comparação de dados e estatísticas. Idéias são idéias ou ideiais, preferências idem, mas caso os argumentos  envolvam quantidades, é bom ter cuidado.

Falando em quantidades, em várias discussões sobre o custo das coisas e o valor efetivo dos salários e rendas surge a questão em como relativizar por País, Cidade ou Região.

“Ah o salário médio em Nova York é o dobro do salário médio em Calcutá mas o custo de vida deve ser altíssimo.”

Deve mesmo?

Se o tema for custo de vida, moradia, alimentação e transporte em cidades do mundo recomendo o NUMBEO.com como fonte  para ajudar você a reduzir parte da incerteza e poder argumentar com convicção.

O site é muito bem desenvolvido com uma interface clara e simples e mesmo para aqueles menos confortáveis com o Inglês a navegação é bem intuitiva.

Screen Shot 2016-11-16 at 16.42.44.png

Falando em dificuldades com outros idiomas, lembre-se você sempre pode contar com o Tradutor do Google e ele pode ser facilmente ativado em seu navegador, mas isso é tópico para outra publicação.

https://www.numbeo.com/cost-of-living/gmaps.jsp

O que mais me despertou a curiosidade é o recurso de COMPARAR cidade a cidade e em tópicos como custo de moradia, saúde, trânsito, crime etc.

Aqui a comparação entre o custo de vida no Rio de Janeiro e São Paulo.

Screen Shot 2016-11-16 at 16.52.07.png

Rio, São Paulo e algumas cidades de referência!

Screen Shot 2016-11-16 at 17.02.35.png

Segundo uma grande amiga, o NUMBEO pode ser um grande auxiliar na preparação de su próxima viagem.

Boas Comparações!

João Carlos

 

 

R e Shiny para não Programadores e usuários de Excel – Uma Mapa de Pontos Turísticos da sua Cidade em R 1/4

November 10, 2016 no comments Posted in Análise de Dados

Aqui uma série de conceitos para uma aplicação (simples) mas relativamente completa em R para a publicação de dados em mapas.

Ainda não tocaremos em “Análise de Dados”, apenas em como visualizar Locais, mas apresentaremos uma série de conceitos indispensáveis para um que os nosso scripts em R comecem a ter recursos mais robustos e principalmente possam ser replicados e publicados.

O script a seguir tem os seguintes componentes que ao nosso ver contemplam uma série de cenários de usos mais corriqueiros.

  1. Importar um arquivo/planilha Excel com dados de capitais do Brasil
  2. Filtrar colunas do arquivo importado
  3. Filtrar linhas do arquivo importado
  4. Geocode Reverso das Coordenadas Geográficas, latitude e longitude
  5. Visualizar as capitais filtradas em um Mapa leaflet
  6. Exportar o resultado como uma página HTML

Vamos lá.

Requisitos?  RStudio versão desktop, 1.04 ou superior.

Esse post está sendo escrito após o lançamento da versão 1.0 do RStudio em 2016, que tornou a importação de arquivos e a publicação de resultados bem mais agradável. Se ainda não tem o RStudio, trate de instalar a versão desktop [1]. Se você tem recursos para instalar a versão servidora na intranet da sua empresa, melhor ainda, pois todos os interessados dentra do seu espaço de trabalho podem se beneficiar.

Importar um arquivo Excel com dados de capitais do Brasil

Aqui a parte legal do novo RStudio, as telas falam tudo, veja:

Aba Environment, Import Excel. Aproveite e perceba logo as opções de importação SAS, STATA, SPSS.

Screen Shot 2016-11-10 at 10.21.03.png

Se estiver conectado a internet o RStudio vai verificar a necessidade de instalação de pacotes adicionais para a tarefa e irá emitir um alerta. Aceite.

screen-shot-2016-11-10-at-10-23-53

Bem aqui vem a parte super cool, uma janela se abre,

screen-shot-2016-11-10-at-10-25-00

voce seleciona o seu arquivo,

screen-shot-2016-11-10-at-10-25-28

um preview dos dados são apresentados,

screen-shot-2016-11-10-at-10-25-50

Primeira linha tem nomes das colunas?

screen-shot-2016-11-10-at-10-26-17

o código que gerou o preview e que iremos inserir em nosso script

screen-shot-2016-11-10-at-10-26-04

aceite e pronto os dados já importados para um data frame com o mesmo nome do arquivo sem a extensão .xlsx.  O arquivo era “capitasMetrico.xlsx”, agora temos um data frame capitaisMetrico para trabalhar.

screen-shot-2016-11-10-at-10-26-35

Aqui o código ja inserido no script.

E aqui uma pausa para falar em Diretórios e Referências dentro dos códigos em R. O código gerado faz uma apontamento ao caminho físico completo onde está o nosso script, o que é problema, toda vez que movermos esse script teremos que alterar o código.

Se você pretende que o script seja executado no próprio RStudio, mas eventualmente em em outra pasta, o próprio RStudio facilita a nossa vida,  vá no menu SESSION > To Source File Location. Pronto ele ajustará o diretório de trabalho para a pasta aonde está o seu script.

Screen Shot 2016-11-10 at 10.41.52.png

Mas é possível automatizar ainda mais e evitar essa ida ao meu Session. Basta inserir o comando abaixo logo

em uma linha que anteceda a qualquer comando que pretenda referenciar arquivos externos.

Feito isso agora o nosso script pode fazer referências relativas a diretórios que estão dentro da pasta do script.

Agora podemos mover a vontade toda a pasta para outros locais sabendo que as referências não serão afetadas.

Uau, ficou grande demais. 🙂

Teremos que continuar em outra publicação.

Referências

Choose Your Version of RStudio – RStudio Desktop  https://www.rstudio.com/products/rstudio/download3/

Qual o menor caminho entre 2 pontos no meio de uma floresta de caminhos segundo Dijkstra?

November 7, 2016 one comment Posted in Algos, Análise de Dados, Artigos Recomendados

Falando em caminhos e partir do tradicional dispersão que somos levados contínuamente na web,  eis que inicio passeando pelo site de uma editora de livros e termino num belo artigo de autoria de Daan van Berkel sobre o algoritmo de Dijkstra para encontrar o caminho mínimo.

O autor abre o artigo enfatizando como o problema de encontrar um caminho mínimo é um caso recorrente em alguns tipos de Jogos e apresenta uma animação interativa onde é possível visualizar o algoritmo em ação.

http://dvberkel.github.io/Dijkstra/

 

O artigo está em Inglês aqui https://www.packtpub.com/books/content/search-algorithms-game-play-going-b

Aproveitei para fazer uma rápida pesquisa sobre o tema em páginas no nosso idioma e encontrei farto material entre eles:

Algoritmo de Dijkstra para cálculo do Caminho de Custo Mínimo  em um site do Departamento de Informática e Estatística – INE da Universidade Federal de Santa Catarina.

Algoritmo de Dijkstra – na página do Prof. Paulo Feofiloff doDepartamento de Matemática e Estatística – IME – USP

Mas quem foi Dijkstra?

R e Shiny para não Programadores e usuários de Excel – Executando scripts no RStudio. Método Copia e Cola.

November 1, 2016 no comments Posted in Análise de Dados

Na forma bruta e visual. 🙂

Novo R Script

Copie o código do texto de origem com CTRL+C e copie com CTRL + V no painel de scripts onde deve estar Untitled1

painelrstudio

Salve!

Observe no canto superior do Painel de Script a palavra “Source”. Clique lá observe os resultados.

painelrstudioafter

Clicando no nome do de um data frame podemos visualizar o seu conteúdo.

painelrstudiodframe

Teste com o script abaixo. Não deixe de instalar os pacotes referenciados ou não irá funcionar como esperado.