Assessment of Scientific Production In the African Union Member States 2005-2010

February 5, 2017 no comments Posted in Análise de Dados, Citações

A suggestion for the analysis of the productive capacity of a nation academic community, ‘do not forget to relativize the results taking into account the country’s per capita R & D expenditure‘. Then, to measure the relative importance of the policies of each country in the Survey, compare in percentage terms the percentage expenditures with R & D with other national expenses. Finally, to have a better portrait, draw a parallel, a simple scatterplot may be sufficient between the size of the gross domestic product of the countries involved and the percentage spent on R & D.

As an example, I found this excellent report on  ‘ASSESSMENT OF SCIENTIFIC PRODUCTION IN THE AFRICAN UNION MEMBER STATES 2005-2010′ [1].

The degree of the detail, the methodological approach, everything is well done and crystal clear, but although they have data on papers output per capita they didn’t include in their study the amount of investment per capita in R&D.

To compare judiciously, I think, we need a ratio between the rate of the input and the rate of output.

According to this very simple exploratory study, I did, ‘Is it reasonable to talk about the cost-effectiveness of national R&D investments through H-index?’ [2], there are several African countries doing very well.

Uganda, Sudan, Ethiopia, for example, are among the top 10 in the ratio between the number of articles cited and R & D expenditures per capita.

In fact,  my observations were not a result of a cost-effectiveness [3] or cost-benefit analysis [4], but just a pointer towards care with absolute numbers when comparing national indexes.


[1] AOSTI (African Observatory of Science, Technology and Innovation) (2014), Assessment of scientific production in the African Union, 2005–2010

[2] Is it reasonable to talk about cost effectiveness of national R&D investments through H-index?

[3] Cost-effectiveness analysis

[4] Cost–benefit analysis


Image from Wikimedia

Illustration from raw scan of The story of geographical discovery: how the world became known Jacobs, Joseph, 1854-1916 New York : D. Appleton The description in that work states: “Africa as known in 1676 (from Dapper’s Atlas),—This includes a knowledge of most of the African rivers and lakes due to the explorations of the Portuguese … Page 155”

Is it reasonable to talk about cost effectiveness of national R&D investments through H-index?

January 26, 2017 no comments Posted in Análise de Dados

I recommend reading the interesting and profound article ‘Doing Hirsch proud; Shaping H-index in engineering sciences’ [1] by L. CZARNECKI, M.P. KAŹMIERKOWSKI and A. ROGALSKI, where the authors carry out, among others

The H-nature of things has been described, and several axiomatic characterizations of the Hirsch index have been gathered. The mechanism for increasing the h-index has been presented. Some similarities between h-index and the journal impact factor (JIF) have been stressed. Alsothe universal role of H-index in ranking countries in all areas and in Engineeringhas been exampled in extended tables.

At a certain point the authors make a visit to the indexes of scientific production by country, but the central theme is to dissect the behavior of h-index [3] in the sub-fields of knowledge within Engineering.

There I began to wonder how great it would be if they had had time and space to address how to effectively compare the production of scientific articles between different countries.

When I looked at the list of scientific articles produced by Scimago Journal & Country Rank [2] , I asked myself how to relativize those numbers in terms of population size, gross domestic product, and investment in research.

Adopting the H-index as a reference, the ranking is dominated by USA, UK, Germany and France.

When this list is seen throgh the light of the number of documents, China and Japan appear in the top 10.

Of course, effective investment outcomes are a complex issue with tangible  (patents, derivatives, exports) and intangibles (culture, education, quality of life, etc.) benefits that merit in-depth studies for adequate estimates [5].

But since SCIMAGO has established a scale of absolute values and a ‘relative’ scale via the H-index and as we have data available from the World Bank on R & D investments [4], why not to try a comparative look ?

The parameter that I think is the best to express the relative preference of the countries for investment in R & D and present in the data from World Bank was ‘Expenditure per Capita’. At first, to me, not an Economist, this metric seems fine to relativize the influence of population size and the size of gross domestic product.

The per capita expenditure has an expressive correlation index with the H-index.

Expenditures on R&D per capita H index
Expenditures on R&D per capita 1
H index 0,668 1

In my view as a non-specialist, the cost effectiveness of national R & D investment policies can be indirectly compared by comparing not absolute numbers of published documents or citations to those documents. It is necessary that these numbers be relativized according to the per capita investment that each nation applies in research.

In the light of these factors, in a superficial analysis and only as a basis for reflection and pure curiosity, it seems to me that the following list would be a more expressive ranking as to the capacity of countries to produce significant results for each $ invested by their citizens.

The top 30 countries with the highest per capita investments in R & D.

Rank Country/Region
1 Switzerland
2 Finland
3 South Korea
4 Sweden
5 United States
6 Austria
7 Taiwan
8 Israel
9 Denmark
10 Japan
11 Germany
12 Singapore
13 Luxembourg
14 Norway
15 Belgium
16 Australia
17 Netherlands
18 France
19 Iceland
20 Ireland
21 Canada
22 Slovenia
23 Qatar
24 United Kingdom
25 Czech Republic
26 Italy
27 Spain
28 New Zealand
29 Estonia
30 Portugal


The top 30 in cost effectiveness in the production of ‘Citable Documents’ according to SCIMAGO.

Rank Country/Region Citable Docs/ Exp.Capita
1 Iran 215233,92
2 India 214843,10
3 United States 140554,01
4 China 80972,22
5 United Kingdom 74974,18
6 Algeria 52281,36
7 Philippines 49210,56
8 Italy 46210,59
9 Poland 42051,60
10 Pakistan 41099,32
11 Spain 35824,27
12 Canada 35423,19
13 Indonesia 34955,25
14 Brazil 33722,51
15 Germany 31178,43
16 France 30977,12
17 Vietnam 25596,47
18 Peru 24421,70
19 South Africa 23045,28
20 Japan 22640,70
21 Thailand 22454,64
22 Uganda 20721,52
23 Turkey 17692,20
24 Netherlands 17537,15
25 Russian Federation 16908,82
26 Australia 16538,97
27 Argentina 15226,77
28 Colombia 15101,13
29 Greece 14702,44
30 Egypt 13800,96

The top 30 in cost effectiveness in the production of  ‘Citations’ according to SCIMAGO.

Rank Country/Region Citations/ Exp. Capita
1 Philippines 2,420
2 Uganda 1,798
3 Sudan 1,757
4 Peru 1,692
5 Algeria 1,232
6 Ethiopia 0,978
7 Indonesia 0,880
8 Vietnam 0,876
9 Iran 0,645
10 Georgia 0,637
11 Moldova 0,476
12 Pakistan 0,436
13 Uruguay 0,314
14 Bahrain 0,283
15 Botswana 0,276
16 Oman 0,268
17 Costa Rica 0,263
18 Colombia 0,250
19 India 0,188
20 Thailand 0,182
21 Morocco 0,144
22 Bosnia and Herzegovina 0,136
23 Mongolia 0,135
24 Chile 0,135
25 South Africa 0,122
26 Macedonia 0,114
27 Azerbaijan 0,113
28 Saudi Arabia 0,112
29 Egypt 0,100
30 Argentina 0,096

The top 30 in cost effectiveness in the production of  ‘H-index units’ according to SCIMAGO.

Rank Country/Region H units/ Exp.Capita
1 Philippines 30,19
2 Algeria 25,67
3 Iran 21,92
4 Peru 19,54
5 Indonesia 19,16
6 Uganda 15,48
7 Sudan 14,77
8 Vietnam 14,33
9 Pakistan 12,49
10 Ethiopia 11,12
11 India 10,82
12 Georgia 7,74
13 Colombia 6,00
14 Moldova 4,87
15 Thailand 4,48
16 Poland 4,13
17 Oman 3,58
18 South Africa 3,47
19 Saudi Arabia 3,25
20 Uruguay 3,04
21 Chile 2,94
22 Bahrain 2,92
23 Morocco 2,71
24 Ukraine 2,55
25 Egypt 2,51
26 Romania 2,47
27 Argentina 2,32
28 Brazil 2,32
29 Costa Rica 2,23
30 Botswana 2,13

So, congratulations to the Philippines who, according to these figures, are doing a beautiful and efficient work of scientific divulgation.


Here an intereactive version @ [6] to play with.

But the theme is so complex that as I finished this basic exploration I began to think about the relative cost of keeping research in line with the cost of living and infrastructure of each country.

Okay, but this is for some fellow economist who can deal with this problem with greater competence and authority.




[1]       L. Czarnecki, M. P. Kaźmierkowski, and A. Rogalski, “Doing Hirsch proud; shaping H-index in engineering sciences,” Bull. Pol. Acad. Sci. Tech. Sci., vol. 61, no. 1, pp. 5–21, 2013.

[2]      SCImago, “SJR – International Science Ranking,” 2007. [Online]. Available: [Accessed: 26-Jan-2017].

[3]      “Google Scholar Metrics Help.” [Online]. Available: [Accessed: 26-Jan-2017].

[4]      World Bank, “Researchers in R&D (per million people) | Data.” [Online]. Available: [Accessed: 26-Jan-2017].

[5]       Myles Gough, “Measuring the impact of R&D spending,” Measuring the impact of R&D spending, 2016. [Online]. Available: [Accessed: 26-Jan-2017].

[6]      “Plotly | Make charts and dashboards online.” [Online]. Available: [Accessed: 26-Jan-2017].

Nova versão do WordPress (4.7) homenageia Sarah Vaughan

December 27, 2016 no comments Posted in Análise de Dados

WordPress cada vez mais sofisticado, vem adicionando homenagens a personagens marcantes a cada nova versão, agora é a maravilhosa Sarah Vaughan.


Sabe o que é WordPress mas não conhece Sarah Vaughan ?  Veja esse maravilhoso álbum dedicado a música brasileira.

01. Make This City Ours Tonight (T.Mann/M.Nascimento)…(00:00)
02. Romance (Danilo Caymmi /T.Mann/P.C.Pinheiro)…(02:59)
03. Love And Passion (T.Mann/M.Nascimento)…(06:32)
04. So Many Stars (A.&M.Bergman/S.Mendes)…(10:32)
05. Photograph (D.Caymmi/T.Mann/P.C.Pinheiro)…(14:43)
06. Nothing Will Be As it Was (R.Bastos/M.Nascimento)…(17:17)
07. It’s Simple (D.Caymmi/T.Mann/P.C.Pinheiro)…(22:04)
08. Obsession (D.Caymmi/T.Mann/G.Peranzzetta)…(25:06)
09. Wanting More (F.Leoporace/T.Mann)…(28:17)
10. Your Smile (D.Caymmi/P.C.Pinheiro/I.Wolf)…(32:14).

tr.4 with Milton Nascimento

Conhece Sarah Vaughan e não conhece o WordPress?  por Patrícia Carvalhais



Que tal vestir a sua paixão?

December 17, 2016 no comments Posted in Análise de Dados

A qualidade dos produtos é reconhecida internacionalmente e se você gosta de um script em R e um gráfico em ggplot. Que tal esses modelitos?


Ou essa caneca?



E a pergunta que não quer calar, ‘O Quão Denso é Você?’  🙂

Mapa de Dados Coloridos dos Municípios de Santa Catarina em R.

December 14, 2016 no comments Posted in Análise de Dados

A pedido do colega @oestatiscoweb no Twitter aqui vai.

Primeiro passo é saber que o grande guardião da malha de muncípios do Brasil é o IBGE e que essa malha e disponibilizada há anos de forma generosa, gratuita e republicana, muito antes da boa onda dos dados abertos. Tem gente de forma desonesta, ao meu ver, redistribuindo essa informação gratuita e cobrando por ela.

A nossa viagem começa aqui: bases e referenciais»bases cartográficas»malhas digitais 

Screen Shot 2016-12-14 at 16.37.23.png

Siga os links até chegar na Unidade da Federação desejada, nesse exercício é aqui:

Faça o download de

Uma vez descomprimidos dentro do nosso diretório de dados da nossa série, fica assim.

Aqui vai o script, procurei deixar os comentários o mais explicativo possível. Hoje infelizmente estou com pouco tempo.


O resultado é esse aqui.

As partes complicadas são como se cria a escalas de cores baseado em como colocamos os valores em faixas.

Recomendo que executem o script passo a passo, imprimindo os valores intermediários para visualizarem o que está acontecendo.

Observe que criei valores aleatórios entre 0 e 1000 para cada município, depois particionei esse intervalo em 10 partes e por fim atribuímos uma cor a cada valor em função da faixa em que caiu.

Aqui está a parte complicada de enxergar o que o R faz ”


Depois apresento a versão leaflet desse mapa.

Gostou?  Avise por ai …  🙂


João Carlos

“Estatísticas Feitas Erradas: O guia completamente completo”?. Livros na minha prateleira do Kindle!

December 3, 2016 no comments Posted in Análise de Dados

Periodicamente faço uma revisão da minha estante virtual para constatar que sempre fico me devendo terminar um outro livro. Com frequência perco o ritmo, ou livro me perde, ou sou arrastado em outras demandas.

Vejamos o que tenho aqui!

Statistics Done Wrong: The Woefully Complete Guide do Alex Reinhart

Algo como  Estatísticas Feitas Erradas: O guia completamente completo.

Esse livro é uma gema para Iniciantes e Intermediários em Estatística e Análise de Dados. Não tenho ciência de versão em Português.

Se você analisa dados regularmente e não está seguro se está fazendo corretamente, você precisa desse livro, diz uma das recomendações, e é isso mesmo. Várias questões frequentemente confusas como p-value, intervalos de confiança, poder da amostra estão lá em linguagem acessível.

E ainda procura ter alguns exemplos com tirinhas bem elucidativas.


A linguagem R para uso corporativo. Microsoft ? Oracle? Sério?

December 3, 2016 no comments Posted in Análise de Dados

A internet é fonte maravilhosa de informações, mas com frequência nos oferece verdadeiros universos paralelos de notícias que borbulham periodicamente no nosso tempo presente e cuja realidade pertence ao um outro tempo e outra realidade.

No caso do R existem 2 grandes grupos de conceitos antigos que ainda perambulam por aí e divido em 2 grandes grupos, no primeiro questões da interface, facilidade de uso e divulgação de resultados e em outro limitação de memória e uso corporativo e segurança da informação.

Nesse artigo falo das boas novas para mundo corporativo.

Bem em 2016 temos algumas configurações interessantes que precisam ser visitadas por todos interessados em mais facilidade de produzir Análises de Dados, maior Capacidade de Processamento e Suporte Corporativo.

No campo das Empresas, a grande notícia é que o R é parte de soluções de gigantes: Oracle e Microsoft entraram no jogo.

A Microsoft não para de me surpreender com a sua entrada no mundo Open e oferece o Microsoft R em 2 sabores, “community”, aberto para todos nós, e o “enterprise”, pago para as corporações. Obviamente a versão enterprise oferece mais recursos e suporte comercial.

Esse artigo ( em inglês ) apresenta os principais componentes do sistema R da empresa : Microsoft R Server, Microsoft R Client, and Microsoft R Open, alem do SQL Server R Services.

Complementarmente é possível montar com extrema agilidade máquinas virtuais na nuvem no ambiente Azurre:

A Máquina Virtual de Ciência de Dados é um servidor pré-configurado que inclui nada mais nada menos do que :

  • Microsoft R Server Developer Edition
  • Anaconda Python distribution
  • Visual Studio Community Edition
  • Power BI desktop
  • SQL Server Express edition
  • Azure SDK

É possível começar a experimentar de graça por 30 dias. Não há taxas de software para esta imagem VM de ciência de dados. Você só paga as taxas de uso do Azure, que depende do tamanho da máquina virtual que você escolher, a mais simples custa na faixa de $14 ao mês.  Tabela de Preços.


A Oracle não pretende pelo visto ficar parada assistindo o bloco passar. Em um relatório de julho de 2016 traz a sua visão e recursos para o mundo R e os produtos Oracle.

Nesse artigo a Oracle apresenta casos onde Big Data e R em servidores Oracle podem analisar casos de Risco de Crédito, Detecção de Fraudes, Prevenção de Perdas de Clientes.  

O R-to-SQL melhora a eficiência do usuário ao permitir que Analistas de Dados usem R diretamente em um banco de dados Oracle.

Usuários de R podem alavancar funções analíticas e de mineração de dados internas do banco de dados em combinação com pacotes “open source” em processamento em  paralelo. (tradução livre)


O blog da Oracle para suas soluções com R.


Mais sobre Empresas e R?  Pesquise sobre R Consortium, Pivotal, Tibco, Oracle, IBM, Teradata and SAP.



João Carlos

Referências Bibliográficas, Métricas, Fatores de Impacto, Co-citação? > Bibliometrix

December 1, 2016 no comments Posted in Análise de Dados, R

Pouco tempo para escrever, mas continuo tentando coletar coisas interessantes do mundo R e assemelhados. O conteúdo desse post interessa aos que lidam referências bibliográficas e gostam de gráficos.

Com a falta de tempo aqui terei uma enxurrada de links relacionados a gráficos relacionais, associações, publicações e conexões entre autores.

As descobertas da semana vieram no curso de tentar representar de forma hierárquica e também histórica um conjunto de referências bibliográficas disponíveis em sites especializados como o Web of Science, Scopus e Google Scholar.

A representação que desejo se assemelha a uma árvore onde os níveis são função das datas e cada nó pode ter mais pai, ou seja, um grafo acíclico direcionado,  mas com um layout de representação bem particular, similar ao da figura a seguir.

Alguns autores chamam de lattice, o que geral provoca alguma confusão com lattices em cristais, pelo menos em buscas no Google isso fica evidente.

Ou seja tenho alguns problemas para resolver, obter a informação, extrair a parte interessante e isso com frequência é muito mais complicado do que parece e ao fim representar os achados no formato desejado.

As fontes das informações priorizei as do Scopus e Web of Science em função do primeiro achado, o BIBLIOMETRIX. Um pacote para R que opera sobre referências bibliométricas em vários formatos entre eles o BIBTex.


Resumidamente, o Bilbiometrix é capaz de a partir de suas referências bibliográficas extrair uma série de indicadores de produção dos autores, fatores de impacto de revistas etc e tal, e o mais importante, as referências e  as citações, permitindo análises de co-citação.

Alguns dos relatórios que o Bibliometrix é capaz de produzir.


O Bibliometrix produz grafos de co-citação, mas acho de pouco utilidade, vejam o exemplo.

Parte da dificuldade é oriunda de diversidade de formatos das referências que ocorrem em cada referência, aqui um pequeno exemplo

Onde para os meus objetivos de exibir em diagrama a principal dificuldade é a existência de informações adicionais depois do título e que podem estar ou não presentes. Alem disso o ano está embebido no título e entre parêntesis e para piorar existem títulos que adotam vírgulas, mas isso é outra conversa.  Até o presente momento já consegui extrair o núcleo da informação no formato <ano> | < primeiro autor> | < parte inicial do título >


A seguir irei produzir o lattice desejado a partir dessa estrutura de informação. Veremos. Hei, esqueci em falar nos pacotes gráficos que encontrei nessa busca. Sem tempo agora, fica para a próxima.


João Carlos

Tópicos de Teoria da Informação, Análise de Dados Algorítmica e Outros.

November 27, 2016 no comments Posted in Análise de Dados, Artigos Recomendados

Em buscas dispersas pela internet relacionadas ao tema citações perdidas, acabei por encontrar uma página: PHP Bibtex Library, referente uma biblioteca PHP para exibição de referências bibliográficas Bibtex em páginas web.

Não sabe o que é BibTex? Não sabe o que PHP?

A grande supresa foi ao rastrear a autoria da bliblioteca  (Jilles Vreeken ) e encontrar sua página pessoal uns slides ótimos com o conteúdo de alguns cursos de pós-graduação que ele ministra.

Graduate Courses

Fiquei particularmente interessado pelos temas ligados a descoberta de Correlação, Causa e Efeito, Significância e Medidas de “Interestingness” Subjetivas.

Interestingness é uma dilema para ser traduzido 🙂  Algo como “interessantividade”? Uma grandeza para expressar o grau de algo ser interessante segundo algum parâmetro de observação.

O professor Jilles Vreeken lidera o grupo de investigação independente “Exploratory Data Analysis” no “Cluster of Excellence on “Multimodal Computing and Interaction” da Universidade do Saarland na Alemanha.  Além disso, é afiliado como Pesquisador sênior do grupo de banco de dados e sistemas de informação do Instituto Max Planck de Informática.