Trabajo elaborado para la asignatura “Programación y manejo de datos en la era del Big Data” de la Universitat de València durante el curso 2021-2022. El repo del trabajo está aquí.

La página web de la asignatura y los trabajos de mis compañeros pueden verse aquí.


1. Introducción

Siempre hemos oido que la eduación era clave para nosotros. No solo para nuestro desarrollo personal, si no para mejorar nuestras condiciones de vida. Además, para los que hemos estudiado economía, tambien sabemos que la educacion es un aspecto clave del crecimiento economico. En este breve trabajo, analizaremos si de verdad nos merece la pena invertir en nosotros mismos a través de la educacion, y también observaremos varios datos curiosos relacionados con la educación tales como el Informe Pisa.


2. Datos

DATOS

La mayoria de datos que he utilizado para elaborar el trabajo los he obtenido del paquete wbstats, es decir, que proceden de la base de datos del Banco Mundial. Además, para observar los datos del Informe Pisa, hemos utilizado el paquete learningtower, y, por último, para analizar la estructura salarial española por nivel de educación, nos descargarmos los datos en un excel desde el INE, y posteriormente los modificamos y representamos con R.


EJEMPLO WBSTATS

Primero de todo para obtener datos a través de wbstats hay que saber que datos queremos obtener, esto es, el indicador. Para saber el indicador, podemos realizar una busqueda de la siguiente forma:

gdp <- wbsearch(pattern = “gdp”, field = “indicator”)

Una vez hecho esto, podemos abrir el dataframe creado y filtrar que indicador queremos, en este ejemplo, filtraremos el pibpc en dolares constantes de 2011 para anular el efecto de la inflacion.

Para obtener los datos hariamos lo siguiente: wb(indicator = “6.0.GDPpc_constant”, startdate = 2000, enddate = 2016, POSIXct = TRUE))

Donde startdate y enddate son las fechas iniciales y finales respectivamente que queremos filtrar. Si queremos un país en concreto, podemos filtrar por país:

wb(indicator = “6.0.GDPpc_constant”, country = “ESP”, startdate = 2000, enddate = 2016, POSIXct = TRUE))

De todos modos, en los apartados pondremos una sección de codigo para que se pueda observar el proceso de obtencion de datos, su modificacion y su representacion.

3. “Curiosidades”

En este apartado vamos a comentar diversos datos curiosos e interesantes relacionados con la educacion en los diferentes paises del mundo, como las puntuaciones del Informe PISA y la inversion publica en educacion.

3.1 Informe Pisa

PISA

A continuacion obtendremos los datos correspondientes a el Informe PISA y elaboraremos una tabla para poder consultar estos datos.

En ella podemos consultar cualquier año, pais, categoria, etc. Por ejemplo vamos a consultar España en el año 2015. Podemos observar la media de las puntuaciones obtenidas por diferentes estudiantes para la categoria de matematicas, ciencia y lectura. Cabe destacar que los datos de esta tabla estan “arreglados”, ya que al descargarse los datos originales tenemos la puntuacion de cada estudiante en cada materia, si dispone de ordenador, estudios de los progenitores, si dispone de TV en su habitacion, etc. Nosotros solo queriamos mostrar las puntuaciones finales, si se desea ahondar mas en estos datos tan interesantes lo dejamos en manos de nuestros lectores (las instrucciones estan disponibles en el apartado de codigo).

También vamos a realizar un simple grafico para analizar la puntuacion media total (la media de las tres “asiganturas”) a lo largo de los ultimos años de España, Alemania y EEUU.

En el gráfico se puede observar como EEUU nos saca una gran ventaja a Alemania y España. Nosotros nos alternamos con Alemania, aunque estamos un mayor periodo de tiempo por arriba que los alemanes, cosa que parece que va a cambiar por la evolucion en los últimos años. Cabe destacar la gran caida de EEUU desde 2012, y una caida de España desde el mismo periodo aunque no tan pronunciada.

CODIGO

##inform pisa
install.packages("learningtower")
library(learningtower)
library(tidyr)
library(ggplot2)
library(TD)

#obtencion datos generales pisa

pisa_0018 <- load_student("all")

pisa_0018_tabla <- pisa_0018 %>% select(year, country, math, read, science)

pisa_prueba <- pisa_0018_tabla %>% group_by(year, country) %>% summarise(media_mat = mean(math, na.rm = TRUE), media_read = mean(read), media_sciencie = mean(science))


#Tabla Pisa

library(DT)
pisa_prueba %>% DT::datatable(extensions = 'Buttons',
                              filter = "top",
                              options = list(dom = 'Blfrtip', 
                                             buttons = c('copy', 'csv', 'excel', 'pdf', 'print'), 
                                             pageLength = 5, autoWidth = TRUE ))

#Grafico Pisa

pisa_graf <- pisa_prueba

pisa_graf$media_total_pisa <- apply(pisa_prueba[ ,c(3,4,5)], 1, mean, na.rm = TRUE)


pisa_graf_graf <- pisa_graf %>% filter(country %in% c("ESP", "DEU", "USA"))


graf_pis <- ggplot(pisa_graf_graf, aes(x = year, y = media_total_pisa, colour = country, group = country)) +
                              geom_line() + geom_point()

graf_pis


3.2 Inversion en Educación

INVERSION

En este apartado vamos a centrarnos en la inversion publica en educacion de diferentes paises y zonas del mundo. Los datos los obtendremos de la base de datos del banco mundial. Realizaremos una tabla donde se puede consultar por año y pais el % del PIB en educacion invertido.

A continucacion, tambien hemos realizado un “Bart Chart Race” básico para ver como ha evolucionado en los últimos años la inversion en educacion de diferentes zonas del mundo.

Cabe destacar, sobre todo, que el este y el sur de Africa este, en general, a la cabeza o en los primeros puestos estos últimos años en lo que a inversion en educacion se refiere.

CODIGO

library(DT)
library(wbstats)
library(ggplot2)
library(gganimate)
library(tidyr)
library(tidyverse)


public_exp_ed<- wb(indicator =c("SE.XPD.TOTL.GD.ZS"),
                   startdate = 2000, enddate = 2020, POSIXct = TRUE)


public_exp_tab <- public_exp_ed %>% select(date, country, value)

public_exp_tab %>% DT::datatable(extensions = 'Buttons',
                                 filter = "top",
                                 options = list(dom = 'Blfrtip', 
                                                buttons = c('copy', 'csv', 'excel', 'pdf', 'print'), 
                                                pageLength = 5, autoWidth = TRUE ))



public_exp_graf <- public_exp_ed %>% select(date, iso3c, country, value) %>% rename(pais = country, year = date) %>%
  filter(iso3c %in% c("EUU", "EAS", "ECS", "SAS", "AFE", "AFW", "LCN")) %>% filter(year %in% c(2010:2018)) %>% group_by(pais) %>% arrange(value)

public_exp_graf$year <- as.numeric(public_exp_graf$year)


grafico_animado_gdp <- ggplot(public_exp_graf, aes(x = pais, y = value, group = pais, fill = pais)) + geom_col() + coord_flip() + transition_time(year) + 
  labs(title = 'Year: {frame_time}', x = 'IInversion Educacion como %GDP', y = 'Conjunto Paises') + theme(legend.position = "none")


animate(grafico_animado_gdp,100,10)


4.Desempleo y Educación

DESEMPLEO

A continuacion vamos a analizar si la tasa de desempleo guarda una relacion con la educación, concretamente con el nivel de estudios. Lo haremos gracias a la base de datos del Banco Mundial, y nos centraremos en los siguientes paises: Alemania, España y EEUU. Para ello realizaremos tres gráficos y un gráfico que integre los tres anteriores. En ellos se veran las distintas tasas de desempleo a lo largo del periodo 2000-2016 desagregadas por nivel de educación(En la leyenda, ADVN = Estudios avanzados, BASC = Estudios Basicoc, INTM = Estudios Intermedios).

En los tres paises se observa el mismo patron, la evolucion de la tasa de paro es muy similar, practicamente identica, pero lo curioso es lo siguiente, en los 3 paises, la tasa de desempleo es menos cuanto mayor es el nivel de estudios. Con lo cual, podemos afirmar, al menos para estos paises, que el desempleo esta relacionado inversamente con la educacion, a mayor nivel de estudios menor nivel de desempleo.

A continuacion realizaremos el grafico “multiple” para poder apreciarlo mejor.

En este grafico se aprecia aun mejor, la situacion comentada anteriormente se da en los 3 paises. Cabe destacar, por cierto, los altos niveles de desempleo españoles, pero esto es un tema aparte.

CODIGO

#grafico desempleo por nivel de estudios, pais y año #ESPAÑA

unemp_nivel_es <- wb(country = "ESP", 
                     indicator =c("SL.UEM.BASC.ZS", "SL.UEM.INTM.ZS", "SL.UEM.ADVN.ZS"),
                     startdate = 2000, enddate = 2016, POSIXct = TRUE)


unemp_nivel_es <- unemp_nivel_es %>% select(date_ct, value, indicatorID) 


graf_es_des <- ggplot(unemp_nivel_es, aes(x = date_ct ,y = value, color = indicatorID, group = indicatorID)) + geom_point() + geom_line() + theme(panel.background = element_rect(fill = "gray28",
                                                                                                                                                                                  colour = "white"), plot.background = element_rect(fill = "aliceblue",
                                                                                                                                                                                                                                    colour = "bisque")) +labs(title = "Desempleo por nivel de Estudios ESPAÑA",
                                                                                                                                                                                                                                                              x = "Fecha", y = "Tasa Desempleo", colour = "Nivel de Estudios") + theme(panel.background = element_rect(fill = "antiquewhite"))
graf_es_des



#grafico desempleo por nivel de estudios, pais y año #EEUU

unemp_nivel_US <- wb(country = "US", 
                     indicator =c("SL.UEM.BASC.ZS", "SL.UEM.INTM.ZS", "SL.UEM.ADVN.ZS"),
                     startdate = 2000, enddate = 2016, POSIXct = TRUE)


unemp_nivel_US <- unemp_nivel_US %>% select(date_ct, value, indicatorID) 


graf_US_des <- ggplot(unemp_nivel_US, aes(x = date_ct ,y = value, color = indicatorID, group = indicatorID)) + geom_point() + geom_line() + theme(panel.background = element_rect(fill = "gray28",
                                                                                                                                                                                  colour = "white"), plot.background = element_rect(fill = "aliceblue",
                                                                                                                                                                                                                                    colour = "bisque")) +labs(title = "Desempleo por nivel de Estudios EEUU",
                                                                                                                                                                                                                                                             x = "Fecha", y = "Tasa Desempleo", colour = "Nivel de Estudios") + theme(panel.background = element_rect(fill = "antiquewhite")) 
graf_US_des

#grafico desempleo por nivel de estudios, pais y año #ALEMANIA                                          

unemp_nivel_DEU <- wb(country = "DEU", 
                      indicator =c("SL.UEM.BASC.ZS", "SL.UEM.INTM.ZS", "SL.UEM.ADVN.ZS"),
                      startdate = 2000, enddate = 2016, POSIXct = TRUE)


unemp_nivel_DEU <- unemp_nivel_DEU %>% select(date_ct, value, indicatorID) 


graf_DEU_des <- ggplot(unemp_nivel_DEU, aes(x = date_ct ,y = value, color = indicatorID, group = indicatorID)) + geom_point() + geom_line() + theme(panel.background = element_rect(fill = "gray28",
                                                                                                                                                                                    colour = "white"), plot.background = element_rect(fill = "aliceblue",
                                                                                                                                                                                                                                      colour = "bisque")) +labs(title = "Desempleo por nivel de Estudios ALEMANIA",
                                                                                                                                                                                                                                                                x = "Fecha", y = "Tasa Desempleo", colour = "Nivel de Estudios") + theme(panel.background = element_rect(fill = "antiquewhite")) 

graf_DEU_des


#Combinacio graficos anteriores

unemp_nivel <- wb(country = c("DEU", "ESP", "US"), 
                  indicator =c("SL.UEM.BASC.ZS", "SL.UEM.INTM.ZS", "SL.UEM.ADVN.ZS"),
                  startdate = 2000, enddate = 2016, POSIXct = TRUE)

des_tres_pais <- ggplot(unemp_nivel, aes(x = date_ct ,y = value, color = indicatorID, group = indicatorID)) + geom_point() + geom_line() + theme(panel.background = element_rect(fill = "gray28",
                                                                                                                                                                                 colour = "white"), plot.background = element_rect(fill = "aliceblue",
                                                                                                                                                                                                                                   colour = "bisque")) +labs(title = "Desempleo por nivel de Estudios",
                                                                                                                                                                                                                                                             x = "Fecha", y = "Tasa Desempleo", colour = "Nivel de Estudios") + theme(panel.background = element_rect(fill = "antiquewhite")) +
  facet_wrap(~country)

des_tres_pais


5.Salarios y Educacion en España

SALARIOS

Por último, vamos a analizar el salario por nivel de estudios gracias a los datos que nos proporciona el INE respecto a la estructura salarial. Para ello nos hemos descargado una hoja de excel del INE y la hemos importado a R para poder visualizarla.

Como observamos en el gráfico, pasa algo similar a lo comentado en el apartado del desempleo, a mayor nivel de estudios, mayor salario bruto mensual, siendo los mayores salarios para los estudios superiores y los menores para los analfabetos.

CODIGO

salarios <- rio::import(here::here("datos", "Salarios_nivel_educacion.xlsx"))

salarios <- salarios %>% select(`NIVELES DE FORMACION`, Periodo, Total) 

salarios <- as.data.frame(salarios)

salarios <- salarios %>% rename( Salario_bruto_mensual = Total, Fecha = Periodo, Nivel_Formacion = `NIVELES DE FORMACION`)



graf_salarios <- ggplot(salarios, aes(x = Fecha, y = Salario_bruto_mensual, color = Nivel_Formacion, group = Nivel_Formacion))+ geom_line() + geom_point() + 
  theme(plot.margin = unit (c(1,1,1,1), "cm")) +
  theme(panel.background = element_rect(size = 1),
    plot.background = element_rect(size = 0),
    legend.position = "top", legend.direction = "horizontal")  + theme(panel.background = element_rect(fill = "gray81")) + theme(legend.position = "bottom") +labs(title = "Salario por nivel de educacion",
    subtitle = "España, 2014/2020") + theme(legend.background = element_rect(fill = "gray93"))
    

ggplotly(graf_salarios)

6. Conclusion

A traves del breve trabajo realizado, he llegado a la conclusion de que desde el punto de vista personal, nos merece la pena y mucho invertir en nosotros mismos a través de la educación, ya que, como vimos en los apartados 4 y 5, un mayor nivel de educacion (entendida como un mayor nivel de estudios) nos proporciona una mayor probabilidad de encontrar empleo y además con un salario mayor en comparacion con otros individuos con menor nivel de estudios. Podemos afirmar, sin ninguna duda, que invertir en nuestra educacion es muy rentable.

7. Bibliografía

Estructura salarial

Datos wbstats

Bart Chart Race





Información de mi R-sesión:

- Session info ---------------------------------------------------------------
 setting  value                       
 version  R version 4.1.1 (2021-08-10)
 os       Windows 10 x64              
 system   x86_64, mingw32             
 ui       RTerm                       
 language (EN)                        
 collate  Spanish_Spain.1252          
 ctype    Spanish_Spain.1252          
 tz       Europe/Paris                
 date     2022-01-03                  

- Packages -------------------------------------------------------------------
 package       * version    date       lib source                        
 assertthat      0.2.1      2019-03-21 [1] CRAN (R 4.1.1)                
 backports       1.2.1      2020-12-09 [1] CRAN (R 4.1.0)                
 broom           0.7.10     2021-10-31 [1] CRAN (R 4.1.2)                
 bslib           0.3.1      2021-10-06 [1] CRAN (R 4.1.1)                
 cellranger      1.1.0      2016-07-27 [1] CRAN (R 4.1.1)                
 cli             3.0.1      2021-07-17 [1] CRAN (R 4.1.1)                
 clipr           0.7.1      2020-10-08 [1] CRAN (R 4.1.1)                
 colorspace      2.0-2      2021-06-24 [1] CRAN (R 4.1.1)                
 crayon          1.4.2      2021-10-29 [1] CRAN (R 4.1.1)                
 crosstalk       1.1.1      2021-01-12 [1] CRAN (R 4.1.1)                
 curl            4.3.2      2021-06-23 [1] CRAN (R 4.1.1)                
 data.table      1.14.0     2021-02-21 [1] CRAN (R 4.1.1)                
 DBI             1.1.1      2021-01-15 [1] CRAN (R 4.1.1)                
 dbplyr          2.1.1      2021-04-06 [1] CRAN (R 4.1.1)                
 desc            1.3.0      2021-03-05 [1] CRAN (R 4.1.1)                
 details         0.2.1      2020-01-12 [1] CRAN (R 4.1.1)                
 digest          0.6.28     2021-09-23 [1] CRAN (R 4.1.1)                
 dplyr         * 1.0.7      2021-06-18 [1] CRAN (R 4.1.1)                
 DT            * 0.19       2021-09-02 [1] CRAN (R 4.1.1)                
 ellipsis        0.3.2      2021-04-29 [1] CRAN (R 4.1.1)                
 evaluate        0.14       2019-05-28 [1] CRAN (R 4.1.1)                
 fansi           0.5.0      2021-05-25 [1] CRAN (R 4.1.1)                
 farver          2.1.0      2021-02-28 [1] CRAN (R 4.1.1)                
 fastmap         1.1.0      2021-01-25 [1] CRAN (R 4.1.1)                
 forcats       * 0.5.1      2021-01-27 [1] CRAN (R 4.1.1)                
 foreign         0.8-81     2020-12-22 [2] CRAN (R 4.1.1)                
 fs              1.5.0      2020-07-31 [1] CRAN (R 4.1.1)                
 generics        0.1.1      2021-10-25 [1] CRAN (R 4.1.1)                
 gganimate     * 1.0.7      2020-10-15 [1] CRAN (R 4.1.1)                
 ggplot2       * 3.3.5      2021-06-25 [1] CRAN (R 4.1.1)                
 gifski          1.4.3-1    2021-05-02 [1] CRAN (R 4.1.1)                
 glue            1.5.0      2021-11-07 [1] CRAN (R 4.1.2)                
 gtable          0.3.0      2019-03-25 [1] CRAN (R 4.1.1)                
 haven           2.4.3      2021-08-04 [1] CRAN (R 4.1.1)                
 here            1.0.1      2020-12-13 [1] CRAN (R 4.1.1)                
 highr           0.9        2021-04-16 [1] CRAN (R 4.1.1)                
 hms             1.1.1      2021-09-26 [1] CRAN (R 4.1.2)                
 htmltools       0.5.2      2021-08-25 [1] CRAN (R 4.1.1)                
 htmlwidgets     1.5.4      2021-09-08 [1] CRAN (R 4.1.1)                
 httr            1.4.2      2020-07-20 [1] CRAN (R 4.1.1)                
 jquerylib       0.1.4      2021-04-26 [1] CRAN (R 4.1.1)                
 jsonlite        1.7.2      2020-12-09 [1] CRAN (R 4.1.1)                
 klippy        * 0.0.0.9500 2021-12-14 [1] Github (rlesur/klippy@378c247)
 knitr         * 1.36       2021-09-29 [1] CRAN (R 4.1.1)                
 labeling        0.4.2      2020-10-20 [1] CRAN (R 4.1.0)                
 lazyeval        0.2.2      2019-03-15 [1] CRAN (R 4.1.1)                
 learningtower * 1.0.0      2021-09-06 [1] CRAN (R 4.1.2)                
 lifecycle       1.0.1      2021-09-24 [1] CRAN (R 4.1.1)                
 lubridate       1.7.10     2021-02-26 [1] CRAN (R 4.1.1)                
 magrittr        2.0.1      2020-11-17 [1] CRAN (R 4.1.1)                
 modelr          0.1.8      2020-05-19 [1] CRAN (R 4.1.1)                
 munsell         0.5.0      2018-06-12 [1] CRAN (R 4.1.1)                
 openxlsx        4.2.4      2021-06-16 [1] CRAN (R 4.1.1)                
 pillar          1.6.4      2021-10-18 [1] CRAN (R 4.1.1)                
 pkgconfig       2.0.3      2019-09-22 [1] CRAN (R 4.1.1)                
 plotly        * 4.9.4.1    2021-06-18 [1] CRAN (R 4.1.1)                
 plyr            1.8.6      2020-03-03 [1] CRAN (R 4.1.1)                
 png             0.1-7      2013-12-03 [1] CRAN (R 4.1.0)                
 prettyunits     1.1.1      2020-01-24 [1] CRAN (R 4.1.1)                
 progress        1.2.2      2019-05-16 [1] CRAN (R 4.1.1)                
 purrr         * 0.3.4      2020-04-17 [1] CRAN (R 4.1.1)                
 R6              2.5.1      2021-08-19 [1] CRAN (R 4.1.1)                
 Rcpp            1.0.7      2021-07-07 [1] CRAN (R 4.1.1)                
 readr         * 2.0.2      2021-09-27 [1] CRAN (R 4.1.1)                
 readxl          1.3.1      2019-03-13 [1] CRAN (R 4.1.1)                
 reprex          2.0.1      2021-08-05 [1] CRAN (R 4.1.1)                
 rio             0.5.27     2021-06-21 [1] CRAN (R 4.1.1)                
 rlang           0.4.12     2021-10-18 [1] CRAN (R 4.1.1)                
 rmarkdown       2.11       2021-09-14 [1] CRAN (R 4.1.1)                
 rprojroot       2.0.2      2020-11-15 [1] CRAN (R 4.1.1)                
 rstudioapi      0.13       2020-11-12 [1] CRAN (R 4.1.1)                
 rvest           1.0.2      2021-10-16 [1] CRAN (R 4.1.2)                
 sass            0.4.0      2021-05-12 [1] CRAN (R 4.1.1)                
 scales          1.1.1      2020-05-11 [1] CRAN (R 4.1.1)                
 sessioninfo     1.1.1      2018-11-05 [1] CRAN (R 4.1.1)                
 stringi         1.7.5      2021-10-04 [1] CRAN (R 4.1.1)                
 stringr       * 1.4.0      2019-02-10 [1] CRAN (R 4.1.1)                
 tibble        * 3.1.4      2021-08-25 [1] CRAN (R 4.1.1)                
 tidyr         * 1.1.3      2021-03-03 [1] CRAN (R 4.1.1)                
 tidyselect      1.1.1      2021-04-30 [1] CRAN (R 4.1.1)                
 tidyverse     * 1.3.1      2021-04-15 [1] CRAN (R 4.1.1)                
 tweenr          1.0.2      2021-03-23 [1] CRAN (R 4.1.1)                
 tzdb            0.1.2      2021-07-20 [1] CRAN (R 4.1.1)                
 utf8            1.2.2      2021-07-24 [1] CRAN (R 4.1.1)                
 vctrs           0.3.8      2021-04-29 [1] CRAN (R 4.1.1)                
 viridisLite     0.4.0      2021-04-13 [1] CRAN (R 4.1.1)                
 wbstats       * 1.0.4      2020-12-05 [1] CRAN (R 4.1.1)                
 withr           2.4.2      2021-04-18 [1] CRAN (R 4.1.1)                
 xfun            0.28       2021-11-04 [1] CRAN (R 4.1.2)                
 xml2            1.3.2      2020-04-23 [1] CRAN (R 4.1.1)                
 yaml            2.2.1      2020-02-01 [1] CRAN (R 4.1.0)                
 zip             2.2.0      2021-05-31 [1] CRAN (R 4.1.1)                

[1] C:/Users/rtoma/OneDrive/Documentos/R/win-library/4.1
[2] C:/Program Files/R/R-4.1.1/library






