Skip to content

Glosario Funciones Utilizadas

davidAlvarez24913 edited this page Aug 3, 2020 · 9 revisions

Mostramos un listado de acciones y transformaciones que se usaron en este proyecto con una breve descripción

  1. min ._ devuelve el elemento más pequeño de una columna númerica
  2. max ._devuelve el elemento más grande de una columna númerica
  3. stat.freqItems ._ devuelve un arreglo de los elementos únicos de la columna seleccionada
  4. groupBy._ devuelve un dataRelational donde permite agrupar los datos únicos de una columna
  5. filter ._ permite seleccionar datos en funcion a una condición
  6. option._ se usa para darle estructura al dataframe que vamos a cargar
  7. read ._ función de SparkContext que permite dar formato a archivos csv, txt para su lectura adecuada
  8. join ._ permite unir dos dataframe
  9. round._ redondear valores numéricos
  10. format_number ._ permite limitar el número de los decimales
  11. cast._ casting o conversión de tipos de datos
  12. withColum ._ seleccionar columnas
  13. withColumnRenamed ._ como su nombre lo dice renombrar columnas
  14. as._ renomar columnas
  15. select ._ selecionar columnas que se desean mostrar
  16. orderBy ._ orden las filas segun un parametro especifico
  17. printSchema ._ muestra los tipos de datos del esquema que tiene el dataframe
  18. show ._ mostrar un redultado
  19. schema.last.name ._ seleccionar el nombre de la última columna
  20. count._ devuelve un dato numérico por los valores únicos contabilizados
  21. agg._ agregar columnas a un dataframe
  22. instanceOf[]._ convertir tipos de datos
  23. summary._ resumen porcentual
  24. describe._ describe un dataframe dependiendo de los parametros que se le pase
  25. take._ retoma una muestra de las filas especificadas
  26. col._ seleccionar columnas
  27. expr._ sirve para manipular columnas
  28. where._ filtrar filas según una condición especificada
  29. distinct._ retona los valores únicos de una columna
  30. drop._ eliminar columnas
  31. avg._ devuelve promedio de una columna númericq
  32. stat.crosstab._ muestra los datos únicos como columnas en funciòn a otra columna , recibe varios parametros
  33. pivot._ muestra los datos únicos como columnas en funciòn a otra columna, recibe un solo parametro.
  34. stat.approxQuantile._ retorna los cuartiles
  35. explain(extended = true)._ explica el optimizador catalyst
  36. stddev._ desviación estándar
  37. mean._ devuelve el promedio de la columna
  38. first._ toma la primer fila
  39. getClass._ devuelve el tipo de dato Ejemplo:
data3.stat.crosstab("provincia", "genero").getClass
res1: Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.Dataset