-
Notifications
You must be signed in to change notification settings - Fork 0
Glosario Funciones Utilizadas
davidAlvarez24913 edited this page Aug 3, 2020
·
9 revisions
Mostramos un listado de acciones y transformaciones que se usaron en este proyecto con una breve descripción
- min ._ devuelve el elemento más pequeño de una columna númerica
- max ._devuelve el elemento más grande de una columna númerica
- stat.freqItems ._ devuelve un arreglo de los elementos únicos de la columna seleccionada
- groupBy._ devuelve un dataRelational donde permite agrupar los datos únicos de una columna
- filter ._ permite seleccionar datos en funcion a una condición
- option._ se usa para darle estructura al dataframe que vamos a cargar
- read ._ función de SparkContext que permite dar formato a archivos csv, txt para su lectura adecuada
- join ._ permite unir dos dataframe
- round._ redondear valores numéricos
- format_number ._ permite limitar el número de los decimales
- cast._ casting o conversión de tipos de datos
- withColum ._ seleccionar columnas
- withColumnRenamed ._ como su nombre lo dice renombrar columnas
- as._ renomar columnas
- select ._ selecionar columnas que se desean mostrar
- orderBy ._ orden las filas segun un parametro especifico
- printSchema ._ muestra los tipos de datos del esquema que tiene el dataframe
- show ._ mostrar un redultado
- schema.last.name ._ seleccionar el nombre de la última columna
- count._ devuelve un dato numérico por los valores únicos contabilizados
- agg._ agregar columnas a un dataframe
- instanceOf[]._ convertir tipos de datos
- summary._ resumen porcentual
- describe._ describe un dataframe dependiendo de los parametros que se le pase
- take._ retoma una muestra de las filas especificadas
- col._ seleccionar columnas
- expr._ sirve para manipular columnas
- where._ filtrar filas según una condición especificada
- distinct._ retona los valores únicos de una columna
- drop._ eliminar columnas
- avg._ devuelve promedio de una columna númericq
- stat.crosstab._ muestra los datos únicos como columnas en funciòn a otra columna , recibe varios parametros
- pivot._ muestra los datos únicos como columnas en funciòn a otra columna, recibe un solo parametro.
- stat.approxQuantile._ retorna los cuartiles
- explain(extended = true)._ explica el optimizador catalyst
- stddev._ desviación estándar
- mean._ devuelve el promedio de la columna
- first._ toma la primer fila
- getClass._ devuelve el tipo de dato Ejemplo:
data3.stat.crosstab("provincia", "genero").getClass
res1: Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.Dataset