Glosario Funciones Utilizadas

Mostramos un listado de acciones y transformaciones que se usaron en este proyecto con una breve descripción

min ._ devuelve el elemento más pequeño de una columna númerica
max ._devuelve el elemento más grande de una columna númerica
stat.freqItems ._ devuelve un arreglo de los elementos únicos de la columna seleccionada
groupBy._ devuelve un dataRelational donde permite agrupar los datos únicos de una columna
filter ._ permite seleccionar datos en funcion a una condición
option._ se usa para darle estructura al dataframe que vamos a cargar
read ._ función de SparkContext que permite dar formato a archivos csv, txt para su lectura adecuada
join ._ permite unir dos dataframe
round._ redondear valores numéricos
format_number ._ permite limitar el número de los decimales
cast._ casting o conversión de tipos de datos
withColum ._ seleccionar columnas
withColumnRenamed ._ como su nombre lo dice renombrar columnas
as._ renomar columnas
select ._ selecionar columnas que se desean mostrar
orderBy ._ orden las filas segun un parametro especifico
printSchema ._ muestra los tipos de datos del esquema que tiene el dataframe
show ._ mostrar un redultado
schema.last.name ._ seleccionar el nombre de la última columna
count._ devuelve un dato numérico por los valores únicos contabilizados
agg._ agregar columnas a un dataframe
instanceOf[]._ convertir tipos de datos
summary._ resumen porcentual
describe._ describe un dataframe dependiendo de los parametros que se le pase
take._ retoma una muestra de las filas especificadas
col._ seleccionar columnas
expr._ sirve para manipular columnas
where._ filtrar filas según una condición especificada
distinct._ retona los valores únicos de una columna
drop._ eliminar columnas
avg._ devuelve promedio de una columna númericq
stat.crosstab._ muestra los datos únicos como columnas en funciòn a otra columna , recibe varios parametros
pivot._ muestra los datos únicos como columnas en funciòn a otra columna, recibe un solo parametro.
stat.approxQuantile._ retorna los cuartiles
explain(extended = true)._ explica el optimizador catalyst
stddev._ desviación estándar
mean._ devuelve el promedio de la columna
first._ toma la primer fila
getClass._ devuelve el tipo de dato Ejemplo:

data3.stat.crosstab("provincia", "genero").getClass
res1: Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.Dataset

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Glosario Funciones Utilizadas

Mostramos un listado de acciones y transformaciones que se usaron en este proyecto con una breve descripción

Clone this wiki locally