bigdata

Star

Here are 156 public repositories matching this topic...

byzer-org / byzer-lang

Star

Byzer (former MLSQL): A low-code open-source programming language for data pipeline, analytics and AI.

machine-learning bigdata mlsql sql-like-dsl

Updated May 29, 2024
Scala

apache / incubator-livy

Star

Apache Livy is an open source REST interface for interacting with Apache Spark from anywhere.

spark bigdata livy apachelivy

Updated Nov 12, 2024
Scala

pingcap / tispark

Star

TiSpark is built for running Apache Spark on top of TiDB/TiKV

spark bigdata tikv tidb

Updated Jan 6, 2025
Scala

gearpump / gearpump

Star

Lightweight real-time big data streaming engine over Akka

scala akka bigdata stream-processing

Updated Mar 1, 2022
Scala

AbsaOSS / spline

Star

Data Lineage Tracking And Visualization Solution

visualization tracking scala spark hadoop bigdata lineage

Updated Jan 10, 2025
Scala

pierre94 / flink-notes

Star

flink学习笔记

bigdata flink flink-notes flinkx

Updated Jul 1, 2022
Scala

spotify / big-data-rosetta-code

Star

Code snippets for solving common big data problems in various platforms. Inspired by Rosetta Code

scala spark bigdata scalding scio

Updated Aug 13, 2024
Scala

mjakubowski84 / parquet4s

Sponsor

Star

Read and write Parquet in Scala. Use Scala classes as schema. No need to start a cluster.

aws scala akka hadoop bigdata google-storage fs2 writer streams reader parquet akka-streams parquet-files

Updated Jan 10, 2025
Scala

Azure / azure-event-hubs-spark

Star

Enabling Continuous Data Processing with Apache Spark and Azure Event Hubs

microsoft streaming real-time scala kafka spark apache-spark stream connector azure bigdata apache spark-streaming eventhubs ingestion continuous event-hubs databricks structured-streaming

Updated Jun 11, 2024
Scala

Clustering4Ever / Clustering4Ever

Star

C4E, a JVM friendly library written in Scala for both local and distributed (Spark) Clustering.

scala big-data ai spark clustering bigdata scalability artificial-intelligence clustering-algorithm clustering-evaluation

Updated Jan 26, 2021
Scala

MemVerge / splash

Star

Splash, a flexible Spark shuffle manager that supports user-defined storage backends for shuffle data storage and exchange

java scala spark apache-spark storage bigdata elasticity disaggregation shuffle

Updated Dec 19, 2024
Scala

soniclavier / bigdata-notebook

Star

machine-learning streaming kafka spark hadoop storm bigdata flume flink

Updated Nov 26, 2019
Scala

minio / spark-select

Star

A library for Spark DataFrame using MinIO Select API

select spark sbt bigdata pyspark minio parquet-files spark-sql amazon-s3

Updated Sep 27, 2019
Scala

dimajix / flowman

Star

Flowman is an ETL framework powered by Apache Spark. With its declarative approach, Flowman simplifies the development of complex data pipelines.

scala sql big-data spark apache-spark hadoop etl bigdata data-engineering flowman

Updated Jan 10, 2025
Scala

LearningJournal / SparkProgrammingInScala

Star

Apache Spark Course Material

scala big-data spark apache-spark bigdata data-lake datalake spark-sql spark-scala

Updated Apr 21, 2023
Scala

funkyminds / cleanframes

Star

type-class based data cleansing library for Apache Spark SQL

scala spark bigdata shapeless sparksql sparkscala apachespark

Updated Jun 23, 2019
Scala

LearningJournal / Spark-Streaming-In-Scala

Star

Apache Spark 3 - Structured Streaming Course Material

scala big-data spark apache-spark bigdata spark-streaming datalake spark-sql

Updated Sep 8, 2020
Scala

Java-Edge / Spark-MLlib-Tutorial

Star

大数据框架 Spark MLlib 机器学习库基础算法全面讲解,附带齐全的测试文件

machine-learning spark bigdata mllib

Updated Mar 22, 2024
Scala

SharpData / SharpETL

Star

Write ETL using your favorite SQL dialects

scala sql spark hive etl bigdata data-warehouse flink datawarehouse spark-sql etl-framework flink-sql paimon

Updated Jan 7, 2024
Scala

bebee4java / ides

Star

智能数据探索服务(Intelligent Data Exploration Service)，一站式Data + AI数据解决方案！

data-science data sql ai spark etl bigdata ml stream-processing olap daas data-analysis batch-processing ides datalink

Updated Jul 10, 2023
Scala

Improve this page

Add a description, image, and links to the bigdata topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the bigdata topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bigdata

Here are 156 public repositories matching this topic...

byzer-org / byzer-lang

apache / incubator-livy

pingcap / tispark

gearpump / gearpump

AbsaOSS / spline

pierre94 / flink-notes

spotify / big-data-rosetta-code

mjakubowski84 / parquet4s

Azure / azure-event-hubs-spark

Clustering4Ever / Clustering4Ever

MemVerge / splash

soniclavier / bigdata-notebook

minio / spark-select

dimajix / flowman

LearningJournal / SparkProgrammingInScala

funkyminds / cleanframes

LearningJournal / Spark-Streaming-In-Scala

Java-Edge / Spark-MLlib-Tutorial

SharpData / SharpETL

bebee4java / ides

Improve this page

Add this topic to your repo