Skip to content

Latest commit

 

History

History
38 lines (29 loc) · 1.12 KB

PySpark笔记.md

File metadata and controls

38 lines (29 loc) · 1.12 KB

PySpark 笔记

last modify

环境设置

Python 依赖管理

How to Manage Python Dependencies in Spark - The Databricks Blog

# 基于 conda
# 进入需要打包的 conda 环境
conda activate my_pyspark

# 安装 conda-pack, 使用 -c conda-forge 安装最新版本
conda install conda-pack -c conda-forge

# 打包当前环境, -f 表示强制覆盖已存在的文件
conda-pack -f -o my_pyspark.tar.gz

# 打包指定环境
conda-pack -f -n some_env -o some_env.tar.gz

注意使用 conda-pack 而不是 conda pack, 否则可能会不兼容 python3.10+

Conda pack does not work with Python 3.10 or 3.11 · Issue #244 · conda/conda-pack