Sử dụng Spark Scala trên JupyterLab

Sử dụng Spark Scala trên JupyterLab

·

2 min read

Jupyter notebook là một công cụ tương tác dạng web-based để tạo ra các document Jupyter notebook. Nó hỗ trợ rất nhiều ngôn ngữ như Python (IPython), Julia, R, ... và là công cụ cực kỳ phổ biến sử dụng cho data analysis, data visualization.

JupyterLab là user interface thế hệ tiếp theo, bao gồm notebook bên trong. Nó có cấu trúc module nơi bạn có thể tạo nhiều notebook hoặc file (HTML, Markdown, Text,...) dưới dạng các tab trong cùng một cửa sổ. JupyterLab mang lại trải nghiệm giống như một IDE.

Bài viết này mình sẽ hướng dẫn các bạn để có thể sử dụng JupyterLab với Spark Scala như một môi trường để dev/test/debug đơn giản.

Bước 1: Cài đặt Spark

Follow theo bài viết hướng dẫn : freecodecamp.org/news/installing-scala-and-..

Bước 2: Cài đặt Anaconda Python

Cài đặt theo hướng dẫn từ trang chủ Anaconda: docs.anaconda.com/anaconda/install/mac-os

Bước 3: Cài đặt Spark Kernal trên Jupyter

Cài đặt spylon-kernel sử dụng pip

pip install spylon-kernel

Screen Shot 2022-06-04 at 23.20.42.png

Tạo kernel spec

Để có thể sử dụng Spark kernal trên Jupyter, sử dụng câu lệnh:

python -m spylon_kernel install

Screen Shot 2022-06-04 at 23.20.52.png

Bước 4: Sử dụng Spark Scala trên Jupupyter Hub

Launch JupyterLab từ Anaconda

launch_jupyter.png

Chọn spylon-kernel trong phần notebook

Screen Shot 2022-06-04 at 23.43.18.png

Khởi tạo SparkSession để sử dụng Spark local

Sử dụng câu lệnh:

print(spark)

Và kết quả là...

Screen Shot 2022-06-04 at 23.45.57.png

Bây giờ bạn đã có thể thoải mái sử dụng Spark Scala trên JupyterLab rồi!