Table of contents
Jupyter notebook là một công cụ tương tác dạng web-based để tạo ra các document Jupyter notebook. Nó hỗ trợ rất nhiều ngôn ngữ như Python (IPython), Julia, R, ... và là công cụ cực kỳ phổ biến sử dụng cho data analysis, data visualization.
JupyterLab là user interface thế hệ tiếp theo, bao gồm notebook bên trong. Nó có cấu trúc module nơi bạn có thể tạo nhiều notebook hoặc file (HTML, Markdown, Text,...) dưới dạng các tab trong cùng một cửa sổ. JupyterLab mang lại trải nghiệm giống như một IDE.
Bài viết này mình sẽ hướng dẫn các bạn để có thể sử dụng JupyterLab với Spark Scala như một môi trường để dev/test/debug đơn giản.
Bước 1: Cài đặt Spark
Follow theo bài viết hướng dẫn : freecodecamp.org/news/installing-scala-and-..
Bước 2: Cài đặt Anaconda Python
Cài đặt theo hướng dẫn từ trang chủ Anaconda: docs.anaconda.com/anaconda/install/mac-os
Bước 3: Cài đặt Spark Kernal trên Jupyter
Cài đặt spylon-kernel sử dụng pip
pip install spylon-kernel
Tạo kernel spec
Để có thể sử dụng Spark kernal trên Jupyter, sử dụng câu lệnh:
python -m spylon_kernel install
Bước 4: Sử dụng Spark Scala trên Jupupyter Hub
Launch JupyterLab từ Anaconda
Chọn spylon-kernel trong phần notebook
Khởi tạo SparkSession để sử dụng Spark local
Sử dụng câu lệnh:
print(spark)
Và kết quả là...
Bây giờ bạn đã có thể thoải mái sử dụng Spark Scala trên JupyterLab rồi!