首頁 > 軟體

如何使用pycharm連線Databricks的步驟詳解

2020-09-23 15:01:12

在本地使用pycharm連線databricks,大致步驟如下:

首先,為了讓本地環境能夠識別遠端的databricks叢集環境,需要收集databricks的基本資訊和自己databricks的token,這些資訊能夠讓本地環境識別databricks;接著,需要使用到工具 anaconda建立一個虛擬環境,連線databricks;最後,將虛擬環境匯入pycharm。

(下面的圖渣渣,因為直接拖進來的)

第0步:檢查

檢查java版本,需要時1.8開頭的版本,如果不是,請到這裡下載:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

第1步:收集databricks的資訊

檢視python版本 (還不知道怎麼看,這裡cluster的python版本為3.7)
檢視Runtime Version

檢視cluster ulr,解析出下面資訊

生成token,點選這個小人-user setting



最後,這是我們收集到的所有資訊

第2步:安裝anaconda

如果已經安裝anaconda,請略過這一步
沒有安裝,可以看這個教學
https://www.jb51.net/article/196286.htm

第3步:使用anaconda建立虛擬環境

下面的引數資訊,使用第一步收集的資訊
開啟anaconda的命令列

建立一個3.7版本的虛擬隔離環境

conda create -n dbconnect python=3.7

使用環境

conda activate dbconnect

解除安裝pyspark,如果是新建立的環境,可以不用執行這步(這是為了確保,建立的環境不能有pyspark的包,因為會產生包的問題)

pip uninstall pyspark

下面開始安裝包,但是為了讓安裝速度快一些,使用清華映象

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

檢視是否切換到映象

conda config --show channels

可以看到已經切換

安裝connect包,第一步中確定的run的版本為6.4,故選擇6.4.* (用公司的網路,下載很慢,我用自己的熱點)

pip install -U databricks-connect==6.4.*

連線遠端databricks,並輸入第一步收集的相關資訊

databricks-connect configure

測試是否已經連線上:

databricks-connect test

已經在啟動節點了

檢視databricks,可以看到

第4步:pycharm匯入虛擬環境

開啟pycahrm,點選setting

選擇直譯器,點選小齒輪的add'

選擇剛才我們建立好的dbconnect

點選ok,可以看到已經選好了環境

不知道為啥連線不到遠端的包,我的專案還需要在本地安裝一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

在pycharm測試執行一下:

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下,已經啟動了節點,正在執行

到此這篇關於如何使用pycharm連線Databricks的步驟詳解的文章就介紹到這了,更多相關pycharm連線Databricks內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com