如何使用pycharm連線Databricks的步驟詳解

2020-09-23 15:01:12

在本地使用pycharm連線databricks，大致步驟如下：

首先，為了讓本地環境能夠識別遠端的databricks叢集環境，需要收集databricks的基本資訊和自己databricks的token，這些資訊能夠讓本地環境識別databricks；接著，需要使用到工具 anaconda建立一個虛擬環境，連線databricks；最後，將虛擬環境匯入pycharm。

（下面的圖渣渣，因為直接拖進來的）

第0步：檢查

檢查java版本，需要時1.8開頭的版本，如果不是，請到這裡下載：https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

第1步：收集databricks的資訊

檢視python版本 (還不知道怎麼看，這裡cluster的python版本為3.7)
檢視Runtime Version

檢視cluster ulr，解析出下面資訊

生成token,點選這個小人-user setting

最後，這是我們收集到的所有資訊

第2步：安裝anaconda

如果已經安裝anaconda，請略過這一步
沒有安裝，可以看這個教學
https://www.jb51.net/article/196286.htm

第3步：使用anaconda建立虛擬環境

下面的引數資訊，使用第一步收集的資訊
開啟anaconda的命令列

建立一個3.7版本的虛擬隔離環境

conda create -n dbconnect python=3.7

使用環境

conda activate dbconnect

解除安裝pyspark，如果是新建立的環境，可以不用執行這步（這是為了確保，建立的環境不能有pyspark的包，因為會產生包的問題）

pip uninstall pyspark

下面開始安裝包，但是為了讓安裝速度快一些，使用清華映象

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
conda config --set show_channel_urls yes

檢視是否切換到映象

conda config --show channels

可以看到已經切換

安裝connect包，第一步中確定的run的版本為6.4，故選擇6.4.* （用公司的網路，下載很慢，我用自己的熱點）

pip install -U databricks-connect==6.4.*

連線遠端databricks，並輸入第一步收集的相關資訊

databricks-connect configure

測試是否已經連線上：

databricks-connect test

已經在啟動節點了

檢視databricks,可以看到

第4步：pycharm匯入虛擬環境

開啟pycahrm，點選setting

選擇直譯器，點選小齒輪的add'

選擇剛才我們建立好的dbconnect

點選ok，可以看到已經選好了環境

不知道為啥連線不到遠端的包，我的專案還需要在本地安裝一些用的包

conda install scikit-learn==0.22.1
conda install pandas==0.24.2
conda install pyarrow==0.15.1

在pycharm測試執行一下：

import pandas as pd
import numpy as np

# Generate a pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

from pyspark.sql import *
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(pdf)

print(df.head(5))

去databrick的cluster log看一下，已經啟動了節點，正在執行

到此這篇關於如何使用pycharm連線Databricks的步驟詳解的文章就介紹到這了,更多相關pycharm連線Databricks內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！

如何使用pycharm連線Databricks的步驟詳解

熱門文章