2021-05-12 14:32:11
如何使用pycharm連線Databricks的步驟詳解
在本地使用pycharm連線databricks,大致步驟如下:
首先,為了讓本地環境能夠識別遠端的databricks叢集環境,需要收集databricks的基本資訊和自己databricks的token,這些資訊能夠讓本地環境識別databricks;接著,需要使用到工具 anaconda建立一個虛擬環境,連線databricks;最後,將虛擬環境匯入pycharm。
(下面的圖渣渣,因為直接拖進來的)
第0步:檢查
檢查java版本,需要時1.8開頭的版本,如果不是,請到這裡下載:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
第1步:收集databricks的資訊
檢視python版本 (還不知道怎麼看,這裡cluster的python版本為3.7)
檢視Runtime Version
檢視cluster ulr,解析出下面資訊
生成token,點選這個小人-user setting
最後,這是我們收集到的所有資訊
第2步:安裝anaconda
如果已經安裝anaconda,請略過這一步
沒有安裝,可以看這個教學
https://www.jb51.net/article/196286.htm
第3步:使用anaconda建立虛擬環境
下面的引數資訊,使用第一步收集的資訊
開啟anaconda的命令列
建立一個3.7版本的虛擬隔離環境
conda create -n dbconnect python=3.7
使用環境
conda activate dbconnect
解除安裝pyspark,如果是新建立的環境,可以不用執行這步(這是為了確保,建立的環境不能有pyspark的包,因為會產生包的問題)
pip uninstall pyspark
下面開始安裝包,但是為了讓安裝速度快一些,使用清華映象
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/ conda config --set show_channel_urls yes
檢視是否切換到映象
conda config --show channels
可以看到已經切換
安裝connect包,第一步中確定的run的版本為6.4,故選擇6.4.* (用公司的網路,下載很慢,我用自己的熱點)
pip install -U databricks-connect==6.4.*
連線遠端databricks,並輸入第一步收集的相關資訊
databricks-connect configure
測試是否已經連線上:
databricks-connect test
已經在啟動節點了
檢視databricks,可以看到
第4步:pycharm匯入虛擬環境
開啟pycahrm,點選setting
選擇直譯器,點選小齒輪的add'
選擇剛才我們建立好的dbconnect
點選ok,可以看到已經選好了環境
不知道為啥連線不到遠端的包,我的專案還需要在本地安裝一些用的包
conda install scikit-learn==0.22.1 conda install pandas==0.24.2 conda install pyarrow==0.15.1
在pycharm測試執行一下:
import pandas as pd import numpy as np # Generate a pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) from pyspark.sql import * spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame(pdf) print(df.head(5))
去databrick的cluster log看一下,已經啟動了節點,正在執行
到此這篇關於如何使用pycharm連線Databricks的步驟詳解的文章就介紹到這了,更多相關pycharm連線Databricks內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章