python熱力圖實現的完整範例

2022-06-24 18:01:56

一、資料無量綱化處理 (熱力圖)

1.資料無量綱化處理(僅介紹本文用到的方法):min-max歸一化

該方法是對原始資料進行線性變換，將其對映到[0,1]之間,該方法也被稱為離差標準化。

上式中，min是樣本的最小值，max是樣本的最大值。由於最大值與最小值可能是動態變化的，同時也非常容易受噪聲(異常點、離群點)影響，因此一般適合小資料的場景。此外，該方法還有兩點好處：

1) 如果某屬性/特徵的方差很小，如身高：np.array([[1.70],[1.71],[1.72],[1.70],[1.73]])，實際5條資料在身高這個特徵上是有差異的，但是卻很微弱，這樣不利於模型的學習，進行min-max歸一化後為：array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]])，相當於放大了差異；

2) 維持稀疏矩陣中為0的條目。

2.程式碼展示

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
 
wine = load_wine()
data = wine.data  # 資料
lables = wine.target  # 標籤
feaures = wine.feature_names
df = pd.DataFrame(data, columns=feaures)  # 原始資料
 
# 第一步：無量綱化
def standareData(df):
    """
    df : 原始資料
    return : data 標準化的資料
    """
    data = pd.DataFrame(index=df.index)  # 列名，一個新的dataframe
    columns = df.columns.tolist()  # 將列名提取出來
    for col in columns:
        d = df[col]
        max = d.max()
        min = d.min()
        mean = d.mean()
        data[col] = ((d - mean) / (max - min)).tolist()
    return data
 
#  某一列當做參照序列，其他為對比序列
def graOne(Data, m=0):
    """
    return:
    """
    columns = Data.columns.tolist()  # 將列名提取出來
    # 第一步：無量綱化
    data = standareData(Data)
    referenceSeq = data.iloc[:, m]  # 參考序列
    data.drop(columns[m], axis=1, inplace=True)  # 刪除參考列
    compareSeq = data.iloc[:, 0:]  # 對比序列
    row, col = compareSeq.shape
    # 第二步：參考序列 - 對比序列
    data_sub = np.zeros([row, col])
    for i in range(col):
        for j in range(row):
            data_sub[j, i] = abs(referenceSeq[j] - compareSeq.iloc[j, i])
    # 找出最大值和最小值
    maxVal = np.max(data_sub)
    minVal = np.min(data_sub)
    cisi = np.zeros([row, col])
    for i in range(row):
        for j in range(col):
            cisi[i, j] = (minVal + 0.5 * maxVal) / (data_sub[i, j] + 0.5 * maxVal)
    # 第三步：計算關聯度
    result = [np.mean(cisi[:, i]) for i in range(col)]
    result.insert(m, 1)  # 參照列為1
    return pd.DataFrame(result)
 
def GRA(Data):
    df = Data.copy()
    columns = [str(s) for s in df.columns if s not in [None]]  # [1 2 ,,,12]
    # print(columns)
    df_local = pd.DataFrame(columns=columns)
    df.columns = columns
    for i in range(len(df.columns)):  # 每一列都做參照序列，求關聯絡數
        df_local.iloc[:, i] = graOne(df, m=i)[0]
    df_local.index = columns
    return df_local
 
# 熱力圖展示
def ShowGRAHeatMap(DataFrame):
    colormap = plt.cm.hsv
    ylabels = DataFrame.columns.values.tolist()
    f, ax = plt.subplots(figsize=(15, 15))
    ax.set_title('Wine GRA')
    # 設定展示一半，如果不需要註釋掉mask即可
    mask = np.zeros_like(DataFrame)
    mask[np.triu_indices_from(mask)] = True  # np.triu_indices 上三角矩陣
 
    with sns.axes_style("white"):
        sns.heatmap(DataFrame,
                    cmap="YlGnBu",
                    annot=True,
                    mask=mask,
                    )
    plt.show()
 
data_wine_gra = GRA(df)
ShowGRAHeatMap(data_wine_gra)

3.效果展示

二、皮爾斯係數相關(熱力圖)

1.數學知識

利用熱力圖可以看資料表裡多個特徵兩兩的相似度。

相似度由皮爾遜相關係數度量。

兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商：

2.程式碼展示

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
 
# ====熱力圖
from matplotlib.ticker import FormatStrFormatter
encoding="utf-8"
data = pd.read_csv("tu.csv", encoding="utf-8")     #讀取資料
data.drop_duplicates()
data.columns = [i for i in range(data.shape[1])]
 
# 計算兩兩屬性之間的皮爾森相關係數
corrmat = data.corr()
f, ax = plt.subplots(figsize=(12, 9))
 
# 返回按「列」降序排列的前n行
k = 30
cols = corrmat.nlargest(k, data.columns[0]).index
 
# 返回皮爾遜積矩相關係數
cm = np.corrcoef(data[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm,
                 cbar=True,
                 annot=True,
                 square=True,
                 fmt=".3f",
                 vmin=0,             #刻度閾值
                 vmax=1,
                 linewidths=.5,
                 cmap="RdPu",        #刻度顏色
                 annot_kws={"size": 10},
                 xticklabels=True,
                 yticklabels=True)             #seaborn.heatmap相關屬性
# 解決中文顯示問題
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# plt.ylabel(fontsize=15,)
# plt.xlabel(fontsize=15)
plt.title("主要變數之間的相關性強弱", fontsize=20)
plt.show()

3.seaborn.heatmap屬性介紹

1）Seaborn是基於matplotlib的Python視覺化庫

seaborn.heatmap()熱力圖，用於展示一組變數的相關係數矩陣，列聯表的資料分佈，通過熱力圖我們可以直觀地看到所給數值大小的差異狀況。

seaborn.heatmap(data, vmin=None, 
vmax=None, cmap=None, center=None, 
robust=False, annot=None, fmt='.2g', 
annot_kws=None, linewidths=0, linecolor='white',
 cbar=True, cbar_kws=None, cbar_ax=None, 
square=False, xticklabels='auto', yticklabels='auto',
 mask=None, ax=None, **kwargs)

2）引數輸出(均為預設值)

sns.heatmap(
      data,
      vmin=None,
      vmax=None,
      cmap=None,
      center=None,
      robust=False,
      annot=None,
      fmt='.2g',
      annot_kws=None,
      linewidths=0,
      linecolor=‘white',
      cbar=True,
      cbar_kws=None,
      cbar_ax=None,
      square=False,
      xticklabels=‘auto',
      yticklabels=‘auto',
      mask=None,
      ax=None,
)

3）具體介紹

（1）熱力圖輸入資料引數
data:矩陣資料集，可以是numpy的陣列（array），也可以是pandas的DataFrame。如果是DataFrame，則df的index/column資訊會分別對應到heatmap的columns和rows，即df.index是熱力圖的行標，df.columns是熱力圖的列標
（2）熱力圖矩陣塊顏色引數
vmax,vmin:分別是熱力圖的顏色取值最大和最小範圍，預設是根據data資料表裡的取值確定
cmap:從數位到色彩空間的對映，取值是matplotlib包裡的colormap名稱或顏色物件，或者表示顏色的列表；改引數預設值：根據center引數設定
center:資料表取值有差異時，設定熱力圖的色彩中心對齊值；通過設定center值，可以調整生成的影象顏色的整體深淺；設定center資料時，如果有資料溢位，則手動設定的vmax、vmin會自動改變
robust:預設取值False；如果是False，且沒設定vmin和vmax的值，熱力圖的顏色對映範圍根據具有魯棒性的分位數設定，而不是用極值設定
（3）熱力圖矩陣塊註釋引數
annot(annotate的縮寫):預設取值False；如果是True，在熱力圖每個方格寫入資料；如果是矩陣，在熱力圖每個方格寫入該矩陣對應位置資料
fmt:字串格式程式碼，矩陣上標識數位的資料格式，比如保留小數點後幾位數位
annot_kws:預設取值False；如果是True，設定熱力圖矩陣上數位的大小顏色字型，matplotlib包text類下的字型設定；
（4）熱力圖矩陣塊之間間隔及間隔線引數
linewidths:定義熱力圖裡“表示兩兩特徵關係的矩陣小塊”之間的間隔大小
linecolor:切分熱力圖上每個矩陣小塊的線的顏色，預設值是’white’
（5）熱力圖顏色刻度條引數
cbar:是否在熱力圖側邊繪製顏色刻度條，預設值是True
cbar_kws:熱力圖側邊繪製顏色刻度條時，相關字型設定，預設值是None
cbar_ax:熱力圖側邊繪製顏色刻度條時，刻度條位置設定，預設值是None
（6）square:設定熱力圖矩陣小塊形狀，預設值是False
xticklabels, yticklabels:xticklabels控制每列標籤名的輸出；yticklabels控制每行標籤名的輸出。預設值是auto。如果是True，則以DataFrame的列名作為標籤名。如果是False，則不新增行標籤名。如果是列表，則標籤名改為列表中給的內容。如果是整數K，則在圖上每隔K個標籤進行一次標註。如果是auto，則自動選擇標籤的標註間距，將標籤名不重疊的部分(或全部)輸出
mask:控制某個矩陣塊是否顯示出來。預設值是None。如果是布林型的DataFrame，則將DataFrame裡True的位置用白色覆蓋掉
ax:設定作圖的座標軸，一般畫多個子圖時需要修改不同的子圖的該值
**kwargs:所有其他關鍵字引數都傳遞給 ax.pcolormesh。