首頁 > 軟體

Python載入檔案內容的兩種實現方式

2022-09-28 14:00:48

說到機器學習,大家首先想到的可能就是Python和演演算法了,其實光有Python和演演算法是不夠的,資料才是進行機器學習的前提。

大多數的資料都會儲存在檔案中,要想通過Python呼叫演演算法對資料進行相關學習,首先就要將資料讀入程式中,本文介紹兩種載入資料的方式,在之後的演演算法介紹中,將頻繁使用這兩種方式將資料載入到程式。

下面我們將以Logistic Regression模型載入資料為例,分別對兩種不同的載入資料的方式進行介紹。

一、利用open()函數進行載入

def load_file(file_name):
    '''
    利用open()函數載入檔案
    :param file_name: 檔名
    :return: 特徵矩陣、標籤矩陣
    '''
    f = open(file_name)  # 開啟訓練資料集所在的檔案
    feature = []  # 存放特徵的列表
    label = []  #存放標籤的列表
    for row in f.readlines():
        f_tmp = []  # 存放特徵的中間列表
        l_tmp = []  # 存放標籤的中間列表
        number = row.strip().split("t")  # 按照t分割每行的元素,得到每行特徵和標籤
        f_tmp.append(1)  # 設定偏置項
        for i in range(len(number) - 1):
            f_tmp.append(float(number[i]))
        l_tmp.append(float(number[-1]))
        feature.append(f_tmp)
        label.append(l_tmp)
    f.close()  # 關閉檔案,很重要的操作
    return np.mat(feature), np.mat(label)

二、利用Pandas庫中的read_csv()方法進行載入

def load_file_pd(path, file_name):
    '''
    利用pandas庫載入檔案
    :param path: 檔案路徑
    :param file_name: 檔名稱
    :return: 特徵矩陣、標籤矩陣
    '''
    feature = pd.read_csv(path + file_name, delimiter="t", header=None, usecols=[0, 1])
    feature.columns = ["a", "b"]
    feature = feature.reindex(columns=list('cab'), fill_value=1)
    label = pd.read_csv(path + file_name, delimiter="t", header=None, usecols=[2])
    return feature.values, label.values

三、範例

我們可以使用上述的兩種方法載入部分資料進行測試,資料內容如下:

資料分為三列,前兩列是特徵,最後一列是標籤。

載入資料程式碼如下:

'''
兩種方式載入檔案
'''
 
import pandas as pd
import numpy as np
 
def load_file(file_name):
    '''
    利用open()函數載入檔案
    :param file_name: 檔名
    :return: 特徵矩陣、標籤矩陣
    '''
    f = open(file_name)  # 開啟訓練資料集所在的檔案
    feature = []  # 存放特徵的列表
    label = []  #存放標籤的列表
    for row in f.readlines():
        f_tmp = []  # 存放特徵的中間列表
        l_tmp = []  # 存放標籤的中間列表
        number = row.strip().split("t")  # 按照t分割每行的元素,得到每行特徵和標籤
        f_tmp.append(1)  # 設定偏置項
        for i in range(len(number) - 1):
            f_tmp.append(float(number[i]))
        l_tmp.append(float(number[-1]))
        feature.append(f_tmp)
        label.append(l_tmp)
    f.close()  # 關閉檔案,很重要的操作
    return np.mat(feature), np.mat(label)
 
def load_file_pd(path, file_name):
    '''
    利用pandas庫載入檔案
    :param path: 檔案路徑
    :param file_name: 檔名稱
    :return: 特徵矩陣、標籤矩陣
    '''
    feature = pd.read_csv(path + file_name, delimiter="t", header=None, usecols=[0, 1])
    feature.columns = ["a", "b"]
    feature = feature.reindex(columns=list('cab'), fill_value=1)
    label = pd.read_csv(path + file_name, delimiter="t", header=None, usecols=[2])
    return feature.values, label.values
 
if __name__ == "__main__":
    path = "C://Users//Machenike//Desktop//xzw//"
    feature, label = load_file(path + "test.txt")
    feature_pd, label_pd = load_file_pd(path, "test.txt")
    print(feature)
    print(feature_pd)
    print(label)
    print(label_pd)

測試結果:

[[ 1.          1.43481273  4.54377111]
 [ 1.          5.80444603  7.72222239]
 [ 1.          2.89737803  4.84582798]
 [ 1.          3.48896827  9.42538199]
 [ 1.          7.98990181  9.38748992]
 [ 1.          6.07911968  7.81580716]
 [ 1.          8.54988938  9.83106546]
 [ 1.          1.86253147  3.64519173]
 [ 1.          5.09264649  7.16456405]
 [ 1.          0.64048734  2.96504627]
 [ 1.          0.44568267  7.27017831]]
[[ 1.          1.43481273  4.54377111]
 [ 1.          5.80444603  7.72222239]
 [ 1.          2.89737803  4.84582798]
 [ 1.          3.48896827  9.42538199]
 [ 1.          7.98990181  9.38748992]
 [ 1.          6.07911968  7.81580716]
 [ 1.          8.54988938  9.83106546]
 [ 1.          1.86253147  3.64519173]
 [ 1.          5.09264649  7.16456405]
 [ 1.          0.64048734  2.96504627]
 [ 1.          0.44568267  7.27017831]]
[[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]
[[0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]]

從測試結果來看可知兩種載入資料的方法得到的資料結果是一樣的,故兩種方法均適用於載入資料。

注意:

此處是以Logistic Regression模型載入資料為例,資料與資料本身或許會有差異,但載入資料的方式都是大同小異的,要靈活變通。

以上為個人經驗,希望能給大家一個參考,也希望大家多多支援it145.com。


IT145.com E-mail:sddin#qq.com