postgresql 切換 log、xlog紀錄檔的實現

2021-01-16 12:00:10

os: centos 7.4

db: postgresql 9.6

切換log：

select pg_rotate_logfile();

切換xlog：

select pg_switch_xlog();

補充：postgresql流複製主從切換+resetxlog

主 192.168.3.46

從 192.168.3.47

現象：由於46主庫的xlog紀錄檔達到7T以上，磁碟空間不足，需要通過pg_resetxlog命令清紀錄檔。

解決：

1.修改postgresql引數

checkpoint_timeout = 60min   # range 30s-1d
max_wal_size = 4GB 
min_wal_size = 1GB 
checkpoint_completion_target = 0.9
wal_keep_segments = 50

2.pg_resetxlog命令清紀錄檔

操作過程：

1.停主機

#46
pg_ctl stop -D /data/postgresql/data

2.從節點提升

#47
pg_ctl promote -D /data/postgresql/data

以上兩步操作完後，發現無法連線pgpool，有以下提示：

11370 Apr 10 21:04:00 usvr47 pgpool[21766]: [11-1] 2019-04-10 21:04:00: pid 21766: LOG: new connection received
11371 Apr 10 21:04:00 usvr47 pgpool[21766]: [11-2] 2019-04-10 21:04:00: pid 21766: DETAIL: connecting host=usvr47.cityre.cn port=26224
11372 Apr 10 21:04:00 usvr47 pgpool[21766]: [12-1] 2019-04-10 21:04:00: pid 21766: LOG: failed to connect to PostgreSQL server on "192.168.3.46:5432", getsockopt() detected error "Connection refused"
11373 Apr 10 21:04:00 usvr47 pgpool[21766]: [13-1] 2019-04-10 21:04:00: pid 21766: LOG: degenerate backend request for node_id: 0 from pid [21766] is canceled because failover is disallowed on the node
11374 Apr 10 21:04:00 usvr47 pgpool[21766]: [14-1] 2019-04-10 21:04:00: pid 21766: FATAL: failed to create a backend connection
11375 Apr 10 21:04:00 usvr47 pgpool[21766]: [14-2] 2019-04-10 21:04:00: pid 21766: DETAIL: executing failover on backend

第3行是pgpool的健康檢查health_check(組態檔沒有設定定期檢查)，發現主庫無法連線；

第4行是pgool觸發故障轉移，將從庫提升為主庫(組態檔沒有設定自動故障轉移，需命令pg_ctl premote手動切換)；

但是pgpool中設定backend_flag1 = ‘DISALLOW_TO_FAILOVER' ，意思為不允許故障轉移，因此通過psql -p 9999 -h 192.168.3.45 -U postgres 無法登入；將命令改為backend_flag0 = ‘ALLOW_TO_FAILOVER' 並reload後，可以登入。

此引數導致pgpool在主庫無法連線的情況下，pgpool也無法登入，導致使用者端無法連庫的現象。

此時通過show pool_nodes命令可以看到主庫(node id 為0)的狀態為down。

3.清除原主節點xlog

#46
#檢視oid xid
pg_controldata -D /data/postgresql/data
#清紀錄檔
pg_resetxlog -o 24579 -x 58288 -f /data/postgresql/data

7T空間，清理時間大約30min。

4.重新同步資料

46作為47的slave，重新同步資料

pg_basebackup -D /data/postgresql/data -Fp -Xs -v -P -h 192.168.3.47 -p 5432 -U repl

預設會等待主庫checkpoint後同步，為避免長時間等待，在主控手動checkpoint。

同步完成後：

mv recovery.done recovery.conf
pg_ctl start /data/postgresql/data

此時新的主從即可建立。

5.檢視pgpool

[postgres@usvr-3-46 ~]$ psql -p 9999 -h 192.168.3.45 -U postgres
Password for user postgres: 
psql (9.6.3)
Type "help" for help.
postgres=# show pool_nodes;
 node_id |  hostname  | port | status | lb_weight | role  | select_cnt | load_balance_node | replication_delay 
---------+--------------+------+--------+-----------+---------+------------+-------------------+-------------------
 0    | 192.168.3.46 | 5432 |down   | 0.500000 | standby | 66014   | false       | 72
 1    | 192.168.3.47 | 5432 | up   | 0.500000 | primary | 66559   | true       | 0
(2 rows)

此時發現 3.46在pgpool狀態仍然為down，需通過pcp命令將失效的節點重新加入叢集。

pcp_attach_node -U postgres -h 192.168.3.45 -p 9898 -n 0

其中0為node_id。

注意:

pcp命令的密碼讀取的檔案為pcp.conf，如果忘密碼，可進行如下操作：

[root@usvr47 ~]# pg_md5 postgres
e8a48653851e28c69d0506508fb27fc5
[root@usvr47 ~]# echo "postgres:e8a48653851e28c69d0506508fb27fc5" >> pcp.conf

而不是通過命令pg_md5 -m -u postgres -p 生成密碼，放在pool_passwd檔案中，此檔案密碼為連線postgresql的密碼，一定要注意。

以上為個人經驗，希望能給大家一個參考，也希望大家多多支援it145.com。如有錯誤或未考慮完全的地方，望不吝賜教。

postgresql 切換 log、xlog紀錄檔的實現

解決：

操作過程：

熱門文章