記憶體問題
請參閱本節以解決記憶體相關問題。
PMEM 特定問題
通道中的多個記憶體模組被識別為發生故障
請完成下列程序以解決問題。
- 重新安裝記憶體模組,然後重新啟動伺服器。
- 從所有找出的記憶體模組中卸下編號最高的記憶體模組,並使用已知良好的相同記憶體模組加以更換,然後重新啟動伺服器。視需要重複此動作。若更換所有找出的記憶體模組之後故障仍然存在,請進入步驟 4。
- 一次將一個卸下的記憶體模組裝回原始接頭,並且每裝回一個記憶體模組就重新啟動伺服器,直到記憶體模組發生故障為止。使用已知良好的相同記憶體模組更換每一個故障的記憶體模組,並在更換每一個記憶體模組之後重新啟動伺服器。重複步驟 3,直到已測試所有卸下的記憶體模組為止。
- 從所有找出的記憶體模組中更換編號最高的記憶體模組,然後重新啟動伺服器。視需要重複此動作。
- 將(相同處理器之)通道間的記憶體模組互換,然後重新啟動伺服器。若問題與記憶體模組相關,請更換故障的記憶體模組。
- (僅限經過培訓的維修技術人員)將故障的記憶體模組安裝到處理器 2(如有安裝)的記憶體模組接頭,以確認問題不在處理器或記憶體模組接頭上。
- (僅限經過培訓的維修技術人員)更換主機板
顯示的系統記憶體小於已安裝的實體記憶體
請完成下列程序以解決問題。
- 請確認:
操作員資訊面板上沒有錯誤 LED 亮燈。
主機板上沒有記憶體模組錯誤 LED 亮燈。
記憶體鏡映通道不是導致此不相符狀況的原因。
已正確安裝記憶體模組。
已安裝正確類型的記憶體模組(若要瞭解需求,請參閱PMEM 規則)。
在變更或更換記憶體模組後,記憶體配置也會相應地在 Setup Utility 中更新。
已啟用所有記憶體儲存庫。伺服器可能在偵測到問題時已自動停用記憶體儲存庫,或您可能已手動停用記憶體儲存庫。
當伺服器使用基本記憶體配置時,沒有記憶體不符的狀況。
安裝了 PMEM 時:
如果記憶體是在應用直連模式中設定的,則所有儲存的資料皆已備份,並且在更換或新增任何 PMEM 之前已刪除所建立的命名空間。
參閱PMEM 規則,並查看顯示的記憶體是否符合模式說明。
如果 PMEM 是最近在記憶體模式中設定的,請將其改回應用直連模式,並檢查是否有尚未刪除的命名空間。
請移至 Setup Utility,選取
,並確定所有的 PMEM 裝置的安全性都已停用。
重新安裝記憶體模組,然後重新啟動伺服器。
查看 POST 錯誤日誌:
如果記憶體模組是由系統管理岔斷 (SMI) 所停用,請更換記憶體模組。
如果記憶體模組是由使用者或由 POST 所停用,請重新安裝記憶體模組,然後執行 Setup Utility 並啟用該記憶體模組。
執行記憶體診斷。當您啟動解決方案,然後根據畫面上的指示按下指定按鍵時,預設會顯示 LXPM 介面。(如需相關資訊,請參閱與您伺服器相容的 LXPM 文件中的「啟動」一節,網址為 Lenovo XClarity Provisioning Manager 入口網站頁面。)您可以使用此介面執行記憶體診斷。從「診斷」頁面移至 或 PMEM 測試。
註安裝了 PMEM 時,請根據目前設定的模式來執行診斷:應用直連模式:
針對 DRAM 記憶體模組執行記憶體測試。
對 PMEM 執行 PMEM 測試。
記憶體模式:
針對 PMEM 同時執行記憶體測試和 PMEM 測試。
- 將(相同處理器之)通道間的模組互換,然後重新啟動伺服器。若問題與記憶體模組相關,請更換故障的記憶體模組。註安裝了 PMEM 時,只能在記憶體模式中採用此方法。
使用 Setup Utility 重新啟用所有記憶體模組,然後重新啟動伺服器。
(僅限經過培訓的維修技術人員)將故障的記憶體模組安裝到處理器 2(如有安裝)的記憶體模組接頭,以確認問題不在處理器或記憶體模組接頭上。
(僅限經過培訓的維修技術人員)更換主機板
偵測到無效的記憶體插入
- Invalid memory population (unsupported DIMM population) detected. Please verify memory configuration is valid.
- 參閱記憶體模組安裝規則和順序,以確定目前的記憶體模組插入順序有受到支援。
- 如果確實支援目前的順序,請查看 Setup Utility 中是否有任何模組顯示為「已停用」。
- 重新安裝顯示為「已停用」的模組,然後將系統重新開機。
- 如果問題仍然存在,請更換記憶體模組。
嘗試變更為其他 PMEM 模式失敗
在變更 PMEM 模式且順利重新啟動系統之後,如果 PMEM 模式保持不變未更改,請檢查 DRAM DIMM 和 PMEM 容量,查看是否符合新模式的需求(請參閱PMEM 規則)。
交錯區域中出現額外的命名空間
如果一個交錯區域中有兩個已建立的命名空間,VMware ESXi 會忽略已建立的命名空間,而在系統開機期間建立額外的新命名空間。在初次使用 ESXi 開機之前,請刪除 Setup Utility 或作業系統中已建立的命名空間。
不支援遷移的 PMEM
- Intel Optane PMEM interleave set (DIMM X) is migrated from another system (Platform ID: 0x00), these migrated PMEMs are not supported nor warranted in this system.
- 使用與以前完全相同的配置將模組遷移回原始系統。
- 備份 PMEM 命名空間中已儲存的資料。
- 使用下列其中一個選項停用 PMEM 安全性:
LXPM
前往
,然後輸入通行詞組以停用安全性。Setup Utility
前往
,然後輸入通行詞組以停用安全性。
- 使用與已安裝的作業系統對應的指令刪除命名空間:
Linux 指令:
ndctl destroy-namespace all -f
Windows Powershell 指令
Get-PmemDisk | Remove-PmemDisk
- 使用以下 ipmctl 指令(Linux 和 Windows)清除 Platform Configuration Data (PCD) 和 Namespace Label Storage Area (LSA)。
ipmctl delete -pcd
註請參閱以下連結,以瞭解如何下載和在不同作業系統中使用 impctl: - 重新啟動系統,然後根據畫面上的指示按下指定按鍵以進入 Setup Utility。(如需相關資訊,請參閱與您伺服器相容的 LXPM 文件中的「啟動」一節,網址為 Lenovo XClarity Provisioning Manager 入口網站頁面。)
- 關閉系統電源。
- 卸下要針對新系統或配置重複使用的模組。
更換主機板之後將 PMEM 安裝在錯誤的插槽
- DIMM X of Intel Optane PMEM persistent interleave set should be moved to DIMM Y.
- 記錄下從 XCC 事件變更 PMEM 插槽的每項指示。
- 關閉系統電源並卸下警告訊息中提及的 PMEM。建議為這些 PMEM 加上標籤以免混淆。
- 將 PMEM 安裝到警告訊息中所示的正確插槽號碼。撕下標籤,以免阻塞通風和冷卻。
- 完成更換,然後開啟系統電源。確保 XCC 中沒有類似的警告訊息。
重新配置 PMEM 後,錯誤訊息和 LED 仍然指出 PMEM 安裝在錯誤的插槽中
關閉再開啟系統 AC 電源或重新啟動 XCC 以解決此問題。
第一次將 PMEM 安裝到系統時,無法成功建立目標
- 錯誤:無法擷取記憶體資源資訊
- 錯誤:一個或多個 PMEM 模組沒有 PCD 資料。建議執行平台重新啟動以還原有效的 PCD 資料。
- 如果 PMEM 已安裝在已儲存資料的另一個系統中,請執行下列步驟以清除資料。
- 根據原始的插入順序,將 PMEM 安裝到其之前安裝的原始系統中,然後將資料從 PMEM 備份到其他儲存裝置。
- 使用下列其中一個選項停用 PMEM 安全性:
LXPM
前往
,然後輸入通行詞組以停用安全性。Setup Utility
前往
,然後輸入通行詞組以停用安全性。
- 使用與已安裝的作業系統對應的指令刪除命名空間:
Linux 指令:
ndctl destroy-namespace all -f
Windows Powershell 指令
Get-PmemDisk | Remove-PmemDisk
- 使用以下 ipmctl 指令(Linux 和 Windows)清除 Platform Configuration Data (PCD) 和 Namespace Label Storage Area (LSA)。
ipmctl delete -pcd
註請參閱以下連結,以瞭解如何下載和在不同作業系統中使用 impctl:
- 將 PMEM 安裝回目標系統,然後在不進入 Setup Utility 的情況下將系統韌體升級到最新版本。
如果問題仍然存在,請使用以下 ndctl 指令改寫 PMEM。
ndctl sanitize-dimm --overwrite all
使用以下指令監視改寫狀態。
watch -n 1 “ipmctl show -d OverwriteStatus -dimm”
- 看到所有 PMEM OverwriteStatus=Completed,重新啟動系統以查看問題是否仍然存在。