跳至主要内容

記憶體問題

請參閱本節以解決記憶體相關問題。

多個記憶體模組被識別為發生故障或已停用

請完成下列程序以解決問題。

  1. 檢查 XCC 日誌,以確認是否其中一個已停用的模組出現故障。如果是,請更換故障模組並啟動系統,以確認是否已正確識別所有模組。
    當一個記憶體模組出現故障時,系統將執行記憶體降級到最接近的支援組合,而系統將不會識別某些已安裝的記憶體模組。
  2. 重新安裝記憶體模組,然後重新啟動伺服器。
  3. 從所有找出的記憶體模組中卸下編號最高的記憶體模組,並使用已知良好的相同記憶體模組加以更換,然後重新啟動伺服器。視需要重複此動作。若更換所有找出的記憶體模組之後故障仍然存在,請進入步驟 4。
  4. 一次將一個卸下的記憶體模組裝回原始接頭,並且每裝回一個記憶體模組就重新啟動伺服器,直到記憶體模組發生故障為止。使用已知良好的相同記憶體模組更換每一個故障的記憶體模組,並在更換每一個記憶體模組之後重新啟動伺服器。重複步驟 3,直到已測試所有卸下的記憶體模組為止。
  5. 從所有找出的記憶體模組中更換編號最高的記憶體模組,然後重新啟動伺服器。視需要重複此動作。
  6. 將(相同處理器之)通道間的記憶體模組互換,然後重新啟動伺服器。若問題與記憶體模組相關,請更換故障的記憶體模組。
  7. (僅限經過培訓的維修技術人員)將故障的記憶體模組安裝到處理器 2(如有安裝)的記憶體模組接頭,以確認問題不在處理器或記憶體模組接頭上。
  8. (僅限經過培訓的維修技術人員)更換主機板。

顯示的系統記憶體小於已安裝的實體記憶體

請完成下列程序以解決問題。

每次安裝或卸下記憶體模組時,您必須中斷伺服器與電源的連接,然後等待 10 秒再重新啟動伺服器。
  1. 請確認:
    • 操作員資訊面板上沒有錯誤 LED 亮燈。

    • 主機板上沒有記憶體模組錯誤 LED 亮燈。

    • 記憶體鏡映通道不是導致此不相符狀況的原因。

    • 已正確安裝記憶體模組。

    • 您已安裝正確類型的記憶體模組(若要瞭解需求,請參閱PMEM 規則)。

    • 在變更或更換記憶體模組後,記憶體配置也會相應地在 Setup Utility 中更新。

    • 已啟用所有記憶體儲存庫。伺服器可能在偵測到問題時已自動停用記憶體儲存庫,或您可能已手動停用記憶體儲存庫。

    • 當伺服器使用基本記憶體配置時,沒有記憶體不符的狀況。

    • 如果已安裝 PMEM:

      1. 請參閱PMEM 規則,並查看顯示的記憶體是否符合模式說明。

      2. 在更換或新增任何 PMEM 之前,所有儲存的資料均已備份,並刪除了所建立的名稱空間。

      3. 請移至 Setup Utility,選取系統配置和開機管理 > Intel Optane PMEM > 安全性,並確定所有的 PMEM 裝置的安全性都已停用。

  2. 重新安裝記憶體模組,然後重新啟動伺服器。

  3. 查看 POST 錯誤日誌:

    • 如果記憶體模組是由系統管理岔斷 (SMI) 所停用,請更換記憶體模組。

    • 如果記憶體模組是由使用者或由 POST 所停用,請重新安裝記憶體模組,然後執行 Setup Utility 並啟用該記憶體模組。

  4. 執行記憶體診斷。當您啟動解決方案,然後按下畫面上指示的按鍵時,預設會顯示 Lenovo XClarity Provisioning Manager 介面。您可以使用此介面執行記憶體診斷。從「診斷」頁面移至執行診斷 > 記憶體測試PMEM 測試

    安裝了 PMEM 時,請根據目前設定的模式來執行診斷:
    • 應用直連模式:

      • 針對 DRAM 記憶體模組執行記憶體測試。

      • 對 PMEM 執行 PMEM 測試。

  5. 將(相同處理器之)通道間的模組互換,然後重新啟動伺服器。若問題與記憶體模組相關,請更換故障的記憶體模組。

  6. 使用 Setup Utility 重新啟用所有記憶體模組,然後重新啟動伺服器。

  7. (僅限經過培訓的維修技術人員)將故障的記憶體模組安裝到處理器 2(如有安裝)的記憶體模組接頭,以確認問題不在處理器或記憶體模組接頭上。

  8. (僅限經過培訓的維修技術人員)更換主機板。

偵測到無效的記憶體插入

如果出現此警告訊息,請完成以下步驟:
Invalid memory population (unsupported DIMM population) detected. Please verify memory configuration is valid.
  1. 請參閱記憶體模組安裝規則和順序,以確保支援目前的記憶體模組插入順序。
  2. 如果確實支援目前的順序,請查看 Setup Utility 中是否有任何模組顯示為「已停用」。
  3. 重新安裝顯示為「已停用」的模組,然後將系統重新開機。
  4. 如果問題仍然存在,請更換顯示為「已停用」的記憶體模組。

交錯區域中出現額外的命名空間

如果一個交錯區域中有兩個已建立的命名空間,VMware ESXi 會忽略已建立的命名空間,而在系統開機期間建立額外的新命名空間。在初次使用 ESXi 開機之前,請刪除 Setup Utility 或作業系統中已建立的命名空間。

不支援遷移的 PMEM

如果出現此警告訊息,請完成以下步驟:
Intel Optane PMEM interleave set (DIMM X) is migrated from another system (Platform ID: 0x00), these migrated PMEMs are not supported nor warranted in this system.
  1. 使用與以前完全相同的配置將模組遷移回原始系統。
  2. 備份 PMEM 命名空間中已儲存的資料。
  3. 使用下列其中一個選項停用 PMEM 安全性:
    • LXPM

      前往 UEFI 設定 > 系統設定 > Intel Optane PMEM > 安全性 > 按下可停用安全性,然後輸入通行詞組以停用安全性。

    • Setup Utility

      前往系統配置和開機管理 > 系統設定 > Intel Optane PMEM > 安全性 > 按下可停用安全性,然後輸入通行詞組以停用安全性。

  4. 使用與已安裝的作業系統對應的指令刪除命名空間:
    • Linux 指令:

      ndctl destroy-namespace all -f

    • Windows Powershell 指令

      Get-PmemDisk | Remove-PmemDisk

  5. 使用以下 ipmctl 指令(Linux 和 Windows)清除 Platform Configuration Data (PCD) 和 Namespace Label Storage Area (LSA)。

    ipmctl delete -pcd
    請參閱以下連結,以瞭解如何下載和在不同作業系統中使用 impctl:
  6. 重新啟動系統,並按 F1 鍵進入 Setup Utility。
  7. 關閉系統電源。
  8. 卸下要針對新系統或配置重複使用的模組。

更換主機板之後將 PMEM 安裝在錯誤的插槽

如果出現此警告訊息,請完成以下步驟:
DIMM X of Intel Optane PMEM persistent interleave set should be moved to DIMM Y.
  1. 記錄下從 XCC 事件變更 PMEM 插槽的每項指示。
  2. 關閉系統電源並卸下警告訊息中提及的 PMEM。建議為這些 PMEM 加上標籤以免混淆。
  3. 將 PMEM 安裝到警告訊息中所示的正確插槽號碼。撕下標籤,以免阻塞通風和冷卻。
  4. 完成更換,然後開啟系統電源。確保 XCC 中沒有類似的警告訊息。
請勿對 PMEM 執行任何佈建,以免 XCC 事件中的訊息仍然存在時遺失資料。

重新配置 PMEM 後,錯誤訊息和 LED 仍然指出 PMEM 安裝在錯誤的插槽中

關閉再開啟系統 AC 電源或重新啟動 XCC 以解決此問題。

第一次將 PMEM 安裝到系統時,無法成功建立目標

看到下列其中一個訊息時:
  • 錯誤:無法擷取記憶體資源資訊
  • 錯誤:一個或多個 PMEM 模組沒有 PCD 資料。建議執行平台重新啟動以還原有效的 PCD 資料。
完成下列步驟以解決問題。
  1. 如果 PMEM 已安裝在已儲存資料的另一個系統中,請執行下列步驟以清除資料。
    1. 根據原始的插入順序,將 PMEM 安裝到其之前安裝的原始系統中,然後將資料從 PMEM 備份到其他儲存裝置。
    2. 使用下列其中一個選項停用 PMEM 安全性:
      • LXPM

        前往 UEFI 設定 > 系統設定 > Intel Optane PMEM > 安全性 > 按下可停用安全性,然後輸入通行詞組以停用安全性。

      • Setup Utility

        前往系統配置和開機管理 > 系統設定 > Intel Optane PMEM > 安全性 > 按下可停用安全性,然後輸入通行詞組以停用安全性。

    3. 使用與已安裝的作業系統對應的指令刪除命名空間:
      • Linux 指令:

        ndctl destroy-namespace all -f

      • Windows Powershell 指令

        Get-PmemDisk | Remove-PmemDisk

    4. 使用以下 ipmctl 指令(Linux 和 Windows)清除 Platform Configuration Data (PCD) 和 Namespace Label Storage Area (LSA)。

      ipmctl delete -pcd
      請參閱以下連結,以瞭解如何下載和在不同作業系統中使用 impctl:
  2. 將 PMEM 安裝回目標系統,然後在不進入 Setup Utility 的情況下將系統韌體升級到最新版本。
  3. 如果問題仍然存在,請使用以下 ndctl 指令改寫 PMEM。
    ndctl sanitize-dimm --overwrite all
  4. 使用以下指令監視改寫狀態。
    watch -n 1 “ipmctl show -d OverwriteStatus -dimm”
  5. 看到所有 PMEM OverwriteStatus=Completed,重新啟動系統以查看問題是否仍然存在。