跳至主要内容

記憶體問題

請參閱本節以解決記憶體相關問題。

顯示的系統記憶體小於已安裝的實體記憶體

請完成下列程序以解決問題。

每次安裝或卸下記憶體模組時,您必須中斷伺服器與電源的連接,然後等待 10 秒再重新啟動伺服器。
  1. 請確認:
    • 操作員資訊面板上沒有錯誤 LED 亮燈。

    • 主機板上沒有記憶體模組錯誤 LED 亮燈。

    • 記憶體鏡映通道不是導致此不相符狀況的原因。

    • 已正確安裝記憶體模組。

    • 您已安裝正確類型的記憶體模組(若要瞭解需求,請參閱PMEM 規則)。

    • 在變更或更換記憶體模組後,記憶體配置也會相應地在 Setup Utility 中更新。

    • 已啟用所有記憶體儲存庫。伺服器可能在偵測到問題時已自動停用記憶體儲存庫,或您可能已手動停用記憶體儲存庫。

    • 當伺服器使用基本記憶體配置時,沒有記憶體不符的狀況。

    • 安裝了 PMEM 時:

      1. 請參閱PMEM 規則,並查看顯示的記憶體是否符合模式說明。

      2. 如果記憶體是在應用直連模式中設定的,則所有儲存的資料皆已備份,並且在更換或新增任何 PMEM 之前已刪除所建立的命名空間。

      3. 如果 PMEM 是最近在記憶體模式中設定的,請將其改回應用直連模式,並檢查是否有尚未刪除的命名空間。

      4. 請移至 Setup Utility,選取系統配置和開機管理 > Intel Optane PMEM > 安全性,並確定所有的 PMEM 裝置的安全性都已停用。

  2. 重新安裝記憶體模組,然後重新啟動伺服器。

  3. 查看 POST 錯誤日誌:

    • 如果記憶體模組是由系統管理岔斷 (SMI) 所停用,請更換記憶體模組。

    • 如果記憶體模組是由使用者或由 POST 所停用,請重新安裝記憶體模組,然後執行 Setup Utility 並啟用該記憶體模組。

  4. 執行記憶體診斷。當您啟動解決方案並按下 F1 鍵時,預設會顯示 LXPM 介面。(如需相關資訊,請參閱與您伺服器相容的 LXPM 文件中的「啟動」一節,網址為 Lenovo XClarity Provisioning Manager 入口網站頁面。)您可以使用此介面執行記憶體診斷。從「診斷」頁面移至執行診斷 > 記憶體測試PMEM 測試

    安裝了 PMEM 時,請根據目前設定的模式來執行診斷:
    • 應用直連模式:

      • 針對 DRAM 記憶體模組執行記憶體測試。

      • 對 PMEM 執行 PMEM 測試。

    • 記憶體模式:

      針對 PMEM 同時執行記憶體測試和 PMEM 測試。

  5. 將(相同處理器之)通道間的模組互換,然後重新啟動伺服器。若問題與記憶體模組相關,請更換故障的記憶體模組。
    安裝了 PMEM 時,只能在記憶體模式中採用此方法。
  6. 使用 Setup Utility 重新啟用所有記憶體模組,然後重新啟動伺服器。

  7. (僅限經過培訓的維修技術人員)將故障的記憶體模組安裝到處理器 2(如有安裝)的記憶體模組接頭,以確認問題不在處理器或記憶體模組接頭上。

  8. (僅限經過培訓的維修技術人員)更換主機板。

通道中的多個記憶體模組被視為故障

每次安裝或卸下記憶體模組時,您必須中斷伺服器與電源的連接,然後等待 10 秒再重新啟動伺服器。

請完成下列程序以解決問題。

  1. 重新安裝記憶體模組,然後重新啟動伺服器。
  2. 從所有找出的記憶體模組中卸下編號最高的記憶體模組,並使用已知良好的相同記憶體模組加以更換,然後重新啟動伺服器。視需要重複此動作。若更換所有找出的記憶體模組之後故障仍然存在,請進入步驟 4。
  3. 一次將一個卸下的記憶體模組裝回原始接頭,並且每裝回一個記憶體模組就重新啟動伺服器,直到記憶體模組發生故障為止。使用已知良好的相同記憶體模組更換每一個故障的記憶體模組,並在更換每一個記憶體模組之後重新啟動伺服器。重複步驟 3,直到已測試所有卸下的記憶體模組為止。
  4. 從所有找出的記憶體模組中更換編號最高的記憶體模組,然後重新啟動伺服器。視需要重複此動作。
  5. 將(相同處理器之)通道間的記憶體模組互換,然後重新啟動伺服器。若問題與記憶體模組相關,請更換故障的記憶體模組。
  6. (僅限經過培訓的維修技術人員)將故障的記憶體模組安裝到處理器 2(如有安裝)的記憶體模組接頭,以確認問題不在處理器或記憶體模組接頭上。
  7. (僅限經過培訓的維修技術人員)更換主機板。

嘗試變更為其他 PMEM 模式失敗

在變更 PMEM 模式且順利重新啟動系統之後,如果 PMEM 模式保持不變未更改,請檢查 DRAM DIMM 和 PMEM 容量,查看是否符合新模式的需求(請參閱PMEM 規則)。

交錯區域中出現額外的命名空間

如果一個交錯區域中有兩個已建立的命名空間,VMware ESXi 會忽略已建立的命名空間,而在系統開機期間建立額外的新命名空間。在初次使用 ESXi 開機之前,請刪除 Setup Utility 或作業系統中已建立的命名空間。

不支援遷移的 PMEM

如果出現此警告訊息,請完成以下步驟:
  • Intel Optane PMEM interleave set (DIMM X) is migrated from another system (Platform ID: 0x00), these migrated PMEMs are not supported nor warranted in this system.
  1. 使用與以前完全相同的配置將模組遷移回原始系統。
  2. 備份 PMEM 命名空間中已儲存的資料。
  3. 使用下列其中一個選項停用 PMEM 安全性:
    • LXPM

      前往 UEFI 設定 > 系統設定 > Intel Optane PMEM > 安全性 > 按下可停用安全性,然後輸入通行詞組以停用安全性。

    • Setup Utility

      前往系統配置和開機管理 > 系統設定 > Intel Optane PMEM > 安全性 > 按下可停用安全性,然後輸入通行詞組以停用安全性。

  4. 使用與已安裝的作業系統對應的指令刪除命名空間:
    • Linux 指令:

      ndctl destroy-namespace all -f
    • Windows Powershell 指令

      Get-PmemDisk | Remove-PmemDisk
  5. 使用以下 ipmctl 指令(Linux 和 Windows)清除 Platform Configuration Data (PCD) 和 Namespace Label Storage Area (LSA)。

    ipmctl delete -pcd
    請參閱以下連結,以瞭解如何下載和在不同作業系統中使用 impctl:
  6. 啟動伺服器,然後按下畫面上指示的按鍵。(如需相關資訊,請參閱與您伺服器相容的 LXPM 文件中的「啟動」一節,網址為 Lenovo XClarity Provisioning Manager 入口網站頁面)依預設,Lenovo XClarity Provisioning Manager 介面隨即顯示。

  7. 關閉系統電源。
  8. 卸下要針對新系統或配置重複使用的模組。

偵測到無效的記憶體插入

如果出現此警告訊息,請完成以下步驟:
  • Invalid memory population (unsupported DIMM population) detected. Please verify memory configuration is valid.
  1. 請參閱記憶體模組安裝規則和順序,以確定目前的記憶體模組插入順序有受到支援。
  2. 如果確實支援目前的順序,請查看 Setup Utility 中是否有任何模組顯示為「已停用」。
  3. 重新安裝顯示為「已停用」的模組,然後將系統重新開機。
  4. 如果問題仍然存在,請更換記憶體模組。

更換主機板之後將 PMEM 安裝在錯誤的插槽

如果出現此警告訊息,請完成以下步驟:
  • DIMM X of Intel Optane PMEM persistent interleave set should be moved to DIMM Y.
  1. 記錄下從 XCC 事件變更 PMEM 插槽的每項指示。
  2. 關閉系統電源並卸下警告訊息中提及的 PMEM。建議為這些 PMEM 加上標籤以免混淆。
  3. 將 PMEM 安裝到警告訊息中所示的正確插槽號碼。撕下標籤,以免阻塞通風和冷卻。
  4. 完成更換,然後開啟系統電源。確保 XCC 中沒有類似的警告訊息。
請勿對 PMEM 執行任何佈建,以免 XCC 事件中的訊息仍然存在時遺失資料。

重新配置 PMEM 後,錯誤訊息和 LED 仍然指出 PMEM 安裝在錯誤的插槽中

關閉再開啟系統 AC 電源或重新啟動 XCC 以解決此問題。

第一次將 PMEM 安裝到系統時,無法成功建立目標

看到下列其中一個訊息時:
  • 錯誤:無法擷取記憶體資源資訊
  • 錯誤:一個或多個 PMEM 模組沒有 PCD 資料。建議執行平台重新啟動以還原有效的 PCD 資料。
完成下列步驟以解決問題。
  1. 如果 PMEM 已安裝在已儲存資料的另一個系統中,請執行下列步驟以清除資料。
    1. 根據原始的插入順序,將 PMEM 安裝到其之前安裝的原始系統中,然後將資料從 PMEM 備份到其他儲存裝置。
    2. 使用下列其中一個選項停用 PMEM 安全性:
      • LXPM

        前往 UEFI 設定 > 系統設定 > Intel Optane PMEM > 安全性 > 按下可停用安全性,然後輸入通行詞組以停用安全性。

      • Setup Utility

        前往系統配置和開機管理 > 系統設定 > Intel Optane PMEM > 安全性 > 按下可停用安全性,然後輸入通行詞組以停用安全性。

    3. 使用與已安裝的作業系統對應的指令刪除命名空間:
      • Linux 指令:

        ndctl destroy-namespace all -f
      • Windows Powershell 指令

        Get-PmemDisk | Remove-PmemDisk
    4. 使用以下 ipmctl 指令(Linux 和 Windows)清除 Platform Configuration Data (PCD) 和 Namespace Label Storage Area (LSA)。

      ipmctl delete -pcd
      請參閱以下連結,以瞭解如何下載和在不同作業系統中使用 impctl:
  2. 將 PMEM 安裝回目標系統,然後在不進入 Setup Utility 的情況下將系統韌體升級到最新版本。
  3. 如果問題仍然存在,請使用以下 ndctl 指令改寫 PMEM。

    ndctl sanitize-dimm --overwrite all
  4. 使用以下指令監視改寫狀態。

    watch -n 1 “ipmctl show -d OverwriteStatus -dimm”
  5. 看到所有 PMEM OverwriteStatus=Completed,重新啟動系統以查看問題是否仍然存在。