跳到主要内容

内存问题

按本节的说明解决与内存相关的问题。

显示的系统内存小于已安装的物理内存

请完成以下过程来解决该问题:

每次安装或卸下内存条时,必须切断服务器电源;然后,等待 10 秒钟后才能重新启动服务器。
  1. 确保:
    • 操作员信息面板上没有点亮任何错误 LED。

    • 主板上没有点亮任何内存条错误 LED。

    • 不一致并非由内存镜像通道所引起。

    • 内存条已正确安装到位。

    • 已安装正确类型的内存条(有关要求,请参阅PMEM 规则)。

    • 更改或更换内存条后,Setup Utility 中的内存配置会相应更新。

    • 启用了所有存储体。服务器可能在检测到问题时自动禁用了某个存储体,或可能手动禁用了某个存储体。

    • 当服务器处于最低内存配置时,不存在内存不匹配现象。

    • 装有 PMEM 时:

      1. 请参阅PMEM 规则并查看显示的内存是否符合模式描述。

      2. 如果内存设置为应用直连模式,则在更换或添加任何 PMEM 之前,请确保所有保存的数据已备份,且已删除创建的命名空间。

      3. 如果 PMEM 最近被设置为内存模式,请将其改回应用直连模式,并检查是否有未被删除的命名空间。

      4. 转至 Setup Utility,选择系统配置和引导管理 > Intel Optane PMEM > 安全性,并确保所有 PMEM 单元的安全性均已禁用。

  2. 重新安装内存条,然后重新启动服务器。

  3. 检查 POST 错误日志:

    • 如果系统管理中断(SMI)禁用了某个内存条,请更换该内存条。

    • 如果用户或 POST 禁用了某个内存条,请重新安装该内存条;然后,运行 Setup Utility 并启用该内存条。

  4. 运行内存诊断。当您启动解决方案并根据屏幕说明按相应的键时,默认显示 LXPM 界面。(如需更多信息,请参阅 Lenovo XClarity Provisioning Manager 门户页面 上适用于您的服务器的 LXPM 文档中的“启动”一节。)通过此界面可执行内存诊断。在“诊断”页面中,转至运行诊断 > 内存测试PMEM 测试

    装有 PMEM 时,请根据当前设置的模式运行诊断:
    • 应用直连模式:

      • 对 DRAM 内存条运行内存测试。

      • 对 PMEM 运行 PMEM 测试。

    • 内存模式:

      对 PMEM 运行内存测试和 PMEM 测试。

  5. 在同一处理器的各通道间交换模块,然后重新启动服务器。如果问题由内存条引起,请替换发生故障的内存条。
    装有 PMEM 时,请仅在内存模式下采用此方法。
  6. 使用 Setup Utility 重新启用所有内存条,然后重新启动服务器。

  7. (仅限经过培训的技术人员)将故障内存条安装到处理器 2(如果已安装)的内存条接口中,以验证问题是否与处理器或内存条接口无关。

  8. (仅限经过培训的技术人员)更换主板。

通道中的多个内存条被发现存在故障

每次安装或卸下内存条时,必须切断服务器电源;然后,等待 10 秒钟后才能重新启动服务器。

请完成以下过程来解决该问题:

  1. 重新安装内存条;然后,重新启动服务器。
  2. 卸下已确认的内存条对中编号最大的内存条,并将其更换为完全相同的已知正常的内存条;然后重新启动服务器。必要时重复上述操作。如果更换了所有已确认的内存条后故障仍存在,请转至步骤 4。
  3. 将卸下的内存条逐个装回其原插槽,安装每个内存条后都重新启动服务器,直至有内存条发生故障。将每个发生故障的内存条均更换为完全相同的已知正常的内存条,每更换一根内存条后都重新启动服务器。重复步骤 3 直到测试完所有卸下的内存条。
  4. 更换已确认的内存条中编号最大的内存条;然后重新启动服务器。必要时重复上述操作。
  5. 在同一处理器的各通道间交换内存条,然后重新启动服务器。如果问题由内存条引起,请替换发生故障的内存条。
  6. (仅限经过培训的技术人员)将故障内存条安装到处理器 2(如果已安装)的内存条接口中,以验证问题是否与处理器或内存条接口无关。
  7. (仅限经过培训的技术人员)更换主板。

尝试更改为其他 PMEM 模式时失败

更改 PMEM 模式并成功重新启动系统后,如果 PMEM 模式的更改未生效,请检查 DRAM DIMM 和 PMEM 的容量是否符合新模式的要求(请参阅PMEM 规则)。

交错区域中出现额外的命名空间

如果一个交错区域中有两个已创建的命名空间,VMware ESXi 将忽略已创建的命名空间,并在系统引导期间新建一个额外命名空间。首次使用 ESXi 进行引导之前,在 Setup Utility 或操作系统中删除已创建的命名空间。

不支持迁移的 PMEM

如果出现此警告消息,请完成以下步骤:
  • Intel Optane PMEM interleave set (DIMM X) is migrated from another system (Platform ID: 0x00). These migrated PMEMs are not supported nor warranted in this system.
  1. 使用与先前完全相同的配置将模块移回原始系统。
  2. 备份 PMEM 命名空间中存储的数据。
  3. 使用以下选项之一禁用 PMEM 安全性:
    • Lenovo XClarity Provisioning Manager

      转至 UEFI 设置 > 系统设置 > Intel Optane PMEM > 安全性 > 按下以禁用安全性,然后输入口令以禁用安全性。

    • Setup Utility

      转至系统配置和引导管理 > 系统设置 > Intel Optane PMEM > 安全性 > 按下以禁用安全性,然后输入口令来禁用安全性。

  4. 使用与所安装的操作系统相对应的命令删除命名空间:
    • Linux 命令

      ndctl destroy-namespace all -f 
    • Windows Powershell 命令

      Get-PmemDisk | Remove-PmemDisk
  5. 使用以下 ipmctl 命令(同时适用于 Linux 和 Windows)清除平台配置数据(PCD)和命名空间标签存储区(LSA)。

    ipmctl delete -pcd
    请参阅以下链接,了解如何在不同的操作系统中下载和使用 impctl:
  6. 重新启动系统,根据屏幕上的说明按相应的键进入 Setup Utility。(如需更多信息,请参阅 Lenovo XClarity Provisioning Manager 门户页面 上适用于您的服务器的 LXPM 文档中的“启动”一节。)
  7. 关闭系统电源。
  8. 卸下要在新系统或配置中重复使用的模块。

检测到无效的内存插入

  • Invalid memory population (unsupported DIMM population) detected. Please verify memory configuration is valid.
如果出现此警告消息,请完成以下步骤:
  1. 请参阅内存条安装规则和安装顺序,确保当前的内存条插入顺序受支持。
  2. 如果当前顺序确实受支持,则请在 Setup Utility 中查看是否存在显示为“已禁用”的内存条。
  3. 重新插入显示为“已禁用”的内存条,并重新启动系统。
  4. 如果问题仍然存在,请更换显示为“已禁用”的内存条。

更换主板后,PMEM 安装到了错误的插槽中

  • DIMM X of Intel Optane PMEM persistent interleave set should be moved to DIMM Y.
如果出现此警告消息,请完成以下步骤:
  1. 记录 XCC 事件中的每个 PMEM 插槽更改指令。
  2. 关闭系统电源,然后删除警告消息中提到的 PMEM。建议标记这些 PMEM,以避免混淆。
  3. 将这些 PMEM 安装在警告消息中所指示的正确编号的插槽中。撕下标签以避免阻碍空气流通和散热。
  4. 完成更换并打开系统电源。确保 XCC 中没有类似的警告消息。
若消息仍存在于 XCC 事件中,请勿在 PMEM 上执行任何预配置以避免数据丢失。

重新配置 PMEM 后,错误消息和 LED 仍然指示 PMEM 安装在错误的插槽中

打开系统的交流电源或重新启动 XCC 以解决此问题。

首次将 PMEM 安装到系统时无法成功创建目标

当看到以下的某条消息时:
  • 错误:无法检索内存资源信息
  • 错误:一个或多个 PMEM 模块没有 PCD 数据。建议重新启动平台以恢复有效的 PCD 数据。
完成以下步骤以解决该问题。
  1. 如果 PMEM 已与存储的数据一起安装在另一个系统中,请执行以下步骤来擦除数据。
    1. 根据原始填充顺序,将 PMEM 安装到先前安装它们的原始系统,然后将数据从 PMEM 备份到其他存储设备。
    2. 使用以下选项之一禁用 PMEM 安全性:
      • Lenovo XClarity Provisioning Manager

        转至 UEFI 设置 > 系统设置 > Intel Optane PMEM > 安全性 > 按下以禁用安全性,然后输入口令以禁用安全性。

      • Setup Utility

        转至系统配置和引导管理 > 系统设置 > Intel Optane PMEM > 安全性 > 按下以禁用安全性,然后输入口令来禁用安全性。

    3. 使用与所安装的操作系统相对应的命令删除命名空间:
      • Linux 命令

        ndctl destroy-namespace all -f 
      • Windows Powershell 命令

        Get-PmemDisk | Remove-PmemDisk
    4. 使用以下 ipmctl 命令(同时适用于 Linux 和 Windows)清除平台配置数据(PCD)和命名空间标签存储区(LSA)。

      ipmctl delete -pcd
      请参阅以下链接,了解如何在不同的操作系统中下载和使用 impctl:
  2. 将 PMEM 安装回目标系统,并在不进入 Setup Utility 的情况下将系统固件升级到最新版本。
  3. 如果问题仍然存在,请使用以下 ndctl 命令覆盖 PMEM。

    ndctl sanitize-dimm --overwrite all

  4. 使用以下命令监视覆盖状态。

    watch -n 1 “ipmctl show -d OverwriteStatus -dimm”

  5. 看到所有 PMEM OverwriteStatus=Completed 时,重新启动系统,然后查看问题是否仍然存在。