跳到主要内容

内存问题

按本节的说明解决与内存相关的问题。

多根内存条被发现存在故障或已禁用

请完成以下过程来解决该问题。

  1. 检查 XCC 日志以查看禁用的内存条中是否有存在故障的内存条。如果是,请更换发生故障的内存条并启动系统,查看是否所有内存条均被正确识别。
    当一根内存条存在故障时,系统会执行内存降级以降级到最接近的受支持组合,同时系统将无法识别某些已安装的内存条。
  2. 重新安装内存条;然后,重新启动服务器。
  3. 卸下已确认的内存条对中编号最大的内存条,并将其更换为完全相同的已知正常的内存条;然后重新启动服务器。必要时重复上述操作。如果更换了所有已确认的内存条后故障仍存在,请转至步骤 4。
  4. 将卸下的内存条逐个装回其原插槽,安装每个内存条后都重新启动服务器,直至有内存条发生故障。将每个发生故障的内存条均更换为完全相同的已知正常的内存条,每更换一根内存条后都重新启动服务器。重复步骤 3 直到测试完所有卸下的内存条。
  5. 更换已确认的内存条中编号最大的内存条;然后重新启动服务器。必要时重复上述操作。
  6. 在同一处理器的各通道间交换内存条,然后重新启动服务器。如果问题由内存条引起,请替换发生故障的内存条。
  7. (仅限经过培训的技术人员)将故障内存条安装到处理器 2(如果已安装)的内存条插槽中,以验证问题是否与处理器或内存条插槽无关。
  8. (仅限经过培训的技术人员)更换主板。

显示的系统内存小于已安装的物理内存

请完成以下过程来解决该问题。

每次安装或卸下内存条时,必须切断服务器电源;然后,等待 10 秒钟后才能重新启动服务器。
  1. 确保:
    • 操作员信息面板上没有点亮任何错误 LED。

    • 主板上没有点亮任何内存条错误 LED。

    • 不一致并非由内存镜像通道所引起。

    • 内存条已正确安装到位。

    • 已安装正确类型的内存条(有关要求,请参阅PMEM 规则)。

    • 更改或更换内存条后,Setup Utility 中的内存配置会相应更新。

    • 启用了所有存储体。服务器可能在检测到问题时自动禁用了某个存储体,或可能手动禁用了某个存储体。

    • 当服务器处于最低内存配置时,不存在内存不匹配现象。

    • 装有 PMEM 时:

      1. 请参阅PMEM 规则并查看显示的内存是否符合模式描述。

      2. 在更换或添加任何 PMEM 之前,所有已保存的数据均已备份,并删除了创建的名称空间。

      3. 转至 Setup Utility,选择系统配置和引导管理 > Intel Optane PMEM > 安全性,并确保所有 PMEM 单元的安全性均已禁用。

  2. 重新安装内存条,然后重新启动服务器。

  3. 检查 POST 错误日志:

    • 如果系统管理中断(SMI)禁用了某个内存条,请更换该内存条。

    • 如果用户或 POST 禁用了某个内存条,请重新安装该内存条;然后,运行 Setup Utility 并启用该内存条。

  4. 运行内存诊断。启动解决方案并按下屏幕说明中指定的键时,默认会显示 Lenovo XClarity Provisioning Manager 界面。通过此界面可执行内存诊断。在“诊断”页面中,转至运行诊断 > 内存测试PMEM 测试

    装有 PMEM 时,请根据当前设置的模式运行诊断:
    • 应用直连模式:

      • 对 DRAM 内存条运行内存测试。

      • 对 PMEM 运行 PMEM 测试。

  5. 在同一处理器的各通道间交换内存条,然后重新启动服务器。如果问题由某个内存条引起,请替换发生故障的内存条。

  6. 使用 Setup Utility 重新启用所有内存条,然后重新启动服务器。

  7. (仅限经过培训的技术人员)将故障内存条安装到处理器 2(如果已安装)的内存条插槽中,以验证问题是否与处理器或内存条插槽无关。

  8. (仅限经过培训的技术人员)更换主板。

检测到无效的内存插入

如果出现此警告消息,请完成以下步骤:
Invalid memory population (unsupported DIMM population) detected. Please verify memory configuration is valid.
  1. 查看内存条安装规则和安装顺序,确保当前的内存条插入顺序受支持。
  2. 如果当前顺序确实受支持,则请在 Setup Utility 中查看是否存在显示为“已禁用”的内存条。
  3. 重新插入显示为“已禁用”的内存条,并重新启动系统。
  4. 如果问题仍然存在,请更换显示为“已禁用”的内存条。

交错区域中出现额外的命名空间

如果一个交错区域中有两个已创建的命名空间,VMware ESXi 将忽略已创建的命名空间,并在系统引导期间新建一个额外命名空间。首次使用 ESXi 进行引导之前,在 Setup Utility 或操作系统中删除已创建的命名空间。

不支持迁移的 PMEM

如果出现此警告消息,请完成以下步骤:
Intel Optane PMEM interleave set (DIMM X) is migrated from another system (Platform ID: 0x00), these migrated PMEMs are not supported nor warranted in this system.
  1. 使用与先前完全相同的配置将模块移回原始系统。
  2. 备份 PMEM 命名空间中存储的数据。
  3. 使用以下选项之一禁用 PMEM 安全性:
    • LXPM

      转至 UEFI 设置 > 系统设置 > Intel Optane PMEM > 安全性 > 按下以禁用安全性,然后输入口令以禁用安全性。

    • Setup Utility

      转至系统配置和引导管理 > 系统设置 > Intel Optane PMEM > 安全性 > 按下以禁用安全性,然后输入口令来禁用安全性。

  4. 使用与所安装的操作系统相对应的命令删除命名空间:
    • Linux 命令

      ndctl destroy-namespace all -f

    • Windows Powershell 命令

      Get-PmemDisk | Remove-PmemDisk

  5. 使用以下 ipmctl 命令(同时适用于 Linux 和 Windows)清除平台配置数据(PCD)和命名空间标签存储区(LSA)。

    ipmctl delete -pcd
    请参阅以下链接,了解如何在不同的操作系统中下载和使用 impctl:
  6. 重新引导系统,然后按 F1 以进入 Setup Utility。
  7. 关闭系统电源。
  8. 卸下要在新系统或配置中重复使用的模块。

更换主板后,PMEM 安装到了错误的插槽中

如果出现此警告消息,请完成以下步骤:
DIMM X of Intel Optane PMEM persistent interleave set should be moved to DIMM Y.
  1. 记录 XCC 事件中的每个 PMEM 插槽更改指令。
  2. 关闭系统电源,然后删除警告消息中提到的 PMEM。建议标记这些 PMEM,以避免混淆。
  3. 将这些 PMEM 安装在警告消息中所指示的正确编号的插槽中。撕下标签以避免阻碍空气流通和散热。
  4. 完成更换并打开系统电源。确保 XCC 中没有类似的警告消息。
若消息仍存在于 XCC 事件中,请勿在 PMEM 上执行任何预配置以避免数据丢失。

重新配置 PMEM 后,错误消息和 LED 仍然指示 PMEM 安装在错误的插槽中

打开系统的交流电源或重新启动 XCC 以解决此问题。

首次将 PMEM 安装到系统时无法成功创建目标

如果显示以下其中一条消息:
  • 错误:无法检索内存资源信息
  • 错误:一个或多个 PMEM 模块没有 PCD 数据。建议重新引导平台以恢复有效的 PCD 数据。
完成以下步骤以解决该问题。
  1. 如果 PMEM 已与存储的数据一起安装在另一个系统中,请执行以下步骤来擦除数据。
    1. 根据原始填充顺序,将 PMEM 安装到先前安装它们的原始系统,然后将数据从 PMEM 备份到其他存储设备。
    2. 使用以下选项之一禁用 PMEM 安全性:
      • LXPM

        转至 UEFI 设置 > 系统设置 > Intel Optane PMEM > 安全性 > 按下以禁用安全性,然后输入口令以禁用安全性。

      • Setup Utility

        转至系统配置和引导管理 > 系统设置 > Intel Optane PMEM > 安全性 > 按下以禁用安全性,然后输入口令来禁用安全性。

    3. 使用与所安装的操作系统相对应的命令删除命名空间:
      • Linux 命令

        ndctl destroy-namespace all -f

      • Windows Powershell 命令

        Get-PmemDisk | Remove-PmemDisk

    4. 使用以下 ipmctl 命令(同时适用于 Linux 和 Windows)清除平台配置数据(PCD)和命名空间标签存储区(LSA)。

      ipmctl delete -pcd
      请参阅以下链接,了解如何在不同的操作系统中下载和使用 impctl:
  2. 将 PMEM 安装回目标系统,并在不进入 Setup Utility 的情况下将系统固件升级到最新版本。
  3. 如果问题仍然存在,请使用以下 ndctl 命令覆盖 PMEM。
    ndctl sanitize-dimm --overwrite all
  4. 使用以下命令监视覆盖状态。
    watch -n 1 “ipmctl show -d OverwriteStatus -dimm”
  5. 当显示所有 PMEM OverwriteStatus=Completed 时,重新引导系统,然后查看问题是否仍然存在。