内存问题
按本节的说明解决与内存相关的问题。
特定于 PMEM 的问题
多根内存条被发现存在故障或已禁用
请完成以下过程来解决该问题。
- 检查 XCC 日志以查看禁用的内存条中是否有存在故障的内存条。如果是,请更换发生故障的内存条并启动系统,查看是否所有内存条均被正确识别。注当一根内存条存在故障时,系统会执行内存降级以降级到最接近的受支持组合,同时系统将无法识别某些已安装的内存条。
- 重新安装内存条;然后,重新启动服务器。
- 卸下已确认的内存条对中编号最大的内存条,并将其更换为完全相同的已知正常的内存条;然后重新启动服务器。必要时重复上述操作。如果更换了所有已确认的内存条后故障仍存在,请转至步骤 4。
- 将卸下的内存条逐个装回其原插槽,安装每个内存条后都重新启动服务器,直至有内存条发生故障。将每个发生故障的内存条均更换为完全相同的已知正常的内存条,每更换一根内存条后都重新启动服务器。重复步骤 3 直到测试完所有卸下的内存条。
- 更换已确认的内存条中编号最大的内存条;然后重新启动服务器。必要时重复上述操作。
- 在同一处理器的各通道间交换内存条,然后重新启动服务器。如果问题由内存条引起,请替换发生故障的内存条。
- (仅限经过培训的技术人员)将故障内存条安装到处理器 2(如果已安装)的内存条插槽中,以验证问题是否与处理器或内存条插槽无关。
- (仅限经过培训的技术人员)更换主板。
显示的系统内存小于已安装的物理内存
请完成以下过程来解决该问题。
- 确保:
操作员信息面板上没有点亮任何错误 LED。
主板上没有点亮任何内存条错误 LED。
不一致并非由内存镜像通道所引起。
内存条已正确安装到位。
已安装正确类型的内存条(有关要求,请参阅PMEM 规则)。
更改或更换内存条后,Setup Utility 中的内存配置会相应更新。
启用了所有存储体。服务器可能在检测到问题时自动禁用了某个存储体,或可能手动禁用了某个存储体。
当服务器处于最低内存配置时,不存在内存不匹配现象。
装有 PMEM 时:
请参阅PMEM 规则并查看显示的内存是否符合模式描述。
在更换或添加任何 PMEM 之前,所有已保存的数据均已备份,并删除了创建的名称空间。
转至 Setup Utility,选择
,并确保所有 PMEM 单元的安全性均已禁用。
重新安装内存条,然后重新启动服务器。
检查 POST 错误日志:
如果系统管理中断(SMI)禁用了某个内存条,请更换该内存条。
如果用户或 POST 禁用了某个内存条,请重新安装该内存条;然后,运行 Setup Utility 并启用该内存条。
运行内存诊断。启动解决方案并按下屏幕说明中指定的键时,默认会显示 Lenovo XClarity Provisioning Manager 界面。通过此界面可执行内存诊断。在“诊断”页面中,转至 或 PMEM 测试。
注装有 PMEM 时,请根据当前设置的模式运行诊断:应用直连模式:
对 DRAM 内存条运行内存测试。
对 PMEM 运行 PMEM 测试。
在同一处理器的各通道间交换内存条,然后重新启动服务器。如果问题由某个内存条引起,请替换发生故障的内存条。
使用 Setup Utility 重新启用所有内存条,然后重新启动服务器。
(仅限经过培训的技术人员)将故障内存条安装到处理器 2(如果已安装)的内存条插槽中,以验证问题是否与处理器或内存条插槽无关。
(仅限经过培训的技术人员)更换主板。
检测到无效的内存插入
Invalid memory population (unsupported DIMM population) detected. Please verify memory configuration is valid.
- 查看内存条安装规则和安装顺序,确保当前的内存条插入顺序受支持。
- 如果当前顺序确实受支持,则请在 Setup Utility 中查看是否存在显示为“已禁用”的内存条。
- 重新插入显示为“已禁用”的内存条,并重新启动系统。
- 如果问题仍然存在,请更换显示为“已禁用”的内存条。
交错区域中出现额外的命名空间
如果一个交错区域中有两个已创建的命名空间,VMware ESXi 将忽略已创建的命名空间,并在系统引导期间新建一个额外命名空间。首次使用 ESXi 进行引导之前,在 Setup Utility 或操作系统中删除已创建的命名空间。
不支持迁移的 PMEM
Intel Optane PMEM interleave set (DIMM X) is migrated from another system (Platform ID: 0x00), these migrated PMEMs are not supported nor warranted in this system.
- 使用与先前完全相同的配置将模块移回原始系统。
- 备份 PMEM 命名空间中存储的数据。
- 使用以下选项之一禁用 PMEM 安全性:
LXPM
转至
,然后输入口令以禁用安全性。Setup Utility
转至
,然后输入口令来禁用安全性。
- 使用与所安装的操作系统相对应的命令删除命名空间:
Linux 命令
ndctl destroy-namespace all -f
Windows Powershell 命令
Get-PmemDisk | Remove-PmemDisk
- 使用以下 ipmctl 命令(同时适用于 Linux 和 Windows)清除平台配置数据(PCD)和命名空间标签存储区(LSA)。
ipmctl delete -pcd
注请参阅以下链接,了解如何在不同的操作系统中下载和使用 impctl: - 重新引导系统,然后按 F1 以进入 Setup Utility。
- 关闭系统电源。
- 卸下要在新系统或配置中重复使用的模块。
更换主板后,PMEM 安装到了错误的插槽中
DIMM X of Intel Optane PMEM persistent interleave set should be moved to DIMM Y.
- 记录 XCC 事件中的每个 PMEM 插槽更改指令。
- 关闭系统电源,然后删除警告消息中提到的 PMEM。建议标记这些 PMEM,以避免混淆。
- 将这些 PMEM 安装在警告消息中所指示的正确编号的插槽中。撕下标签以避免阻碍空气流通和散热。
- 完成更换并打开系统电源。确保 XCC 中没有类似的警告消息。
重新配置 PMEM 后,错误消息和 LED 仍然指示 PMEM 安装在错误的插槽中
打开系统的交流电源或重新启动 XCC 以解决此问题。
首次将 PMEM 安装到系统时无法成功创建目标
- 错误:无法检索内存资源信息
- 错误:一个或多个 PMEM 模块没有 PCD 数据。建议重新引导平台以恢复有效的 PCD 数据。
- 如果 PMEM 已与存储的数据一起安装在另一个系统中,请执行以下步骤来擦除数据。
- 根据原始填充顺序,将 PMEM 安装到先前安装它们的原始系统,然后将数据从 PMEM 备份到其他存储设备。
- 使用以下选项之一禁用 PMEM 安全性:
LXPM
转至
,然后输入口令以禁用安全性。Setup Utility
转至
,然后输入口令来禁用安全性。
- 使用与所安装的操作系统相对应的命令删除命名空间:
Linux 命令
ndctl destroy-namespace all -f
Windows Powershell 命令
Get-PmemDisk | Remove-PmemDisk
- 使用以下 ipmctl 命令(同时适用于 Linux 和 Windows)清除平台配置数据(PCD)和命名空间标签存储区(LSA)。
ipmctl delete -pcd
注请参阅以下链接,了解如何在不同的操作系统中下载和使用 impctl:
- 将 PMEM 安装回目标系统,并在不进入 Setup Utility 的情况下将系统固件升级到最新版本。
- 如果问题仍然存在,请使用以下 ndctl 命令覆盖 PMEM。
ndctl sanitize-dimm --overwrite all
- 使用以下命令监视覆盖状态。
watch -n 1 “ipmctl show -d OverwriteStatus -dimm”
- 当显示所有 PMEM OverwriteStatus=Completed 时,重新引导系统,然后查看问题是否仍然存在。