更新 HA 对中的第一个节点
可通过启动伙伴对节点的接管来更新 HA 对中的第一个节点。升级或降级第一个节点时,伙伴节点提供第一个节点的数据。
关于本任务
如果要执行主要升级,则要升级的第一个节点必须为外部连接配置了数据 LIF 并安装了第一个 ONTAP 映像。
升级第一个节点后,应尽快升级伙伴节点。请勿让两个节点长时间保持版本不匹配状态。
- 通过调用自动支持消息更新集群中的第一个节点:autosupport invoke -node * -type all -message "Starting_NDU" 此自动支持通知中包含更新之前的系统状态记录。如果更新过程中发生了问题,此通知中将包含有用的诊断信息。
如果未将集群配置为发送自动支持消息,则系统将在本地保存一份通知拷贝。
- 将权限级别设置为高级,在提示是否继续时输入 y:set -privilege advanced 随后将显示高级提示符(*>)。
- 将新的 ONTAP 软件映像设置为默认映像:system image modify {-node nodenameA -iscurrent false} -isdefault true system image modify 命令使用扩展查询将新的 ONTAP 软件映像(即作为备用映像安装的软件映像)更改为节点的默认映像。
- 监控更新进度:cluster image show-update-progress
- 验证是否已将新的 ONTAP 软件映像设置为默认映像:system image show
示例
在以下示例中,image2 是新的 ONTAP 版本,并设置为 node0 上的默认映像:TDC-DM7K::*> system image show
Is Is Install
Node Image Default Current Version Date
-------- ------- ------- ------- --------- -------------------
TDC-7K-03
image1 false true X.X.X MM/DD/YYYY TIME
image2 true false Y.Y.Y MM/DD/YYYY TIME
TDC-7K-01
image1 true true X.X.X MM/DD/YYYY TIME
image2 false false Y.Y.Y MM/DD/YYYY TIME
4 entries were displayed. - 禁用伙伴节点上的自动交还(如果已启用):storage failover modify -node nodenameB -auto-giveback false 如果集群是 HA 对,则会显示一条消息,警告您禁用自动交还会阻止管理集群服务在发生交替故障情况时联机。输入 y 以继续。
- 验证节点的伙伴是否已禁用自动交还:storage failover show -node nodenameB -fields auto-giveback
示例
TDC-DM7K::> storage failover show -node TDC-7K-01 -fields auto-giveback
node auto-giveback
-------- -------------
TDC-7K-01 false
1 entry was displayed. - 运行以下命令两次以确定要更新的节点当前是否正在为任何客户端提供服务 system node run -node nodenameA -command uptime uptime 命令显示自上次引导节点以来该节点为 NFS、CIFS、FC 和 iSCSI 客户端执行的操作总数。必须为每个协议运行此命令两次以确定操作计数是否在增加。如果计数在增加,则表示节点当前正在为该协议的客户端提供服务。如果计数未增加,则表示节点当前没有为该协议的客户端提供服务。注应记录每个导致客户端操作计数增加的协议,以便可在节点更新后验证客户端流量是否已恢复。
示例
以下示例显示执行 NFS、CIFS、FC 和 iSCSI 操作的节点。但是,该节点当前仅为 NFS 和 iSCSI 客户端服务。TDC-DM7K::> system node run -node TDC-7K-03 -command uptime
2:58pm up 7 days, 19:16 800000260 NFS ops, 1017333 CIFS ops, 0 HTTP ops, 40395 FCP ops, 32810 iSCSI ops
TDC-DM7K::> system node run -node TDC-7K-03 -command uptime
2:58pm up 7 days, 19:17 800001573 NFS ops, 1017333 CIFS ops, 0 HTTP ops, 40395 FCP ops, 32815 iSCSI ops - 从节点迁移所有数据 LIF:network interface migrate-all -node nodenameA
- 验证已迁移的所有 LIF:network interface show 有关可用于验证 LIF 状态的参数的更多信息,请参阅 network interface show 手册页。
示例
以下示例显示 node0 的数据 LIF 已成功迁移。对于每个 LIF,本示例中包含的字段可用于验证 LIF 的主节点和端口、LIF 迁移到的当前节点和端口以及 LIF 的操作和管理状态。TDC-DM7K::> network interface show -data-protocol nfs|cifs -role data -home-node
node0 -fields home-node,curr-node,curr-port,home-port,status-admin,status-oper
vserver lif home-node home-port curr-node curr-port status-oper status-admin
------- ------- --------- --------- --------- --------- ----------- ------------
vs0 data001 TDC-7K-03 e0a TDC-7K-01 e0a up up
vs0 data002 TDC-7K-03 e0b TDC-7K-01 e0b up up
vs0 data003 TDC-7K-03 e0b TDC-7K-01 e0b up up
vs0 data004 TDC-7K-03 e0a TDC-7K-01 e0a up up
4 entries were displayed. - 启动接管:storage failover takeover -ofnode nodenameA 不要指定 -option immediate 参数,因为正在接管以便引导到新软件映像的节点需要正常接管。如果未手动将 LIF 从节点迁移出来,它们会自动迁移到节点的 HA 伙伴,以确保不会出现服务中断。第一个节点引导至 Waiting for giveback 状态。注如果启用了自动支持,则会发送自动支持消息,指示该节点不在集群仲裁关系中。可忽略此通知,并继续执行更新。
- 验证接管是否成功:storage failover show 可能会看到指示版本不匹配和邮箱格式问题的错误消息。这是预期行为,它代表的是主要无中断升级的临时状态,不会产生负面影响。
示例
以下示例显示接管已成功。节点 node0 处于 Waiting for giveback 状态,而其伙伴处于 In takeover 状态。TDC-DM7K::> storage failover show
Takeover
Node Partner Possible State Description
-------------- -------------- -------- -------------------------------------
TDC-7K-03 TDC-7K-01 - Waiting for giveback (HA mailboxes)
TDC-7K-01 TDC-7K-03 false In takeover
2 entries were displayed. - 至少等待八分钟以使以下条件生效:
客户端多路径(如果已部署)保持稳定。
接管期间在 I/O 操作中暂停的客户端退出暂停状态。
恢复时间与客户端有关,可能超过八分钟,具体取决于客户端应用程序的特征。
- 将聚合归还给第一个节点:storage failover giveback –ofnode nodenameA 交还首先将根聚合归还给伙伴节点,然后在该节点完成引导后,归还非根聚合以及设置为自动恢复的任何 LIF。一旦归还聚合,新引导的节点就开始从每个聚合向客户端提供数据。
- 验证是否已归还所有聚合:storage failover show-giveback 如果 Giveback Status 字段指示没有要交还的聚合,则表示已归还所有聚合。如果交还遭到禁止,则该命令将显示交还进度以及哪个子系统禁止了交还。
- 如果未归还任何聚合,请执行以下步骤:
- 检查禁止变通方法以确定要满足
禁止
条件还是取消禁止。 - 如有必要,请满足错误消息中所述的
禁止
条件,并确保所有已识别的操作正常终止。 - 重新运行 storage failover giveback 命令。如果决定取消
禁止
条件,请将 -override-vetoes 参数设置为 true。
- 检查禁止变通方法以确定要满足
- 至少等待八分钟以使以下条件生效:
客户端多路径(如果已部署)保持稳定。
交还期间在 I/O 操作中暂停的客户端退出暂停状态。
恢复时间与客户端有关,可能超过八分钟,具体取决于客户端应用程序的特征。
- 验证节点的更新是否已成功完成:
- 转到高级权限级别: set -privilege advanced
- 验证节点的更新状态是否为完成:system node upgrade-revert show -node nodenameA 状态应列出为 complete。
如果状态不是 complete,请从节点上运行 system node upgrade-revert upgrade 命令。如果该命令不能完成更新,请联系技术支持。
- 恢复为管理员权限级别:set -privilege admin
- 验证节点的端口是否为 up 状态:network port show -node nodenameA 必须在已升级到 ONTAP 版本 9.5 的节点上运行此命令。
示例
以下示例显示节点的所有端口均为 up 状态:TDC-DM7K::> network port show -node TDC-7K-03
Speed (Mbps)
Node Port IPspace Broadcast Domain Link MTU Admin/Oper
------ --------- ------------ ---------------- ----- ------- ------------
TDC-7K-03
e0M Default - up 1500 auto/100
e0a Default - up 1500 auto/1000
e0b Default - up 1500 auto/1000
e1a Cluster Cluster up 9000 auto/10000
e1b Cluster Cluster up 9000 auto/10000
5 entries were displayed. - 将 LIF 恢复回节点:network interface revert * 此命令恢复从节点迁移出来的 LIF。
示例
TDC-DM7K::> network interface revert *
8 entries were acted on. - 验证节点的数据 LIF 是否已成功恢复回节点并且为 up 状态:network interface show
示例
以下示例显示节点托管的所有数据 LIF 已成功恢复回节点并且运行状态为 up:TDC-DM7K::> network interface show
Logical Status Network Current Current Is
Vserver Interface Admin/Oper Address/Mask Node Port Home
----------- ---------- ---------- ------------------ ------------- ------- ----
vs0
data001 up/up 192.0.2.120/24 TDC-7K-03 e0a true
data002 up/up 192.0.2.121/24 TDC-7K-03 e0b true
data003 up/up 192.0.2.122/24 TDC-7K-03 e0b true
data004 up/up 192.0.2.123/24 TDC-7K-03 e0a true
4 entries were displayed. - 如果先前确定此节点为客户端提供服务,请验证此节点是否正在为先前服务的每个协议提供服务:system node run -node nodenameA -command uptime 更新期间操作计数将重置为零。
示例
以下示例显示更新后的节点已恢复向其 NFS 和 iSCSI 客户端提供服务:TDC-DM7K::> system node run -node TDC-7K-03 -command uptime
3:15pm up 0 days, 0:16 129 NFS ops, 0 CIFS ops, 0 HTTP ops, 0 FCP ops, 2 iSCSI ops - 重新启用伙伴节点上的自动交还(如果先前已禁用):storage failover modify -node nodenameB -auto-giveback true
完成之后
应尽快更新节点的 HA 伙伴。如果由于任何原因必须暂挂更新过程,HA 对中的两个节点应运行相同的 ONTAP 版本。
提供反馈