Instalar uma GPU H100/H200 e um módulo de dissipador de calor
Siga as instruções nesta seção para instalar um módulo de dissipador de calor e GPU H100/H200. O procedimento deve ser executado por um técnico treinado.
Sobre esta tarefa
Atenção
- Leia Diretrizes de instalação e Lista de verificação de inspeção de segurança para garantir que esteja trabalhando de forma segura.
- Encoste a embalagem antiestática que contém o componente em qualquer superfície metálica não pintada no servidor; em seguida, remova-o da embalagem e coloque-o em uma superfície antiestática.
- Duas pessoas e um dispositivo de elevação no local que podem suportar até 400 lb (181 kg) são necessários para executar esse procedimento. Se você ainda não tiver um dispositivo de içamento disponível, a Lenovo oferece o Genie Lift GL-8 material lift que pode ser adquirido em Data Center Solution Configurator. Inclua o freio e a plataforma de carga ao pedir o Genie Lift GL-8 material lift.
- Inspecione os conectores e os soquetes na GPU e na Placa-base da GPU. Não use a GPU nem a Placa-base da GPU se os conectores estiverem danificados ou ausentes, ou se houver detritos nos soquetes. Substitua a GPU ou a Placa-base da GPU antes de continuar o procedimento de instalação.
- A GPU e o dissipador de calor compõem uma peça. Não remova o dissipador de calor da GPU.
- A tabela a seguir mostra as informações de mapeamento sobre os soquetes de GPU físicos, a numeração de slots no XCC e os IDs dos módulos no nvidia-smi.
Soquete de GPU físico Numeração de slot no XCC ID do módulo no nvidia-smi SXM 1 Slot 21 1 SXM 2 Slot 24 2 SXM 3 Slot 22 3 SXM 4 Slot 23 4 SXM 5 Slot 17 5 SXM 6 Slot 20 6 SXM 7 Slot 18 7 SXM 8 Slot 19 8
Nota
Certifique-se de ter as ferramentas necessárias listadas abaixo disponíveis para substituir adequadamente o componente:
- Chave de fenda de torque que pode ser definida como 0,1 a 0,62 Newton-metro, 0,9 a 5,5 polegadas-libras
- Torx T15 bit estendido (200 mm de comprimento)
- Gabarito H100/H200
Download de firmware e driver: talvez seja necessário atualizar o firmware ou o driver depois de substituir um componente.
Vá para Site de download de drivers e software para o ThinkSystem SR685a V3 para ver as atualizações de firmware e driver mais recentes para o seu servidor.
Acesse Atualizar o firmware para obter mais informações sobre ferramentas de atualização de firmware.
Procedimento
Depois de concluir
- (Somente o Módulo de GPU e dissipador de calor 2, 4, 5 e 7) Reinstale o duto de ar da GPU. Consulte Instalar um duto de ar da GPU H100/H200.
- Reinstale o complexo de energia. Consulte Instalar o complexo de energia.
- Reinstale o Alternador de GPU 8U. Consulte Instalar o alternador de GPU 8U.
- Reinstale todas as unidades hot-swap de 2,5 polegadas ou preenchimentos do compartimento de unidade (se houver) nos compartimentos de unidade. Consulte Instalar uma unidade hot-swap de 2,5 polegadas
- Reinstale todos os ventiladores frontais. Consulte Instalar um ventilador hot-swap (frontal e traseiro).
- Reinstale todas as unidades de fonte de alimentação. Consulte Instalar uma unidade de fonte de alimentação hot-swap.
- Conclua a substituição de peças. Consulte Concluir a substituição de peças.
Enviar feedback