¿Cómo vencer la pantalla púrpura de la muerte de VMware?

Muchos administradores de VMware ESXi han experimentado el problema de la pantalla púrpura de la muerte. Lo más molesto de este problema es que desconfías de tu propia infraestructura. Los pensamientos giran constantemente en mi cabeza de que el mismo problema puede repetirse en otro servidor.

¿Qué es PSOD?

PSOD son las siglas de Purple Screen of Diagnostics , a menudo conocida como Purple Screen of Death de la más famosa pantalla azul de la muerte que se encuentra en Microsoft Windows.

Esta es una pantalla de diagnóstico que muestra VMware ESXi cuando el kernel encuentra un error fatal en el que no puede recuperarse de manera segura o no puede continuar ejecutándose.

Muestra el estado de la memoria en el momento de la falla, así como información adicional que es importante para resolver la causa de la falla: versión y compilación de ESXi, tipo de excepción, volcado de registro, seguimiento, tiempo de actividad del servidor, mensajes de error e información de volcado del kernel. (archivo creado después del error, que contiene información de diagnóstico adicional).

Esta pantalla se muestra en la consola del servidor. Para verlo, deberá estar en el centro de datos y conectar un monitor, o conectarse de forma remota mediante la administración del servidor fuera de banda (iLO, iDRAC, IMM, etc., según su proveedor).  

Foto 1
Foto 1

¿Por qué aparece PSOD?

PSOD -   . , ESXi UNIX, UNIX. ESXi (vmkernel) , , , . : ESXi , , «» , , « » , !

PSOD:

1. , RAM CPU. «MCE» «NMI».

«MCE» — , . , , .

«NMI» — , , . NMI HW, , ESXi 5.0 , PSOD. . MCE, , NMI,   ,  .

2.

·         ESXi SW (. KB2105711)

·         (. KB2136430 )

·         : , , (. KB2034111,  KB2150280)

·         + (. KB2105522 )

·         (. KB2012125,  KB2127997)

3. ;  , (. KB2146526,  KB2148123)

PSOD?

,   , , .     . HA, . , «» , , .

, , , , , VSAN, PSOD vSAN.

?

1. .

, -   . (IMM, iLO, iDRAC, …), , , . .

Figura 2
2

2. VMware.

, VMware, . (RCA).

3. ESXi.

, . , RCA, . , , DRS, , PSOD .

4. coredump

coredump. Coredump, vmkernel-zdump, , , , , . PSOD, 1, , coredump.

:

.  

b.  .dump  

c.  .dump   vCenter — netdump

Coredump ,   PSOD , . ESXi SCP, (, Notepad ++). , , . VMware , vmkernel, :

figura 3
3

5. .

.  , , - , .  , : 

Exception Type 0 #DE: Divide Error

Exception Type 1 #DB: Debug Exception

Exception Type 2 NMI: Non-Maskable Interrupt

Exception Type 3 #BP: Breakpoint Exception

Exception Type 4 #OF: Overflow (INTO instruction)

Exception Type 5 #BR: Bounds check (BOUND instruction)

Exception Type 6 #UD: Invalid Opcode

Exception Type 7 #NM: Coprocessor not available

Exception Type 8 #DF: Double Fault

Exception Type 10 #TS: Invalid TSS

Exception Type 11 #NP: Segment Not Present

Exception Type 12 #SS: Stack Segment Fault

Exception Type 13 #GP: General Protection Fault

Exception Type 14 #PF: Page Fault

Exception Type 16 #MF: Coprocessor error

Exception Type 17 #AC: Alignment Check

Exception Type 18 #MC: Machine Check Exception

Exception Type 19 #XF: SIMD Floating-Point Exception

Exception Type 20-31: Reserved

Exception Type 32-255: User-defined (clock scheduler)

, .  Intel 64 IA-32, 1:      Intel 64 IA-32, 3A.

VMware. PSOD:

LINT1/NMI (motherboard nonmaskable interrupt), undiagnosed

NMI (1014767)

Panic requested by one or more 3rd party NMI handlers

COS Error: Oops

«» (1006802)

Lost Heartbeat

« » (1009525)

ASSERT bora/vmkernel/main/pframe_int.h:527

ASSERT NOT_IMPLEMENTED (1019956)

NOT_IMPLEMENTED /build/mts/release/bora-84374/bora/vmkernel/main/util.c:83

ASSERT NOT_IMPLEMENTED (1019956)

Spin count exceeded (iplLock) — possible deadlock

« » (1020105)

PCPU 1 locked up. Failed to ack TLB invalidate

TLB, (1020214)

#GP Exception(13) in world 4130:helper13-0 @ 0x41803399e303

13 14 (1020181)

#PF Exception type 14 in world 136:helper0-0 @ 0x4a8e6e

Machine Check Exception: Unable to continueHardware (Machine) Error

(MCE) (1005184)

Hardware (Machine) Error

PCPU: 1 hardware errors seen since boot (1 corrected by hardware)

6.

, , , , - , , PSOD.  , , , .

, ,   (,  VMware Log Insight SolarWinds LEM ), , ,     .

:

/var/log/syslog.log

.

VMkernel

/var/log/vmkernel.log

, ESXi.  , PSOD, , .

ESXi

/var/log/hostd.log

, ESXi .

VMkernel

/var/log/vmkwarning.log

, .  , (Heap WorkHeap).

vCenter

/var/log/vpxa.log

, vCenter, , vCenter PSOD.

shell

/var/log/shell.log

, PSOD .




All Articles