Red neuronal CLIP de OpenAI: un clasificador que no necesita entrenamiento. Aprendizaje de larga duración sin aprendizaje

¿Te imaginas un clasificador de imágenes que resuelva casi cualquier problema y no necesite ningún entrenamiento? ¿Has presentado? ¿Resulta que este debería ser un clasificador universal? ¡Así es! Esta es una nueva red neuronal CLIP de OpenAI. Analizando CLIP del encabezado: Desmontaje y montaje de redes neuronales utilizando Star Wars como ejemplo.

CLIP ""?

Un ejemplo de clasificación de imágenes por la red neuronal CLIP utilizando el método de "aprendizaje sin entrenamiento" en varios conjuntos de datos, incluido ImageNet.
  • 10 — Mnist (Modified National Institute of Standards and Technology dataset)

  • 10 100 80 , CIFAR-10 CIFAR-100 (Canadian Institute For Advanced Research)

  • 1000 ImageNet

, , . , ResNet-50 ResNet-101, , ! , , ! , , " " zero-shot transfer learning.

OpenAI ResNet-50 ImageNet " ", 1,28 , ResNet-50!


What's in the Box? 

CLIP: hay una similitud de coseno de elementos de texto y representaciones visuales
CLIP — cosine similarity

Imagen.  Darth Vader mata a su hijo

Matriz de similitud de coseno por elementos entre pares de representaciones vectoriales de imágenes y descripciones de texto
cosine similarity
# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOW or Text Transformer
# I[n, h, w, c] - minibatch of aligned images
# T[n, l] - minibatch of aligned texts
# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter

# extract feature representations of each modality
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]

# joint multimodal embedding [n, d_e]
I_e = l2_normalize(, W_i), axis=1)
T_e = l2_normalize(, W_t), axis=1)

# scaled pairwise cosine similarities [n, n]
logits =, T_e.T) * np.exp(t)

# symmetric loss function
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2

Diferencia entre el enfoque de clasificación clásico y el enfoque CLIP híbrido

¡Aprendizaje automático en palabras!

El CLIP de disparo cero resulta ser más resistente a las distribuciones cambiantes que el modelo entrenado en ImageNet.
DALL·E, , . , , .

DALL·E OpenAi: . 2021

Image Captioning ( ), DALL·E () — .

. DALL·E : a living room with two black armchairs and a painting of darth vader. the painting is mounted above a coffee table.

Dos posibles modos de utilizar la red neuronal híbrida CLIP

? CLIP — , , DALL·E!

TensorFlow: Advanced Techniques  deeplearning ai  Andrew Ng

YouTube-: : ?  “ ”

