Una revolución silenciosa y un nuevo salvaje oeste en ComputerVision

Parecería que ya ha habido una revolución con Computer Vision. En 2012, se lanzaron algoritmos basados en redes neuronales convolucionales . A partir de 2014 llegaron a producción, y a partir de 2016 llenaron todo . Pero, a finales de 2020, tuvo lugar una nueva ronda. Esta vez no en 4 años, sino en uno. hablemos de Transformers en ComputerVision. El artículo proporcionará una descripción general de los nuevos productos que han aparecido en el último año. Si es más conveniente para alguien, entonces el artículo está disponible como video en youtube.

Los transformadores son un tipo de redes neuronales creadas en 2017. Inicialmente, se utilizaron para traducciones :

Pero resultó que funcionaban simplemente como un modelo universal del lenguaje. Y nos vamos. En realidad, el famoso GPT-3 es un producto de transformadores.

ComputerVision?

. , . - , . . , . CV.

DETR

2020. . ? . , DETR (End-to-End Object Detection with Transformers), 2020 . , :

, ReInspect 2015 - , BackBone . - ReInspect Detr. .

, , DETR ( , ). .

, DETR ComputerVision. ? ? :

- , . Deformable DETR.
DETR . . iterdet. - ( - https://paperswithcode.com/sota/panoptic-segmentation-on-coco-panoptic ).

DETR Visual Transformer ( + ) . Feature map backbone:

Visual Transformer , . backbone .

VIT

. ViT:

2020 (). -. . - 16*16. “”, .

, , . ( state-of-art). 14 - .

. FaceBook - Deit. .

- https://paperswithcode.com/paper/going-deeper-with-image-transformers

- . , ~2-3 , . ResNet .

CLIP

. CLIP. . CLIP . , . , - :

, . . :

:

, - :

ResNet50. , 100 .

, /. CLIP . CLIP . . , :

Vision Transformers for Dense Prediction

, , - “Vision Transformers for Dense Prediction”, . Vit/Detr. , .

/, / . State-of-art , RealTime. @AlexeyAB ( Yolov4 ), . , , . - , :

---------------------------------------

. - :

1-2

- / . .

PoseFormer

Pose3D. , , :

3 . CherryLabs ( ) 3 , , . , , . - 3D, :

- . ( ). .

, . / .

TransPose

, . TransPose - :

. . , , :

SWIN

Intel. SWIN Microsoft , RealTime. VIT/Deit, :

, , - https://paperswithcode.com/paper/swin-transformer-hierarchical-vision

LOFTR

. . SIFT/SURF+RANSAK ( + ). SuperGlue- Graph Neural Network ComputerVision. SuperGlue . , LOFTR End-To-End:

, :

, , , . : (Video Transformer Network, ActionBert). MMAction.

. , . , - STARK:

, . . , , . , , . . BBOX + , ,

TransTrack

TransT

.

ReID

, . 20 ReID - .

:

. VIT (1,2):

(1,2):

- OCR . , - :

state-of-art . . - 2 . - .

, . , , :

ComputerVision. , , .

. . , - , 2 . , -

, . . - . / - https://t.me/CVML_team ( https://vk.com/cvml_team ).

, , youtube:

All Articles