Parecería que ya ha habido una revolución con Computer Vision. En 2012, se lanzaron algoritmos basados en redes neuronales convolucionales . A partir de 2014 llegaron a producción, y a partir de 2016 llenaron todo . Pero, a finales de 2020, tuvo lugar una nueva ronda. Esta vez no en 4 años, sino en uno. hablemos de Transformers en ComputerVision. El artículo proporcionará una descripción general de los nuevos productos que han aparecido en el último año. Si es más conveniente para alguien, entonces el artículo está disponible como video en youtube.
Los transformadores son un tipo de redes neuronales creadas en 2017. Inicialmente, se utilizaron para traducciones :
Pero resultó que funcionaban simplemente como un modelo universal del lenguaje. Y nos vamos. En realidad, el famoso GPT-3 es un producto de transformadores.
ComputerVision?
. , . - , . . , . CV.
DETR
2020. . ? . , DETR (End-to-End Object Detection with Transformers), 2020 . , :
, ReInspect 2015 - , BackBone . - ReInspect Detr. .
, , DETR ( , ). .
, DETR ComputerVision. ? ? :
- , . Deformable DETR.
DETR . . iterdet. - ( - https://paperswithcode.com/sota/panoptic-segmentation-on-coco-panoptic ).
DETR Visual Transformer ( + ) . Feature map backbone:
Visual Transformer , . backbone .
VIT
. ViT:
, , . ( state-of-art). 14 - .
. FaceBook - Deit. .
- https://paperswithcode.com/paper/going-deeper-with-image-transformers
- . , ~2-3 , . ResNet .
CLIP
. CLIP. . CLIP . , . , - :
, . . :
:
, - :
ResNet50. , 100 .
Vision Transformers for Dense Prediction
, , - “Vision Transformers for Dense Prediction”, . Vit/Detr. , .
/, / . State-of-art , RealTime. @AlexeyAB ( Yolov4 ), . , , . - , :
---------------------------------------
. - :
1-2
- / . .
PoseFormer
Pose3D. , , :
3 . CherryLabs ( ) 3 , , . , , . - 3D, :
- . ( ). .
TransPose
, . TransPose - :
( OpenPose)
SWIN
Intel. SWIN Microsoft , RealTime. VIT/Deit, :
, , - https://paperswithcode.com/paper/swin-transformer-hierarchical-vision
LOFTR
. . SIFT/SURF+RANSAK ( + ). SuperGlue- Graph Neural Network ComputerVision. SuperGlue . , LOFTR End-To-End:
, :
, , , . : (Video Transformer Network, ActionBert). MMAction.
. , . , - STARK:
, . . , , . , , . . BBOX + , ,
.
ReID
, . 20 ReID - .
- OCR . , - :
state-of-art . . - 2 . - .
ComputerVision. , , .
, . . - . / - https://t.me/CVML_team ( https://vk.com/cvml_team ).
, , youtube: