Revisión del artículo - AdderNet: ¿Realmente necesitamos multiplicación en el aprendizaje profundo? (Clasificación de imágenes)

El uso de la suma en lugar de la multiplicación para la convolución da como resultado menos latencia que la CNN estándar

Convolution AdderNet usando suma, sin multiplicación
Convolution AdderNet usando suma, sin multiplicación

AdderNet: ?, (AdderNet), , Huawei Noah's Ark Lab .





?





  1. AdderNet





  2. : BN, ,









1. AdderNet

1.1.

  • , Y :





  • S - .





1.2.

Convolución estándar usando multiplicación
  • , . .





1.3. AdderNet

Convolution AdderNet usando suma, sin multiplicación
AdderNet ,
  • , l1- :





  • l1- .





, .





, , - , .





2. : BN, ,

2.1. (Batch Normalization - BN)

  • , (BN) Y , , CNN, AdderNets.





  • BN , , , .





  • ( - BN, ?)





2.2.

  • l1- . , l2-:





  • .





  • , X [-1,1].





  • Y X :





  • HT - HardTanh:





2.3.

l2-medidas de gradientes en LeNet-5-BN
l2- LeNet-5-BN
  • , AdderNets , CNN, AdderNets.





  • AdderNets :





  • γ - (, BN ), ΔL(Fl) - l, αl - .





  • ,





  • k Fl, η - .





3.

3.1. MNIST

  • LeNet-5-BN .





  • CNN 99,4% 435K 435K .





  • , AdderNet 99,4%, CNN, 870K .





  • , .





  • , VIA Nano 2000 4 2 . AdderNet LeNet-5 1.7M, CNN 2.6M CPU.





3.2. CIFAR

Resultados de clasificación en los conjuntos de datos CIFAR-10 y CIFAR-100
CIFAR-10 CIFAR-100
BNN: convolución XNORNet usando operaciones booleanas XNOR
BNN: XNORNet, XNOR
  • (Binary neural networks - BNN): XNOR , .





  • VGG-small, AdderNets (93,72% CIFAR-10 72,64% CIFAR-100) CNNs (93,80% CIFAR-10 72,73% CIFAR-100).





  • BNN , AdderNet CNN, (89,80% CIFAR-10 65,41% CIFAR-100).





  • ResNet-20, CNN (.. 92,25% CIFAR-10 68,14% CIFAR-100), (41,17M).





  • AdderNets 91,84% CIFAR-10 67,60% CIFAR-100 , CNN.





  • , BNN 84,87% 54,14% CIFAR-10 CIFAR-100.





  • ResNet-32 , AdderNets CNN.





3.3. ImageNet

Clasificación de resultados en conjuntos de datos de ImageNet 
ImageNet 
  • CNN 69,8% top-1 89,1% top-5 RESNET-18. , 1.8G .





  • AdderNet 66,8% top-1 87,4% top-5 ResNet-18, , .





  • , BNN , 51,2% top-1 73,2% top-5 ResNet-18.





  • ResNet-50.





3.4.

Visualización de funciones en AdderNets y CNN.  Las etiquetas CNN de diferentes clases se dividen según sus esquinas.
AdderNets CNN. CNN .
  •  LeNet++ MNIST, 3D .





  • 32, 32, 64, 64, 128, 128 2 .





  • AdderNets l1- . .





  • , AdderNets CNN.





Visualización de filtros en la primera capa de LeNet-5-BN en MNIST
LeNet-5-BN MNIST
  • adderNets - .





  • , AdderNets .





Histogramas por pesos de AdderNet (izquierda) y CNN (derecha).
AdderNet () CNN ().
  • AdderNets , CNN . , l1- .





3.5.  

Curva de aprendizaje de AdderNets usando varios esquemas de optimización
AdderNets
  • AdderNets, (adaptive learning rate - ALR) (increased learning rate - ILR), 97,99% 97,72% , , CNN (99,40%) .





  • AdderNets.





  • AdderNet ILR 98,99% . (ALR), AdderNet 99,40%, .





[2020 CVPR] [AdderNet]





AdderNet: Do We Really Need Multiplications in Deep Learning?





1989–1998: [LeNet]





2012–2014: [AlexNet & CaffeNet] [Dropout] [Maxout] [NIN] [ZFNet] [SPPNet] [Distillation]





2015: [VGGNet] [Highway] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2]





2016: [SqueezeNet] [Inception-v3] [ResNet] [Pre-Activation ResNet] [RiR] [Stochastic Depth] [WRN] [Trimps-Soushen]





2017: [Inception-v4] [Xception] [MobileNetV1] [Shake-Shake] [Cutout] [FractalNet] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [Residual Attention Network] [IGCNet / IGCV1] [Deep Roots]





2018: [RoR] [DMRNet / DFN-MR] [MSDNet] [ShuffleNet V1] [SENet] [NASNet] [MobileNetV2] [CondenseNet] [IGCV2] [IGCV3] [FishNet] [SqueezeNext] [ENAS] [PNASNet] [ShuffleNet V2] [BAM] [CBAM] [MorphNet] [NetAdapt] [mixup] [DropBlock] [Group Norm (GN)]





2019: [ResNet-38] [AmoebaNet] [ESPNetv2] [MnasNet] [Single-Path NAS] [DARTS] [ProxylessNAS] [MobileNetV3] [FBNet] [ShakeDrop] [CutMix] [MixConv] [EfficientNet] [ABN] [SKNet] [CB Loss]





2020: [Random Erasing (RE)] [SAOL] [AdderNet]






"Deep Learning. Basic".





- : "Knowledge distillation: ".





-





- -








All Articles