Receta para entrenar redes neuronales

Traducción del artículo A Recipe for Training Neural Networks en nombre del autor (Andrej Karpathy). Con algunos enlaces adicionales.





Una versión en ucraniano también está disponible en un blog personal: Receta para la malla neuronal navchannya .





« », . ( ). , « » « ».





, , , . , , , ( ). , , , , . , .





1)

. 30- , () , . :





>>> your_data = #    
>>> model = SuperCrossValidator(SuperDuper.fit, your_data, ResNet50, SGDOptimizer)
#   
      
      



- API . , requests:





>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
      
      



! , URL, GET / POST , HTTP .., . , . , . "" , ImageNet. " " ("Yes you should understand backprop"), " ", , , . " " + " » . . "" . , " " , . , , , , . …





2)

. . 3 . . . . , - .





, . , , ( ). " " , ( ) -. , . ( ) , , . , , , , . , , , . , . , , , .. , ; , .





, ( ) " " . , , , , , . , , - .





, , , , . , . , , , , , - . , - "" , , . ( ), , .





1. C c

- , . . ( ), , . , . , . / . . , . - , ? ? ? ( average pool)? ? ?





, / , () , . , , , - .





, - / / (, , , ..) . - .





2. / + ( )

, , ASPP FPN ResNet ? . . - + . - , - - . , , (, ), ( ) .





:





  • . , . .





  • . . , . - , , - .





  • . () . , Tensorboard. .





  • . , . , , -log(1 / n_classes)



    softmax . L2, .





  • . . , , 50, 50. 1:10, , 0.1 . " ", .





  • . , , (, ). () . , , .





  • . (, ). , , , . ? ?





  • . (, ). (, ) , (, ). , , , , . , - , .





  • . , , . . ?





  • . y_hat = model (x)



    ( sess.run



    Tensorflow). - , , - . " ". , .





  • . . "" , . , «» , - , . .





  • . , . , , , (, view



    , transpose / permute



    ) . , , , , . ( ) - , i, i- . , , t 1..t-1. , , , .





  • . , , , , , . , , , , , . , , .





3.

, + . () , . , ( ), ( ). .





, , : , , ( ), ( , ). , , , , - , .





:





  • . , . , : . , - , . . , . , , , ResNet-50 . - .





  • Adam ( ) . Adam 3e-4



    . , Adam , . (SGD) Adam, . (. , Adam. , .)





  • . , , , . . - , , ..





  • . - , . , - - , . , ImageNet 10 30- . ImageNet ( ), , , . , , . ( ) .





4.

, , , . , . :





  • . -, . , , . , . - ( ), ~ 5- .





  • . - .





  • . , - . ; , , , , ( ) GAN.





  • . - , , .





  • ( ). ( ). , 2008 [ ], , , ( NLP, , BERT , / ).





  • . , . - ( ), . , , .





  • . , . , ImageNet, (average pooling), .





  • . . , / / , "" .





  • . . dropout2d ( ) . / , , , .





  • . ( ).





  • . , , ( , ).





  • . , , , , , "" , .





, , , , , . , - . .





5.

"" , , . :





  • . , , , . , , . , a , b , a , .





  • . , , , :). .





6.

, , :





  • . - 2% -. , , .





  • . , , , , . , . , , SOTA (state of the art - " ").





Una vez que llega aquí, tiene todos los ingredientes para el éxito: comprende profundamente la tecnología, el conjunto de datos y el problema, construyó toda la infraestructura de capacitación / evaluación y logró una alta confianza en su precisión, exploró modelos cada vez más complejos, obteniendo mejoras de rendimiento de varias maneras , que ha previsto en todo momento. Ahora está listo para leer muchos artículos, probar muchos experimentos y obtener los resultados de SOTA. ¡Buena suerte!








All Articles