Introducción o de qué IA estoy hablando
Me interesa principalmente la IA universal como máquina para lograr objetivos complejos. Es decir, una especie de complejo de hardware y software, que se puede decir: hacer un avión que costará $ 100, volar 1000 kilómetros a una velocidad de 800 km / hy transportar 5 personas. O así: curar a tal o cual persona del cáncer en la etapa terminal.
La IA debería poder hacer frente a tales tareas, si es físicamente posible. Y si es imposible, entonces consiga el resultado que sea lo más cercano posible al dado.
Por el momento, veo dos formas de obtener IA universal.
La primera forma son sistemas como el aprendizaje por refuerzo. Se conectan a los sensores y actuadores de algún robot, y también tienen una señal de recompensa. El aprendizaje por refuerzo (en lo sucesivo, RL) opera para recibir en promedio tantas recompensas como sea posible. Y el canal de recompensa es la forma principal de decirle a la IA lo que queremos de él.
- , GPT-3, . . - , . , … GPT-3 “ - ” - . “ - ” - , . “ ?” GPT-3 , . GPT-3 .
Reinforcement Learning
.
- , RL , , , .
- . , .
,
, RL . - , 224224, , - . , , , , , . , - , , , - , , , . .
. :
1) , . , . ~1000-2000 . , , .
2) . - , “ ”, . , . , “ ”, , .
RL , .
RL . . RL - . - .
, RL . . RL , , .
?
-, RL . , , . - . .
- . RL , . , Doom, , , . RL , . RL - - , , . - - , , - , "" "".
, RL : Doom. .
RL , . , , - Exit.
RL , - , , , , , , Exit. , .
, , .
?
RL . . , .
, RL . , - - .
: RL , . , - , - . , RL - .
: , . , - . , RL , Exit. , “” - - , 5%, . , - , .
. , RL , . , , … : RL , , . , , , , , .
, RL , . . .
, , . - . : . -, . -, , , .
-. - Model-Based . “ ” - , , . ( , ) . , , -.
- , , ->, (, )-> .
.
. , . . RL , . , , , - . , RL , : , , .
, , , , , .
, , . , - RL.
? RL , , . , , . , - .
, . , , - , , . , - , - .
- - . , , .
- , . . , RL .
: ? , ?
: - , , … , .
: , , . , , , . , , , , 110 - , .
?
, : , , ( ). , “” “”.
, , . , , . “ , ”, - .
“ ” - , , . . , . , , . , , , . , -, “” , .
? ?
- . , -, , . , , RL . - , , - .
, . , . , RL “” - , , . ?
, . , - .
, , GAN. ( , - RL) , , . , . “” “” - , , - . .
, RL , - . , .
-
, , . , , , , - , .
, - RL - , . RL, . - - , RL.
RL . ( --) - : , , … , .
, . , , , .
, . , . . - “ ”, .
, , , , , . , , , - .
, RL . , . , RL - , , . , . .
, , , . , , -, . , . : 1000$ 100$ . ? , , . , . , . , - , - - . , , , . , , RL, , , , RL .
- , ( ) - , . , - , . RL - , . , - RL . , .
, , , . , .
, , .
Intenté este artículo como una forma de provocar el diálogo. Seguramente me equivoco en alguna parte y hay soluciones más astutas que aquellas en las que pude pensar. ¡Así que los comentarios detallados y los debates interesantes son bienvenidos!