Cómo obtener una entrevista con un científico de datos en Amazon en 2021

imagen



Decidí escribir un artículo para cualquiera que intente encontrar preguntas y respuestas relevantes para las entrevistas de Amazon. He respondido algunas preguntas de la entrevista que se han hecho en los últimos meses y he intentado darles respuestas concisas y claras. Hay preguntas difíciles, hay preguntas sencillas, pero en cualquier caso, ambas pueden ser útiles.



P: La pareja tiene dos hijos y la pareja sabe que uno de los hijos es un niño. ¿Cuál es la probabilidad de que el otro niño sea un niño?



No hay trampa aquí. La probabilidad de que un niño sea niño es independiente del otro, por lo que es del 50%. Puede confundirse con la pregunta de Leonard Mlodinov , donde la respuesta es un tercio, pero esta es una pregunta completamente diferente, no relacionada con la nuestra.



P: Explique qué es un valor p.



Si busca en Google qué es un valor p, obtendrá la siguiente respuesta: "Esta es la probabilidad de obtener para un modelo probabilístico dado de la distribución de valores de una variable aleatoria el mismo valor o más extremo de las estadísticas (aritmética media, mediana, etc.), en comparación con lo observado anteriormente, siempre que la hipótesis nula sea correcta ".



Respuesta detallada, por la razón de que p tiene un significado muy específico y a menudo se malinterpreta.



Una definición más simple de un valor p es: "Ésta es la probabilidad de que la estadística observada ocurra por casualidad, dada la distribución de la muestra".



Alpha establece el estándar de cuán extremos deben ser los valores antes de que se pueda rechazar la hipótesis nula. El valor p indica el extremo de los datos.



P: Hay 4 bolas rojas y 2 azules, ¿cuál es la probabilidad de que sean iguales en dos elecciones?



La respuesta es la probabilidad de que ambos sean rojos, más la probabilidad de que ambos sean azules. Supongamos que esta pregunta no tiene reemplazo.



  • Probabilidad de 2 rojos = (4/6) * (3/6) = 1/3 o 33%
  • Probabilidad de 2 azules = (2/6) * (1/6) = 1/18 o 5.6%


Por tanto, la probabilidad de que las bolas sean las mismas es aproximadamente del 38,6%.



P: Describe árbol, SVM y bosque aleatorio. Cuéntanos sus ventajas y desventajas.



Árboles de decisión: un modelo de árbol utilizado para modelar decisiones basadas en una o más condiciones.



Ventajas: Fácil de implementar, intuitivo, maneja los valores faltantes.

Contras: alta varianza, imprecisión



Pros: alta precisión dimensional

Contras: tendencia a sobreajustar, no estima directamente la probabilidad



Ventajas: puede lograr una mayor precisión, manejar valores faltantes, no se requiere escalado de función, puede determinar la importancia de la función.

Contras: caja negra, computacionalmente intensivo.



La reducción de la dimensionalidad es el proceso de reducir la cantidad de características en un conjunto de datos. Esto es principalmente importante cuando desea reducir la variación de su modelo (sobreajuste).



Wikipedia afirma cuatro beneficios de la reducción de dimensionalidad:



  • Reduce el tiempo y el espacio de almacenamiento necesarios.
  • La eliminación de la multicolinealidad mejora la interpretación de los parámetros del modelo de aprendizaje automático.
  • Resulta más fácil visualizar datos cuando se reduce a dimensiones muy pequeñas, como 2D o 3D.
  • Evita la maldición de la dimensión.


Necesitamos hacer algunas suposiciones sobre esta pregunta antes de poder responderla. Suponga que hay dos ubicaciones posibles para comprar un artículo en particular en Amazon, y la probabilidad de encontrarlo en la ubicación A es 0,6 y B es 0,8. La probabilidad de encontrar un producto en Amazon se puede explicar de la siguiente manera:



Podemos reformular lo anterior como P (A) = 0.6 y P (B) = 0.8. Además, supongamos que estos son eventos independientes, lo que significa que la probabilidad de un evento no depende de otro. Entonces podemos usar la fórmula ...



P (A o B) = P (A) + P (B) - P (A y B)

P (A o B) = 0.6 + 0.8 - (0.6 * 0, 8)

P (A o B) = 0,92



P: Si hay 8 bolas de igual peso y 1 bola que pesa un poco más (9 bolas en total), ¿cuántos pesos se necesitan para determinar qué bola es la más pesada?







Se requieren dos pesajes (vea las Partes A y B anteriores):



Debe dividir las nueve bolas en tres grupos de tres y pesar dos grupos. Si la balanza está equilibrada (opción 1), sabrá que la bola pesada pertenece al tercer grupo de bolas. De lo contrario, tomará un grupo con un gran peso (opción 2).

Luego sigues el mismo paso, pero tendrás tres grupos de un globo en lugar de tres grupos de tres.



P: ¿Qué es "reentrenamiento"?



El sobreajuste es un error cuando un modelo "se ajusta" demasiado bien a los datos, lo que da como resultado un modelo con alta varianza y bajo sesgo. Como consecuencia, el modelo de sobreajuste predecirá de manera inexacta nuevos puntos de datos, incluso si tiene alta fidelidad en los datos de entrenamiento.



P: Tenemos dos modelos, uno con un 85% de precisión y el otro con un 82% de precisión. ¿Cuál escogerás?



Si solo nos preocupamos por la precisión del modelo, entonces la respuesta es 85%. Pero si el entrevistador preguntó sobre esto, probablemente valga la pena averiguar en qué contexto se hace la pregunta, es decir, lo que el modelo está tratando de predecir. Esto nos dará una mejor idea de si la métrica de puntuación debería ser realmente la precisión u otra métrica como la recuperación o la puntuación f1.



P: ¿Qué es un algoritmo bayesiano ingenuo?



El clasificador bayesiano ingenuo es un clasificador popular utilizado en la ciencia de datos. La idea detrás de esto se basa en el teorema de Bayes:



imagen



en términos simples, esta ecuación se usa para responder a la siguiente pregunta. “¿Cuál es la probabilidad de y (mi variable de salida) con X (mis variables de entrada)? Y debido a la suposición ingenua de que las variables son independientes para una clase dada, se puede decir que:



imagen



Además, al eliminar el denominador, podemos decir que P (y | X) es proporcional al lado derecho.



imagen



Por lo tanto, el objetivo es encontrar la clase con la mayor probabilidad proporcional.





P: ¿Cómo afectará al mercado el cambio de la tarifa básica de membresía?



No estoy 100% seguro de la respuesta a esta pregunta, ¡pero haré todo lo posible!



Tomemos un ejemplo de aumento de la tarifa de membresía básica: hay dos partes involucradas: compradores y vendedores.



Para los compradores, el impacto de un aumento en la tarifa básica de membresía depende en última instancia de la elasticidad precio de la demanda de los compradores. Si la elasticidad del precio es alta, entonces un aumento de precio dado conducirá a una caída significativa de la demanda y viceversa. Los compradores que siguen comprando cuotas de membresía son probablemente los clientes más leales y activos de Amazon; también es probable que presten más atención a los productos premium.



Los vendedores sufrirán ya que el costo de comprar una canasta de productos de Amazon ahora es más alto. Esto hará que algunos alimentos se vean más afectados mientras que otros no. Es probable que los productos premium que compran los clientes más leales de Amazon no se vean tan afectados como los electrónicos.



¡Gracias por su atención!



Lo que me encanta de estas entrevistas y los problemas que tratan son dos cosas:

  • Te ayudan a aprender nuevos conceptos con los que no estabas familiarizado antes.
  • Abren conceptos que conoces desde un nuevo ángulo.


¡Espero que todo esto te ayude a prepararte para tu viaje al mundo de la ciencia de datos!



, Data Science AR- Banuba - Skillbox.



, -: , , . «» .



« ». . , , , .



:

1) , ?

2) ?

3) ?

4) , , -?

5) , ?



, .




All Articles