Когда я готовился к интервью, я нашел несколько списков хороших вопросов, которые неоднократно задавали компании, специализирующиеся на продуктах, стартапы и т. д.

Вопросы следующие:

  • Как бы вы объяснили деловому человеку, как работает модель глубокого обучения?
  • Как бы вы определили p-значение для человека, не разбирающегося в технических вопросах?
  • Имея массив слов и параметр max-width, отформатируйте текст таким образом, чтобы в каждой строке было ровно X символов.
  • Напишите запрос для случайной выборки строки из таблицы со 100 миллионами строк.
  • Какова вероятность того, что при броске трех кубиков выпадет не менее двух троек?
  • Вы собираетесь сесть на самолет в Сиэтл. Вы хотите знать, нужно ли брать с собой зонт.
  • В трех углах треугольника сидят 3 муравья. Все муравьи случайным образом выбирают направление и начинают двигаться по краю треугольника. Какова вероятность того, что любые два муравья столкнутся?
  • Напишите SQL-запрос, чтобы создать гистограмму количества комментариев на пользователя в январе 2020 года. Предположим, что интервалы классов интервалов корзин равны единице.
  • Нам дают два стола. Таблица A содержит миллион записей с полями ID и AGE. Таблица B также содержит 100 записей с двумя полями: ID и SALARY.

Допустим, в таблице B средняя зарплата составляет 50 тысяч, а медианная зарплата — 100 тысяч. ВЫБЕРИТЕ A.ID,A.AGE, B.SALARY FROM A LEFT JOIN B ON A.ID = B.ID WHERE B.SALARY › 50000

  • Учитывая, что приведенный выше запрос выполняется, сколько записей будет возвращено
  • Учитывая равномерные распределения X и Y, а также среднее значение 0 и стандартное отклонение 1 для обоих, какова вероятность того, что 2X > Y?
  • Как бы вы выбрали репрезентативную выборку поисковых запросов из шести миллионов?
  • Найти максимум подпоследовательности в целочисленном списке?
  • Приведите пример сценария, в котором вы использовали бы Наивный Байес вместо другого классификатора?
  • Как бы вы максимально кратко объяснили, что делает MapReduce?
  • Что такое кривая ROC и значение матрицы чувствительности, специфичности, путаницы?
  • Функция автозаполнения: как бы вы ее реализовали и можете ли вы выделить недостатки этого инструмента сегодня?
  • Опишите эффективные способы объединения заданных k отсортированных массивов размером n каждый.
  • Если у вас есть большие неразмеченные данные и небольшой набор данных с положительной маркировкой (нет отрицательных меток), можете ли вы придумать какие-то стратегии для изучения классификатора с использованием этого набора данных? Как бы вы решили, какую модель применить к вашим данным?
  • Почему нейронные сети работают и почему это бурно развивающаяся область?
  • Что такое матрица путаницы? Как объяснить это человеку, не занимающемуся статистикой? что такое ложноположительный и ложноотрицательный?
  • Как работают Random Forest, Lasso и Ridge Regression? Разница между лассо и гребнем.
  • Создайте честную монету из предвзятой.
  • Сгенерируйте 7 целых чисел с равной вероятностью из функции, которая возвращает 1/0 с вероятностью p и (1-p).
  • Учитывая набор данных временных рядов, как вы будете прогнозировать будущую стоимость?
  • Как можно быстрее вычислить обратную матрицу, поэкспериментировав с вычислительными трюками?
  • Опишите, как работает повышение градиента.
  • Опишите шаги по обработке и очистке данных перед применением алгоритмов машинного обучения.
  • Как бороться с несбалансированной бинарной классификацией?
  • Как определить, является ли новое наблюдение выбросом? Что такое компромисс смещения-дисперсии?
  • Объясните машину опорных векторов (SVM)
  • Трое друзей в Сиэтле сказали вам, что идет дождь. Каждый имеет вероятность 1/3 лжи. Какова вероятность того, что в Сиэтле дождливо?
  • Что бы вы сделали, чтобы обобщить ленту Twitter?
  • Объясните шаги по обработке и очистке данных, прежде чем применять алгоритмы машинного обучения.
  • Как измерить расстояние между точками данных?
  • Дайте определение дисперсии.
  • В чем разница между коробчатой ​​диаграммой и гистограммой?
  • Как вы решаете проблему L2-регуляризованной регрессии?
  • Как выполнить ряд расчетов без калькулятора. Объясните логику шагов.
  • В чем разница между хорошей и плохой визуализацией данных?
  • Как найти процентиль? Напишите код для него.
  • Как определить, является ли наблюдение выбросом?
  • Обсудите, как случайным образом выбрать образец из совокупности пользователей продукта.
  • Сходится ли метод k-средних к глобальному решению? Если да, можете ли вы дать интуицию? Если нет, то есть ли стратегии, которые мы можем использовать для получения лучших кластеров с помощью k-средних?
  • Насколько важна точность данных обучения по сравнению с данными тестирования?
  • Что вы имеете в виду под бэггингом и бустингом? В чем ключевая разница в используемых классификаторах?