Когда я готовился к интервью, я нашел несколько списков хороших вопросов, которые неоднократно задавали компании, специализирующиеся на продуктах, стартапы и т. д.
Вопросы следующие:
- Как бы вы объяснили деловому человеку, как работает модель глубокого обучения?
- Как бы вы определили p-значение для человека, не разбирающегося в технических вопросах?
- Имея массив слов и параметр max-width, отформатируйте текст таким образом, чтобы в каждой строке было ровно X символов.
- Напишите запрос для случайной выборки строки из таблицы со 100 миллионами строк.
- Какова вероятность того, что при броске трех кубиков выпадет не менее двух троек?
- Вы собираетесь сесть на самолет в Сиэтл. Вы хотите знать, нужно ли брать с собой зонт.
- В трех углах треугольника сидят 3 муравья. Все муравьи случайным образом выбирают направление и начинают двигаться по краю треугольника. Какова вероятность того, что любые два муравья столкнутся?
- Напишите SQL-запрос, чтобы создать гистограмму количества комментариев на пользователя в январе 2020 года. Предположим, что интервалы классов интервалов корзин равны единице.
- Нам дают два стола. Таблица A содержит миллион записей с полями ID и AGE. Таблица B также содержит 100 записей с двумя полями: ID и SALARY.
Допустим, в таблице B средняя зарплата составляет 50 тысяч, а медианная зарплата — 100 тысяч. ВЫБЕРИТЕ A.ID,A.AGE, B.SALARY FROM A LEFT JOIN B ON A.ID = B.ID WHERE B.SALARY › 50000
- Учитывая, что приведенный выше запрос выполняется, сколько записей будет возвращено
- Учитывая равномерные распределения X и Y, а также среднее значение 0 и стандартное отклонение 1 для обоих, какова вероятность того, что 2X > Y?
- Как бы вы выбрали репрезентативную выборку поисковых запросов из шести миллионов?
- Найти максимум подпоследовательности в целочисленном списке?
- Приведите пример сценария, в котором вы использовали бы Наивный Байес вместо другого классификатора?
- Как бы вы максимально кратко объяснили, что делает MapReduce?
- Что такое кривая ROC и значение матрицы чувствительности, специфичности, путаницы?
- Функция автозаполнения: как бы вы ее реализовали и можете ли вы выделить недостатки этого инструмента сегодня?
- Опишите эффективные способы объединения заданных k отсортированных массивов размером n каждый.
- Если у вас есть большие неразмеченные данные и небольшой набор данных с положительной маркировкой (нет отрицательных меток), можете ли вы придумать какие-то стратегии для изучения классификатора с использованием этого набора данных? Как бы вы решили, какую модель применить к вашим данным?
- Почему нейронные сети работают и почему это бурно развивающаяся область?
- Что такое матрица путаницы? Как объяснить это человеку, не занимающемуся статистикой? что такое ложноположительный и ложноотрицательный?
- Как работают Random Forest, Lasso и Ridge Regression? Разница между лассо и гребнем.
- Создайте честную монету из предвзятой.
- Сгенерируйте 7 целых чисел с равной вероятностью из функции, которая возвращает 1/0 с вероятностью p и (1-p).
- Учитывая набор данных временных рядов, как вы будете прогнозировать будущую стоимость?
- Как можно быстрее вычислить обратную матрицу, поэкспериментировав с вычислительными трюками?
- Опишите, как работает повышение градиента.
- Опишите шаги по обработке и очистке данных перед применением алгоритмов машинного обучения.
- Как бороться с несбалансированной бинарной классификацией?
- Как определить, является ли новое наблюдение выбросом? Что такое компромисс смещения-дисперсии?
- Объясните машину опорных векторов (SVM)
- Трое друзей в Сиэтле сказали вам, что идет дождь. Каждый имеет вероятность 1/3 лжи. Какова вероятность того, что в Сиэтле дождливо?
- Что бы вы сделали, чтобы обобщить ленту Twitter?
- Объясните шаги по обработке и очистке данных, прежде чем применять алгоритмы машинного обучения.
- Как измерить расстояние между точками данных?
- Дайте определение дисперсии.
- В чем разница между коробчатой диаграммой и гистограммой?
- Как вы решаете проблему L2-регуляризованной регрессии?
- Как выполнить ряд расчетов без калькулятора. Объясните логику шагов.
- В чем разница между хорошей и плохой визуализацией данных?
- Как найти процентиль? Напишите код для него.
- Как определить, является ли наблюдение выбросом?
- Обсудите, как случайным образом выбрать образец из совокупности пользователей продукта.
- Сходится ли метод k-средних к глобальному решению? Если да, можете ли вы дать интуицию? Если нет, то есть ли стратегии, которые мы можем использовать для получения лучших кластеров с помощью k-средних?
- Насколько важна точность данных обучения по сравнению с данными тестирования?
- Что вы имеете в виду под бэггингом и бустингом? В чем ключевая разница в используемых классификаторах?