Вопросы для интервью — Ученый по данным, инженер по данным, машинное обучение, искусственный интеллект

Когда я готовился к интервью, я нашел несколько списков хороших вопросов, которые неоднократно задавали компании, специализирующиеся на продуктах, стартапы и т. д.

Вопросы следующие:

Как бы вы объяснили деловому человеку, как работает модель глубокого обучения?
Как бы вы определили p-значение для человека, не разбирающегося в технических вопросах?
Имея массив слов и параметр max-width, отформатируйте текст таким образом, чтобы в каждой строке было ровно X символов.
Напишите запрос для случайной выборки строки из таблицы со 100 миллионами строк.
Какова вероятность того, что при броске трех кубиков выпадет не менее двух троек?
Вы собираетесь сесть на самолет в Сиэтл. Вы хотите знать, нужно ли брать с собой зонт.
В трех углах треугольника сидят 3 муравья. Все муравьи случайным образом выбирают направление и начинают двигаться по краю треугольника. Какова вероятность того, что любые два муравья столкнутся?
Напишите SQL-запрос, чтобы создать гистограмму количества комментариев на пользователя в январе 2020 года. Предположим, что интервалы классов интервалов корзин равны единице.
Нам дают два стола. Таблица A содержит миллион записей с полями ID и AGE. Таблица B также содержит 100 записей с двумя полями: ID и SALARY.

Допустим, в таблице B средняя зарплата составляет 50 тысяч, а медианная зарплата — 100 тысяч. ВЫБЕРИТЕ A.ID,A.AGE, B.SALARY FROM A LEFT JOIN B ON A.ID = B.ID WHERE B.SALARY › 50000

Учитывая, что приведенный выше запрос выполняется, сколько записей будет возвращено
Учитывая равномерные распределения X и Y, а также среднее значение 0 и стандартное отклонение 1 для обоих, какова вероятность того, что 2X > Y?
Как бы вы выбрали репрезентативную выборку поисковых запросов из шести миллионов?
Найти максимум подпоследовательности в целочисленном списке?
Приведите пример сценария, в котором вы использовали бы Наивный Байес вместо другого классификатора?
Как бы вы максимально кратко объяснили, что делает MapReduce?
Что такое кривая ROC и значение матрицы чувствительности, специфичности, путаницы?
Функция автозаполнения: как бы вы ее реализовали и можете ли вы выделить недостатки этого инструмента сегодня?
Опишите эффективные способы объединения заданных k отсортированных массивов размером n каждый.
Если у вас есть большие неразмеченные данные и небольшой набор данных с положительной маркировкой (нет отрицательных меток), можете ли вы придумать какие-то стратегии для изучения классификатора с использованием этого набора данных? Как бы вы решили, какую модель применить к вашим данным?
Почему нейронные сети работают и почему это бурно развивающаяся область?
Что такое матрица путаницы? Как объяснить это человеку, не занимающемуся статистикой? что такое ложноположительный и ложноотрицательный?
Как работают Random Forest, Lasso и Ridge Regression? Разница между лассо и гребнем.
Создайте честную монету из предвзятой.
Сгенерируйте 7 целых чисел с равной вероятностью из функции, которая возвращает 1/0 с вероятностью p и (1-p).
Учитывая набор данных временных рядов, как вы будете прогнозировать будущую стоимость?
Как можно быстрее вычислить обратную матрицу, поэкспериментировав с вычислительными трюками?
Опишите, как работает повышение градиента.
Опишите шаги по обработке и очистке данных перед применением алгоритмов машинного обучения.
Как бороться с несбалансированной бинарной классификацией?
Как определить, является ли новое наблюдение выбросом? Что такое компромисс смещения-дисперсии?
Объясните машину опорных векторов (SVM)
Трое друзей в Сиэтле сказали вам, что идет дождь. Каждый имеет вероятность 1/3 лжи. Какова вероятность того, что в Сиэтле дождливо?
Что бы вы сделали, чтобы обобщить ленту Twitter?
Объясните шаги по обработке и очистке данных, прежде чем применять алгоритмы машинного обучения.
Как измерить расстояние между точками данных?
Дайте определение дисперсии.
В чем разница между коробчатой диаграммой и гистограммой?
Как вы решаете проблему L2-регуляризованной регрессии?
Как выполнить ряд расчетов без калькулятора. Объясните логику шагов.
В чем разница между хорошей и плохой визуализацией данных?
Как найти процентиль? Напишите код для него.
Как определить, является ли наблюдение выбросом?
Обсудите, как случайным образом выбрать образец из совокупности пользователей продукта.
Сходится ли метод k-средних к глобальному решению? Если да, можете ли вы дать интуицию? Если нет, то есть ли стратегии, которые мы можем использовать для получения лучших кластеров с помощью k-средних?
Насколько важна точность данных обучения по сравнению с данными тестирования?
Что вы имеете в виду под бэггингом и бустингом? В чем ключевая разница в используемых классификаторах?

Вопросы для интервью — Ученый по данным, инженер по данным, машинное обучение, искусственный интеллект

Похожие вопросы