Самые задаваемые вопросы на собеседованиях по науке о данных в Индии

Итак, вы завершили обучение науке о данных и ищете работу. Если вы прошли онлайн-курсы, подобные тем, которые мы предлагаем в Springboard, вы, скорее всего, получите рекомендации наставника и потенциальных клиентов для заявлений о приеме на работу в области науки о данных. Однако, если вы ИТ-специалист или специалист по статистике, ищущий бокового перехода к карьере в области науки о данных, вам может быть интересно, с какими вопросами вам придется иметь дело на собеседовании.

Карьера в науке о данных — это не только высокие зарплаты. Это также касается вашей собственной страсти к данным, анализу и нестандартному мышлению. Речь идет о знании предметной области, аналитических инструментах и технических навыках, которые могут помочь решить самые сложные бизнес-задачи, создав прибыльный драйвер.

Так что, если вы думаете подать заявку на работу специалиста по данным, пройдите эти шаги и узнайте, как пройти собеседование на специалиста по данным!

Для начала приведите свое портфолио в форму. Отметьте свои наборы навыков набора инструментов. Познакомьтесь с бизнес-средой в Индии, которая превратила страну в одну из крупнейших экономик мира. Поймите инновационный ландшафт, обеспечивающий этот импульс, и спросите себя, как вы можете стать его частью.

Спроси себя,

Насколько «глубоким» должно быть мое понимание статистики?

Какие языки программирования мне следует изучать по мере необходимости?

Какие дополнительные технические навыки могут принести мне хорошее предложение?

Как мне лучше всего продемонстрировать свои навыки работы с инструментами?

Итак, вы готовы вместе с «josh» пройти собеседование по науке о данных?

Хотя большинство собеседований начинаются с вопроса, в котором вас просят представиться, наниматели специалистов по обработке и анализу данных в Индии ищут четкое понимание основ. Поскольку работа в области науки о данных требует нескольких наборов навыков и базы знаний, вопросы для собеседования включают в себя сочетание основ, в зависимости от бизнес-модели компании и используемых технологий.

Мы перечислили некоторые из наиболее часто задаваемых вопросов и ответов на собеседованиях, чтобы вы знали, с чем столкнулись. Некоторые из них просты и по существу, в то время как другие могут быть сложными и открытыми. Вопросы обычно начинаются с основных основ и переходят к более сложным, если вам повезет дойти до этого момента!

Примеры вопросов разбиты на простые для понимания разделы:

А. Статистика

B. Аналитика и управление данными

С. Машинное обучение

D. Глубокое обучение

E. Инструмент/язык

F. Предполагаемые оценки

Ж. Тематические исследования

А. СТАТИСТИКА

А1. Различают одномерный, двумерный и многомерный анализ.

Одномерныйанализиспользуется, когда данные содержат только одну переменную, двумерныйанализ, когда есть две переменные, и многомерный анализ, когда переменных больше двух.

б) Цель одномерного анализа — описать данные и выявить закономерности. В то время как двумерный анализ обнаруживает связь или корреляцию между двумя переменными. Техника многомерного анализа используется, когда вам нужно предсказать определенный результат с заданным набором нескольких зависимых переменных.

А2. Что такое p-значение?

P-значение — это значение вероятности возникновения данного события, измеренное путем присвоения числа от 0 до 1.

Объяснять.

При выполнении статистической гипотезы или нулевой гипотезы (H0) исследования значение p помогает определить силу результатов. Нулевая гипотеза — это вывод о совокупности статистических данных. Как правило, в качестве порога используется p-значение 0,05. Низкое значение p (‹ 0,05) указывает на устойчивость к нулевой гипотезе, что означает, что нулевая гипотеза может быть отклонена, а альтернативная гипотеза принята. Высокое значение p (> 0,05) указывает на то, что доказательства против нулевой гипотезы недостаточно убедительны, и нулевую гипотезу нельзя отвергнуть.

А4. Когда делается ресемплинг?

Когда требуется состыковать две системы с разной частотой дискретизации;
Когда нужно протестировать модели на небольших выборках;
При отрисовке случайным образом с заменой из набора точек данных;
При выполнении тестов значимости или точных тестов путем замены меток в данных

точки;

Для проверки моделей с использованием случайных подмножеств.

А5. Какие типы систематических ошибок могут возникать во время выборки?

Критерий отбора..
Предвзятость при недостаточном освещении.
Предвзятость выживания.

Объясните предвзятость выбора.

Систематическая ошибка отбора возникает, когда существует систематическая ошибка при отборе выборки. Выборка не является репрезентативной для анализируемой популяции, поскольку при отборе выборки не была достигнута надлежащая рандомизация. Ошибка вносится из-за неслучайной выборки населения, создавая искажение в статистическом анализе.

А6. Что такое логистическая регрессия? Когда он используется? Приведите пример, когда у вас

использовали логистическую регрессию.

Логистическая регрессия — это статистический метод анализа набора данных, в котором одна или несколько независимых переменных определяют результат.

Он используется в алгоритмах прогнозирования, когда вам нужно предсказать бинарный результат линейной комбинации предиктора или независимых переменных.

Пример. Чтобы предсказать, купит ли конкретный клиент онлайн-продукт или нет, результат прогноза является бинарным (да/нет), а переменными-предикторами являются предыдущие данные о расходах клиента, поведение при покупке или просмотре, процент отказов от корзины и т. д. .

А7. Какие методы вы используете для выявления выбросов в наборе данных? Какой звонок ты

принимать при выявлении выбросов?

Ответ демонстрирует ваши аналитические способности. Поэтому кратко объясните процесс на примерах, чтобы продемонстрировать свое понимание.

Используйте методы визуализации, такие как гистограмма и точечная диаграмма, для одномерных или двумерных данных.
Используйте простые статистические методы, когда процесс включает

-› сортировка данных -> вычисление медиан первой половины (Q1) и второй половины (Q3) данных -> получение разницы между межквартильным размахом (Q3 — Q1) -> идентификация выбросов по положению точки данных .

Точка данных, выходящая за пределы внутреннего ограждения, является незначительным выбросом, а точка данных, выходящая за пределы внешнего ограждения, является значительным выбросом.

После выявления выбросов их необходимо изучить в контексте характера набора данных, протоколов проверки данных и поведения анализируемой переменной. Если выброс нехарактерный, но правильный, например, снятие крупной суммы наличными, его не трогают. Однако, если выброс нереалистичен, например, пиковая температура в городе 250 градусов, он неверен и с ним нужно бороться. Когда это возможно, проводится повторное обследование для сбора свежих данных или, если это невозможно, точка данных удаляется.

А8. Какова цель A/B-тестирования?

A/B-тестирование — это статистическая гипотеза, используемая при наличии двух переменных, A и B. Целью A/B-тестирования является получение информации путем сравнения обеих переменных A и B, чтобы определить, какая из них работает лучше. A/B-тестирование выполняется при тестировании двух версий веб-страницы и определении того, какие изменения на каждой веб-странице могут максимизировать или увеличить результат, например, более высокий коэффициент конверсии для страницы.

B. АНАЛИТИКА ДАННЫХ И УПРАВЛЕНИЕ

Б1. Что такое анализ первопричин?

Как следует из названия, анализ первопричин — это метод решения проблем, используемый для выявления первопричин сбоев или проблем. Он использует структурированный подход для устранения основных причин инцидента, чтобы можно было определить и реализовать наиболее эффективные решения.

БИ 2. Объясните этапы построения дерева решений.

Определите решение, которое необходимо принять, т. е. проблему, которую необходимо решить, или вопрос, на который необходимо ответить.
Соберите соответствующую информацию. Возьмите весь набор данных в качестве входных данных (корневой узел).
Найдите разбиение, которое разделяет набор данных.
Примените разделение к входным данным.
Повторно примените шаги c) и d) к разделенным данным.
Добавьте больше веток и листьев. (Ветви соединяются с конечными узлами, содержащими вопросы или критерии, на которые нужно ответить).
Остановитесь, когда будут выполнены критерии остановки.
Очистите дерево, если расщеплений слишком много. Эта обрезка (в отличие от разделения) удаляет участки дерева, которые мало что дают для классификации, и повышает точность прогнозов за счет уменьшения переобучения.
Проверьте точность.

Б3. Что такое подготовка данных?

Подготовка данных — это процесс обеспечения того, чтобы используемые данные соответствовали потребностям анализа, были высокого качества, точными, поддающимися описанию и в формате, который может использовать специалист по данным.

Б4. Когда нужно обновлять алгоритм?

В случаях, когда

Базовый источник данных меняется,
Вы хотите, чтобы модель развивалась по мере того, как потоки данных проходят через инфраструктуру,
Существует случай нестационарности, когда статистические свойства, такие как среднее значение, дисперсия или автокорреляция, изменяются.

Б5. Как очистка данных играет жизненно важную роль в анализе?

Данные часто собираются из нескольких источников и всегда в необработанном формате. Наборы данных бывают разных размеров и различны по своей природе.

Очистка данных важна, когда данные поступают из разнородных источников, поскольку время, необходимое для очистки данных, увеличивается экспоненциально с увеличением количества разрозненных источников данных, размеров наборов данных и объема генерируемых данных.
Это помогает преобразовать и уточнить данные в удобном для использования формате, с которым могут работать специалисты по данным.
Очистка данных устраняет ошибки и несоответствия, а также повышает качество данных для надежного анализа. Например, удаление повторяющихся или недействительных записей улучшает анализ.
Очистка данных сокращает время анализа почти на 80%.
Это повышает точность и производительность модели, поскольку предвзятая информация может изменить бизнес-решения.

C. МАШИННОЕ ОБУЧЕНИЕ (ML)

С1. В чем разница между контролируемым и неконтролируемым машинным обучением?

Машинное обучение с учителем использует полный набор помеченных данных, то есть данные помечены ответом, который алгоритм должен дать самостоятельно. Неконтролируемое машинное обучение не требует помеченных данных.
В контролируемом машинном обучении задача машинного обучения обучается для каждого ввода с соответствующей целевой переменной или переменной ответа. При неконтролируемом машинном обучении задача машинного обучения обучается только с набором входных данных без целевой переменной или конкретного желаемого результата.
Обучение с учителем полезно в задачах классификации и регрессии. Неконтролируемое обучение используется в задачах кластеризации, обнаружения аномалий, ассоциаций и в автокодировщиках.

С2. Что такое «наивность» в наивном Байесе?

Наивный означает, что алгоритм, используемый для классификации объектов, является «наивным» или однородным, поскольку он делает предположения, которые могут быть или не быть правильными.

С3. Подробно объясните алгоритм дерева решений. Дерево решений — это контролируемый алгоритм машинного обучения, который в основном используется для регрессии и классификации. Набор данных постоянно разбивается на более мелкие подмножества одинаковой ценности для постепенного построения дерева решений. Результатом является дерево решений, в котором каждый узел представляет функцию (атрибут), каждая ветвь представляет собой решение (правило), а каждый лист представляет результат (категориальное или непрерывное значение).

С4. Что вы понимаете под термином рекомендательные системы? Где они используются?

Рекомендательные системы — это своего рода системы фильтрации информации для прогнозирования рейтингов или предпочтений на основе контента и сотрудничества.

Рекомендательные системы обычно используются в электронной коммерции, платформах для просмотра фильмов, загрузке музыки, специальных приложениях, подборе новостей и т. д.

С5. Какие существуют типы совместной фильтрации и какие общие методы используются?

Подход на основе памяти использует всю базу данных для прогнозирования. Распространенными методами являются классификация, соседство и поэлементный анализ.
Подход, основанный на моделях, разрабатывает модели с использованием различных алгоритмов интеллектуального анализа данных и машинного обучения для прогнозирования рейтинга пользователей. Распространенными алгоритмами являются байесовские сети, модели кластеризации, латентные семантические модели, такие как разложение по сингулярным числам (SVD), вероятностный латентно-семантический анализ и модели, основанные на марковском процессе принятия решений.
Гибридный подход сочетает в себе алгоритмы на основе памяти и алгоритмы на основе моделей для преодоления таких ограничений, как разреженность и потеря информации, а также для повышения предсказуемости производительности.

Г. ГЛУБОКОЕ ОБУЧЕНИЕ

Д1. Когда модель нейронной сети становится моделью глубокого обучения?

Когда вы добавляете больше скрытых слоев и увеличиваете глубину нейронной сети.

Д2. Какие шаги в нейронной сети могут предотвратить переоснащение?

Добавление дополнительных данных с использованием увеличения данных, пакетной нормализации, снижения сложности архитектуры, регуляризации и исключения.

Д3. Для задачи распознавания изображений (например, распознавания человека на изображении), которая

архитектура нейронной сети лучше всего подходит для решения задачи?

Сверточная нейронная сеть лучше всего подходит для проблем, связанных с изображением, из-за ее встроенной природы факторизации изменений в близлежащих местах изображения.

Д4. Какой метод градиента работает лучше, когда данные слишком велики для обработки в оперативной памяти

одновременно?

Стохастический градиентный спуск, чтобы получить наилучшую нейронную сеть.

Д5. Предположим, проблема, которую вы пытаетесь решить, имеет небольшой объем данных. Ты

иметь предварительно обученную нейронную сеть, используемую для решения аналогичной задачи. Какой метод

вы решили использовать эту предварительно обученную сеть, и почему?

Ответ демонстрирует ваши навыки решения проблем. Поэтому кратко объясните процесс на примерах, чтобы продемонстрировать свое понимание.

Если данные в основном похожи, лучшим методом будет заморозить все слои и повторно обучить только последний слой; потому что предыдущие слои работают как экстракторы признаков.

E. ИНСТРУМЕНТ / ЯЗЫК

Дело не только в упоминании проектов, над которыми вы работали, или используемых инструментов. На собеседовании при приеме на работу в области науки о данных вас оценят на предмет вашего понимания того, почему вы выбрали алгоритм или метод и почему вы пришли к такому выводу. Как правило, обязательными считаются хорошие практические знания Python, R и SQL. Таким образом, вы можете рассчитывать на то же самое, прежде чем вас протестируют на другие инструменты и языки, упомянутые в вашем резюме!

Е1. Приведите примеры агрегатных функций в SQL.

Функция COUNT() возвращает количество строк, соответствующих заданному критерию.
Функция AVG() возвращает среднее значение числового столбца.
Функция SUM() возвращает общую сумму числового столбца.
Функция MIN() возвращает наименьшее значение в таблице.
Функция MAX() возвращает наибольшее значение в таблице.
Функция DISTINCT возвращает разные значения, что позволяет исключить дубликаты.

Е2. Предположим, у вас есть столбец «A» в таблице 1 с тремя значениями (1,2,3). Это

первичный ключ и ссылается на столбец «B» в таблице 2. Как вставить больше значений

без ошибки?

Любое значение, кроме повторяющихся значений, может быть вставлено в столбец A таблицы 1. Однако из-за целостности внешнего ключа (столбец B в table2, на который ссылается столбец A), значения, отличные от 1, 2 и 3, не могут быть вставлены в столбец B.

Е3. Python или R — что бы вы предпочли для текстовой аналитики?

Ответ демонстрирует ваше понимание двух языков программирования и их применения в реальных сценариях. Так объясните причину, по которой вы выбираете один vis-a-vis другой. Еще лучше, если вы сможете продемонстрировать свои знания на примерах.

Python был бы предпочтительнее, потому что:

Он работает быстрее для всех типов текстовой аналитики.
Может использоваться в дальнейшем для манипулирования данными и повторяющихся задач, например, методов социальной инженерии.
Он имеет библиотеку Pandas, которая предоставляет простые в использовании структуры данных и высокопроизводительные инструменты анализа.
Он имеет множество библиотек НЛП и других специализированных пакетов, таких как Gensim для тематического анализа,
Его также можно использовать для изучения глубоких сетей с использованием долговременной кратковременной памяти (LSTM) для получения более точных результатов из обширного набора данных.

Е4. Что такое отрицательные индексы и почему они используются? Последовательности в Python индексируются, т. е. представляют собой упорядоченный список как с положительными, так и с отрицательными числами. Положительные числа используют «0» в качестве первого индекса, «1» в качестве второго индекса и так далее. Однако индекс для отрицательного числа начинается с «-1» и продолжается ниже. Отрицательные индексы используют отсчет от последнего элемента в списке или от предпоследнего элемента, поэтому вы считаете справа, а не слева.

Отрицательные индексы используются для

Удалите все пробелы новой строки из строки и разрешите строке исключать последний символ, отображаемый как S[:-1].
Покажите индекс для представления строки в правильном порядке.
Сократите время, затрачиваемое на письменный доступ к последнему элементу списка.

F. ПРЕДПОЛАГАЕМЫЕ ОЦЕНКИ / ПРЕДПОЛАГАЕМЫЕ ОЦЕНКИ

Предположение - это набор догадок и оценок, используемый для грубого приближения в ожидании более точной оценки или просто обоснованного предположения. Вопросы на догадки часто встречаются на собеседованиях на должности специалистов по науке о данных. Вас оценивают по тому, насколько структурирован ваш подход, насколько хорошо вы работаете с числами и расчетами в уме, а также по тому, можете ли вы быстро анализировать, используя различные методы.

ПРИМЕР 1. Угадайте-оцените количество сыра, потребляемого в Бангалоре за день.

Предполагаемая оценка учитывает либо сторону потребления (конечный покупатель, граммы, потребляемые на человека, типы сыра, доступные на рынке и т. д.), либо сторону производства (бренды в Индии, количество проданных товаров и т. д.).

Допустим, вы рассматриваете сторону потребления как подход:

Разбейте конечных потребителей на возрастные группы, типы потребителей (постоянные/нерегулярные),
потребителей с диетическими/медицинскими ограничениями (диабет, проблемы с сердцем, высокий уровень холестерина и т. д.) и т. д.

Рассчитайте население Бангалора в этой возрастной группе, статистику, связанную с пользователями и заболеваниями, и другие переменные. Назначьте проценты и соответствующий вес, чтобы сделать предположение!

ПРИМЕР 2. Сколько красных автомобилей Swift в Дели?

Рассматривайте Swift как молодежную марку, а красный Swift — как спортивный автомобиль, а не как семейный автомобиль. Следуя этой логике, рассмотрим людей в возрастной группе от 25 до 40 лет как покупателей красного Swift. Кроме того, если предположить, что Swift имеет ок. Доля рынка в сегменте автомобилей составляет 10 %, и если предположить, что более 5 % жителей Дели в возрастной группе 25–40 лет могут позволить себе автомобиль, вы можете получить свои ценности. В конце подсчитайте, сколько красных автомобилей Swift вы видите на дороге (одну из шести?), и выведите окончательное количество красных автомобилей Swift в Дели!

ПРИМЕР 3. Угадайте-оцените количество людей в Индии, которые будут использовать крикетную форму элитного бренда [Fractal Analytics]

Так что думайте вслух, соединяя числа и ссылки, и прокладывайте себе путь через головоломку, прежде чем вы найдёте момент озарения!

Однако Джагдиш Чатурведи, директор по клиническим инновациям в InnAccel, предлагает уникальный, но, возможно, полезный подход, если вы хотите думать на ходу. Согласно его комментарию на Quora, нестандартных мыслителей очень мало и все хотят их нанять. Причина этих вопросов часто состоит в том, чтобы вызвать некоторое нестандартное мышление, а не дотошную и детальную логику. Поэтому он говорит, что у вас есть возможность ответа Акбара-Бирбала, если вы окажетесь в затруднительном положении. В конечном счете, нанимателям нужны быстрые и умные мыслители!

G. ПРИМЕРЫ ИЗ ПРАКТИКИ

Ответы демонстрируют ваши аналитические способности. Так что пройдитесь по своим рассуждениям. Начните с понимания того, чем занимается компания. В чем проблема бизнеса? Почему они применяют определенную технику? Эти вопросы помогут вам найти пути решения рассматриваемой проблемы.

ПРИМЕР 1. Оптимизируйте ценообразование для продукта электронной коммерции, где переменные

Рыночная цена за единицу
Стоимость за единицу
Прибыль/единица
Среднее количество проданных единиц
Увеличение общего процента откликов клиентов на каждые 10 % снижения цены за единицу товара
Увеличение объема продаж при снижении цены за единицу на каждые 10%.

Допускается повышение цены до 20%.

ПРИМЕР2. Оптимизация маршрута для школьного автобуса с заданными двумя альтернативными маршрутами (X, Y), где

Средняя разрешенная скорость — 25 км/ч.
Длина двух маршрутов составляет 5 км (X) и 7,8 км (Y).
Заторы на маршруте X, для которого также настроен сигнал светофора на 120 секунд.

ПРИМЕР3. Как бы вы расследовали снижение вовлеченности пользователей?

Забрать

Характер вопросов на собеседовании обычно зависит от аналитических и технических навыков, необходимых нанимающей компании, а также от типичных проблем, связанных с бизнесом и отраслью, к которой она принадлежит.

Итак, теперь у вас есть представление о вопросах для интервью, приступайте к работе. Подготовьтесь к учениям по работе с данными. Выживите на собеседовании и получите желаемую работу!