Возможность

В области науки о данных и машинного обучения в последние годы произошел взрывной всплеск интереса и применения. Это означает, что рынок труда быстро расширился.

При отсутствии реальных признаков замедления спроса и ограниченного числа опытных специалистов с дипломами в области информатики рынок был открыт для разнообразного набора потенциальных кандидатов.

Многие люди переходят в отрасль из-за естественных наук, инженерии или из участия в массовых открытых онлайн-курсах (МООК). Фактически, сам Эндрю Нг недавно сделал акцент на приеме стажеров, которые прошли его MOOC по глубокому обучению на Coursea.

Во многих случаях применения этих методов также полезно иметь знания в предметной области. Поскольку потенциальные кандидаты имеют разное происхождение, оценка их способностей является сложной задачей.

Кто-то с серьезным опытом исследований не обязательно имеет опыт программирования, который демонстрирует черты характера, необходимые для прохождения коротких, чувствительных ко времени тестов, используемых многими рекрутерами для оценки способностей. Однако это не обязательно мешает кандидатам создавать готовый к производству код в промышленности.

Чтобы решить эту проблему, мы используем сочетание различных методологий машинного обучения, чтобы оценить многочисленные аспекты способности кандидатов кодировать и вернуть соответствие культуре кодирования компании.

Данные

В последнее время наблюдается огромное стремление к разработке большого количества кода с открытыми исходными кодами. Многие крупные технологические компании, которые обычно держали большую часть своих кодовых баз в секрете, открывают кеш импорта кода, из которого мы можем генерировать бесценные данные.

В интересном посте здесь говорится, что у Microsoft и Google есть около 2200 сотрудников, которые работают почти в 2000 лучших репозиториев на Github.

Кроме того, отдельные программисты теперь могут публично отображать многие из своих проектов на таких сервисах, как Github. Это дает множество различных проектов, от больших кодовых баз с тысячами строк до небольших проектов с несколькими сотнями, по которым мы можем анализировать тенденции.

Благодаря тому, что весь этот код находится в свободном доступе для всего мира, мы разработали инфраструктуру, которая позволяет нам генерировать большие наборы данных с соответствующей информацией о характеристиках кодирования, используемых в ведущих корпорациях или в крупных отраслях промышленности.

Как только данные из этих источников будут сгенерированы, мы можем использовать их для обучения моделей и алгоритмов, используемых для оценки кандидатов, а также применить более ориентированный на исследования подход и глубоко погрузиться в крупные и популярные репозитории.

Глубоко изучив их, мы можем изучить метрики кодирования, которые говорят нам, в какие проекты кодировщикам будет легче погрузиться. Которые, вероятно, будет сложно поддерживать. А также постройте график изменения репозиториев с течением времени и с разными выпусками.

Решение

Используя подход с большими данными, мы используем машинное обучение в многогранном подходе к оценке потенциальных кандидатов. Мы оцениваем как индивидуальные особенности программирования, так и общие тенденции компании и отрасли, что позволяет нам подбирать кандидатов на определенные должности.

Используя комбинацию машинного обучения с учителем и без учителя, мы смотрим на конкретные черты, которые дают представление о том, как кандидат, вероятно, будет выполнять свою роль.

Эта методология позволяет нам точно следовать желаниям отдельного рекрутера или позволить данным говорить сами за себя и указывать, к какому профилю относится кандидат.

Затем мы можем настроить базовые алгоритмы, чтобы расставить приоритеты для корпоративной культуры или более широких отраслевых тенденций, не проявляя собственных предубеждений.

Короче говоря, мы можем использовать машинное обучение для оценки инженеров машинного обучения и любого другого разработчика программного обеспечения при их оценке на новой работе.

Узнайте больше о RecruitSumo здесь