В ответ на:

Вопрос 1: «Что нужно сделать в первую очередь после того, как данные будут на вашем компьютере?»

Q2: Какие ваши любимые типы проектов (например, сегментация, решения по деревьям, результаты начальной загрузки модели). Почему?

Q3: Почему R в квадрате бессмысленно, за исключением, возможно, контролируемых исследований?

Q4: «Используя прошлый проект, опишите свой 1) опыт работы с командой, 2) взаимодействие с конечным пользователем, 3) график проекта». ~ Q4 о том, как вы можете рассказать историю. Я сосредоточусь на пункте 3, сердцевине Q4.



Вот мои ответы:

A1: Изучите данные и узнайте вопрос. Я не могу знать, какие инструменты правильно использовать, если это всего лишь миллион строк бессмысленных данных. Я хочу сначала понять себя, прежде чем пытаться исследовать. Я не знаю, что установить в качестве зависимой переменной для моего дерева решений или другого исследовательского инструмента, если я не знаю, что я пытаюсь узнать. Как только я нашел вопрос, я использую деревья решений, регрессоры случайного леса и корреляционные таблицы, чтобы продолжить проект. Обычно я сбрасываю сильно коррелированные переменные, оставляя только по одной переменной каждого типа, чтобы повысить качество моей модели.

A2: Я люблю делать прогнозы. Я думаю, что это интересная работа, и у нее так много потенциала для того, чтобы быть полезной. Мне нравится решать вопросы, касающиеся политической экономии, например, где Дональд Трамп улучшил свое преимущество над Ромни, чтобы победить в коллегии выборщиков на уровне округа? Я действительно талантлив в географии, поэтому я проделал большую работу, чтобы понять жизнеспособность Америки для высокоскоростных железных дорог.

A3: Потому что он проверяет, соответствует ли ваша модель выбранному вами типу регрессии. Не все данные линейны, поэтому просто использовать линейную модель — это заблуждение, и если ваши данные нелинейны, вы можете получить низкий R2, когда на самом деле ваши данные сильно коррелированы. Действительно высокий R в квадрате также может быть признаком переобучения, а это означает, что ваша модель не будет работать должным образом, когда она увидит новые данные, поэтому важно использовать несколько инструментов, чтобы обеспечить надежность и максимально гарантировать, что ваша модель будет работать. в будущем. Есть так много лучших методов для проверки надежности, которые следует использовать вместо этого. Никогда не следует просто набрасывать одну метрику на каждый набор данных, потому что все они работают на достижение идеальной цели, которая никогда не бывает универсальной. Требуется больше навыков и творчества, чем просто объединение всего в одном инструменте. Иначе не была бы статистика скучной? (чего точно нет)

A4: В свое время в Evergreen я принимал активное участие в организации международной научной конференции, проводимой раз в два года, и микробиологической лаборатории. В рамках этого я поддерживаю два веб-сайта и помогаю координировать встречи. Большая часть этой работы требует от меня сообщить, в чем заключаются мои навыки, а затем сделать окончательный проект для завершения самых разных проектов. Это требует от меня общения с людьми буквально со всех континентов, чтобы убедиться, что они безопасно доберутся до Олимпии, обеспечить актуальность нашего веб-сайта и найти информацию, необходимую для размещения на веб-сайте, чтобы она оставалась актуальной. График проекта имеет жесткий крайний срок, когда начинается встреча, и я помогаю нам придерживаться графика, насколько это возможно в моей роли.