Компания Housing недавно уведомила студентов из Принстона о том, что в этом году процесс отбора в старшие классы не был полностью рандомизирован.

Обновление 2020: эти проблемы были исправлены в розыгрыше 2020 года. Чтобы увидеть анализ: https://medium.com/@yangsong_81413/princetons-2020-room-draw-is-fair-ff2a7231fd45

В частности, они утверждали, что

- Было «сходство между порядком отбора при жеребьевке старших классов 2018 и 2019 гг.».

- Около 220 студентов, которых это затронуло напрямую, - это все возрастающие пенсионеры.

- Учащиеся, которые находятся в той же группе жеребьевки в старших классах в этом году, что и в прошлом году, с большей вероятностью, чем ожидалось, сыграют жеребьевку в том же порядке, что и в прошлом году.

Теперь я сделаю несколько смелых заявлений о жилищном процессе:

  • Сходства не ограничиваются розыгрышами старших классов в 2018 и 2019 годах, но также между старшими классами и независимыми студентами, рес-колледжем и в разные годы.
  • Это касается каждого студента, а не только старших школьников.
  • У учащихся не только больше шансов провести розыгрыш в одном и том же порядке, но и порядок жеребьевки точно такой же для одинаковых групп.
  • Группы с большим размером НАМНОГО БОЛЬШЕ отрисовываются раньше, чем группы с меньшим размером.
  • Розыгрыш комнат не случайный, а детерминированный.

Отказ от ответственности: как помощник по общежитию я не участвовал в розыгрыше комнат в этом году, как и в прошлом году. Однако я хотел проверить некоторые претензии, сделанные Housing. Вместе с некоторыми друзьями я ранее осознавал корреляции в порядке рисования комнат, но не предпринимал никаких дальнейших действий.

Обновление: есть петиция о реформе розыгрыша комнат. Вы можете найти его здесь: https://tinyurl.com/RoomDrawPetitionText

Теперь я подробно проанализирую процесс рисования комнаты и посмотрю, что мы сможем найти.

1. Сходство между розыгрышами верхнего класса.

Чтобы проанализировать информацию, я собрал данные о порядке рисования комнат и проанализировал их с помощью Python. Это была сложная задача, поскольку Housing удалил данные за 2018 год и отредактировал данные розыгрыша 2019 года, чтобы устранить расхождения (Housing удалил участников независимой розыгрыша 2019 года из розыгрыша высшего класса 2019 года) .

Данные PDF также были в формате, который было трудно проанализировать. Необработанные файлы были преобразованы в TSV (значения, разделенные табуляцией), которыми можно было легко манипулировать с помощью существующих методов Python.

Чтобы зафиксировать сходство, я установил упорядоченный стандартный диктат с ключами в качестве номеров групп отрисовки (или времени отрисовки) и значений как наборов членов этой группы отрисовки. Это обеспечит упорядочение диктовок по времени отрисовки, а также то, что порядок людей в каждой группе отрисовки не имеет значения.

Затем я отфильтровал группы розыгрышей, которые остались прежними как в 2018, так и в 2019 году. Это означает, что в оба года у групп был точный состав.

Вот график, показывающий относительное положение групп розыгрыша 2018 года по сравнению с группами розыгрыша 2019 года (одна и та же группа через два года).

Этот график показывает несколько интересных деталей. Справа внизу мы видим четкий линейный тренд. Здесь показаны группы нынешних восходящих пожилых людей (класс 2020 г.), у которых время затяжки было в нижней половине в 2018 г., но в верхней половине в 2019 г. Мы видим, что график строго увеличивается, а это означает, что если одна группа имела лучшее время прорисовки, чем у другой группы в 2018 году, тогда у нее наверняка будет лучшее время прорисовки, чем у той же группы в 2019 году. Это показывает, что время отрисовки не только одинаково, но и порядок точно такой же.

Некоторые вещи, о которых стоит упомянуть, включают нижний левый, который показывает студентов, которые повторили свой последний год обучения, и верхний правый угол, который показывает студентов, которые повторили свой младший год (студенты, которые рисовали в младших классах как в 2018, так и в 2019 году). В частности, в верхнем левом углу нет баллов, поскольку ни один ученик не прошел путь от старшего в 2018 году до младшего в 2019.

В частности, идентичен порядок розыгрышей для людей, повторивших год.

Я удалил имена участников из соображений конфиденциальности, но быстрое сравнение данных за 2018 и 2019 годы показывает, что порядок групп полностью идентичен.

Если мы построим график, но удалив студентов, которые повторили год обучения (поскольку их вес не изменится по сравнению с другими студентами), мы увидим, что существует идеальная корреляция между временем проведения розыгрыша старших классов 2018 года и временем проведения розыгрыша старших классов 2019 года.

Взаимосвязь не является абсолютно линейной, потому что мы не нанесли на график группы, члены которых менялись за эти годы, но если взять наш рейтинг только по группам, которые остались постоянными, тенденция будет точно такой же.

2: Сходства между верхним классом, независимые розыгрыши

Если мы попробуем тот же подход, но сравнив независимую жеребьевку 2019 года с жеребьевкой высшего класса 2019 года, мы получим следующий график.

Опять же, мы видим, что относительный порядок идентичных групп точно такой же.

Это верно не только для старших классов против независимых, но также и для розыгрышей Спелмана и Рес-колледжа. Единственная причина, по которой несоответствие более выражено для старших классов и независимых, заключается в том, что в жеребьевке Res-College у большего количества людей будет разный вес жеребьевки, и мы можем только сравнивать время групп жеребьевки с одинаковым весом.

Я не показывал это здесь, но если мы сравним это с независимой розыгрышем 2018 года, мы получим аналогичные результаты. Анализ, представленный на сайте https://princetonhousing.github.io/, показывает, что розыгрыши Forbes 2018 года и розыгрыши высшего класса 2019 связаны между собой для лиц, участвовавших в обоих розыгрышах.

Это приводит только к одному выводу:

Порядок групп во всех розыгрышах и по годам одинаков.

Это могло произойти только в том случае, если розыгрыш комнат детерминирован, то есть в нем нет случайности.

3. СЛУЧАЙНОСТЬ ПРОТИВ ДЕТЕРМИНИСТИКИ

То, что я имею в виду под порядком групп только, применимо к группам, состоящим из одних и тех же людей и с одинаковым весом. Например, если человек A рисовал один, а человек B тоже рисовал один, то любой из них будет всегда впереди человека B в каждом розыгрыше за каждый год, при условии, что они имеют одинаковый вес для этого розыгрыша, иначе B всегда будет впереди A.

Если есть группа C, состоящая из нескольких человек, и группа C остается неизменной в разные розыгрыши / годы, то порядок A, B, C останется постоянным (при условии, что три группы имеют равный вес).

4. РАЗМЕР ВАШЕЙ ГРУППЫ ДЕЙСТВИТЕЛЬНО ВАЖЕН.

Выяснить, что порядок группы розыгрышей остался прежним, не составило большого труда. Фактически, это было уже известно многим людям, и многие люди предполагали, что порядок между разными розыгрышами (например, высший класс против независимых) был либо одинаковым, либо схожим, и этот факт еще предстоит признать.

Однако мы до сих пор не знаем, как этот порядок определяется для групп с одинаковым весом.

На официальном сайте жилищного строительства говорится, что

Приложения с равным весом случайным образом упорядочиваются компьютерной программой.

и это

Средневзвешенное значение рассчитывается путем сложения баллов для каждого члена и деления на количество членов в группе.

Это означает, что размер группы розыгрышей не должен влиять на порядок розыгрышей.

Однако это далеко не так.

Многие люди заметили, что группы, которые рисуют первыми, несколько больше, чем группы, которые рисуют последними, которые обычно состоят из отдельных людей.

График жеребьевки высшего класса 2018 года, представленный выше, показывает удивительную тенденцию. Мы видим две отдельные группы взрослых (первая половина) и юниоров (вторая половина). В каждой группе мы видим, что группы, которые рисуют первыми, с большей вероятностью будут иметь больше (около 8) участников, в то время как группы, которые рисуют последними, почти всегда состоят из 1 участника.

В частности, группы из 8 человек с большей вероятностью получат лучшее время прорисовки, чем группы из 1 человека.

(Для любопытных: группы, упорядоченные между 370 и 390, были смешанными, состоящими из смеси старших и младших. Мы пренебрегли этими группами в нашем анализе, поскольку все они имели разный вес, поэтому их относительный порядок не имел для нас значения.)

Для справки, вот как должно выглядеть по-настоящему случайное распределение. Мы должны ожидать, что он будет однородным, и не видеть 8 секунд перед 1.

Это один из наиболее важных графиков. Это показывает среднюю позицию в розыгрыше (из 370 общих групп) молодых людей старшего возраста во время жеребьевки 2018 года. В частности, если вы рисуете в одиночку, вы в среднем занимает 240-е место из 370 групп, в то время как группы из 8, вероятно, попадут в первые 100 групп.

Если бы группы жеребьевки были полностью рандомизированы, мы бы ожидали, что прямая линия составит около 185, в среднем. Однако мы видим, что этого не происходит.

Если мы посмотрим на растущую юниорскую жеребьевку в рамках жеребьевки старшего класса 2018 года, эффект будет еще более заметным. Среди 1008 учащихся учащиеся, рисовавшие в одиночку, в среднем занимают ниже 800-го места (в нижнем квинтиле времени рисования), в то время как учащиеся, которые рисуют в группах по 7 или 8 человек, с большой вероятностью занимают около 300-х мест ( в пределах первой трети раз).

Это существенно влияет на качество комнаты для студентов, особенно для тех, кто предпочитает рисовать в одиночку. В частности, почти все на последней странице розыгрыша рисуют либо в одиночку, либо иногда парами.

Один и тот же эффект (приоритет отдается более крупным группам) наблюдается в разные годы и при разном розыгрыше (независимость и т. Д.). Я решил не включать эти участки из-за нехватки места.

5. КАК ДЕЙСТВИТЕЛЬНО РАБОТАЕТ НОМЕР?

Мы обнаружили несколько вещей:

  • Относительный порядок групп с одинаковым весом остается неизменным.
  • Порядок жеребьевки помещений не зависит от года (2018, 2019 и т. Д.) или типа розыгрыша (независимый, повторный колледж, старшеклассник и т. Д.).
  • Группы большего размера имеют преимущество перед группами меньшего размера (помогает размер).

Единственный способ сделать это - наличие детерминированного алгоритма ранжирования групп розыгрыша по группам.

Обновление: мне было указано, что это неотличимо от детерминированного розыгрыша, поскольку порядок в одном экземпляре будет детерминированно предсказывать порядок в последующих розыгрышах, что означает, что возможно, что Корпус действительно использует случайный порядок , но каждый раз в одном и том же случайном порядке (например, одно и то же начальное число).

Моя эвристика такова:

  1. Каждому студенту дается уникальный номер (хэш) на основе комбинации их PUID / netID и т. Д.
  2. Хеши ранжируются / сортируются, и это определяет порядок отрисовки.
  3. Рейтинг группы равен студенту, получившему наивысший рейтинг в этой группе.

Это подтверждает тот факт, что порядок идентичных групп остается прежним. Это также объяснило бы, почему это явление происходило на протяжении многих лет и в каждом розыгрыше, поскольку алгоритм не зависит ни от года, ни от типа розыгрыша.

Это также объяснило бы, какие преимущества будут иметь группы с большими размерами, поскольку в группе больше людей и будет больше шансов выбрать эту группу по сравнению с группой меньшего размера. Это объяснило бы, как средний рейтинг групп уменьшается с увеличением количества людей в каждой группе. Это также объясняет, почему иногда у нас могут быть группы из одного человека ближе к началу розыгрыша и большие группы ближе к концу розыгрыша, что кажется противоречащим ожиданиям, но поддерживается алгоритмом.

Некоторые симуляции (см. Https://princetonhousing.github.io/) показывают, что мы достигаем очень схожих результатов, используя предложенный нами алгоритм и фактическое прорисовку комнаты. Если это так, то мы можем сделать вывод, что это продолжается уже много лет, а не только затрагивает пожилых людей в 2018–2019 годах.

Обновление: люди, проводившие эксперименты с группами рисования для класса 2022 года, сказали мне, что все предложенные выше выводы имеют статистическую значимость.

6. НЕКОТОРЫЕ ТОЧКИ, КОТОРЫЕ Я НЕ ПОНИМАЮ.

Жилищному сектору еще предстоит признать, что это продолжалось годами, и это повлияет не только на 2018/2019. Они также еще не признали, что разные розыгрыши также коррелированы (например, независимые и высшие классы) и тот факт, что большие группы розыгрышей имеют преимущество перед небольшими группами (что намного хуже и намного важнее, чем розыгрыш заказы остаются прежними).

Я предполагаю, что это показывает, что рисование комнаты несовместимо со стимулами, а это означает, что вы можете манипулировать своими предпочтениями, чтобы обеспечить лучшее время рисования (например, рисование с большим количеством людей, пребывание в той же группе рисования, если у вас было хорошее время рисования в прошлом году, изменение вашего группа, если вы плохо провели время и т. д.). Обнаружение несоответствий в Room Draw не новость, и большинство моих друзей, включая мою собственную группу рисования два года назад, либо предполагали, либо открывали такие явления.

Что не было сделано, так это углубленный анализ, подтверждающий эти факты. Есть еще много чего, что можно сделать, и гораздо больше данных, которые можно обработать. Думаю, я сожалею только о том, что не вникнул в это раньше, а попытался действовать только после того, как Housing признал их ошибку.

Думаю, это может привести только к моему предположению:

Жеребьевка комнат должна основываться на среднем балле.