Сон Цуй и Дхананджай Шрути | Инженеры-программисты, знание контента

Таксономия интересов в Pinterest

Недавно мы начали развертывание бета-версии Pinterest Trends, нового инструмента, который дает представление о самых популярных поисковых запросах в США на Pinterest за последние 12 месяцев и позволяет понять, когда поисковые запросы достигают пика, чтобы лучше понять, как контент выступает на платформе. Поскольку люди приходят в Pinterest для планирования, у нас есть уникальное представление о возникающих тенденциях, поэтому мы также публикуем ежегодный отчет Pinterest 100 (последний из которых был опубликован в прошлом месяце), чтобы показать, что будет в 2020 году.

Мы можем собирать эти идеи, потому что Pinterest - это принципиально иная платформа, куда более 320 миллионов человек со всего мира приезжают, чтобы сохранить идеи и планировать - каждый день, например, выясняя, что надеть. работа, большие и маленькие жизненные этапы, такие как покупка нового дома или решение, куда поехать. На сегодняшний день на платформе сохранено более 200 миллиардов идей на более чем 4 миллиардах досок, что дает представление о возникающих тенденциях и ранних сигналах о поведении потребителей и меняющихся вкусах.

Но для того, чтобы понимать тенденции по мере их появления, нам нужно понимать, какой контент ищут пины, а также категории, с которыми связаны пины. Для этого мы создали систему управления знаниями на основе таксономии, которая обеспечивает понимание контента очень эффективным способом.

Таксономия - это методология, которая классифицирует объекты и определяет иерархические отношения между ними. Он широко используется в качестве системы управления знаниями в отрасли и доказал свою успешность в повышении точности моделей машинного обучения в задачах поиска, моделирования поведения пользователей и классификации.

В Pinterest мы используем таксономию для организации популярных тем и сущностей (которые мы называем «интересами») и курируем узлы для таргетинга рекламы. Эти интересы сгруппированы вместе в иерархической древовидной структуре родитель-потомок, где каждый дочерний элемент является подклассом своего единственного родителя. Узлы таксономии верхнего уровня определяют широкие вертикали, такие как «Женская мода» и «Сделай сам и ремесла», которые отражают общие интересы, связанные с пинами в Pinterest. У нас есть дочерние узлы до 11 уровней, которые охватывают более подробные темы.

Примеры использования

Таксономия интересов имеет множество различных вариантов использования в деловых, продуктовых и производственных сигналах в инженерии. В этом блоге мы расскажем о четырех случаях использования.

Менеджер по рекламе

Менеджер рекламы - это основной интерфейс для рекламодателей. Чтобы помочь рекламодателям Pinterest, доступны некоторые узлы таксономии интересов, как показано ниже:

Таксономия интересов используется в таргетинге на основе интересов, чтобы помочь рекламодателям охватить нужную аудиторию на основе уникального понимания Pinterest интересов, вкусов и того, что они планируют.

Чтобы увидеть эффективность своих рекламных кампаний по интересам, рекламодатели могут выбрать разбивку "таргетинг по интересам" на уровне рекламной группы или продвигаемого пина. Такая детализация доступна для отчетов «выполнение», «производительность» или «пользовательский».

Сопоставление контактов с таксономией интересов

Мы создали Pin2Interes t (P2I), масштабируемую систему машинного обучения для классификации контента, чтобы сопоставить наш корпус из 200 миллиардов пинов с нашей таксономией интересов. Результаты P2I используются для генерации персонализированных рекомендаций и создания функций ранжирования для других моделей машинного обучения. P2I находится в разработке и имеет множество потребителей, таких как рейтинг домашних кормов и таргетинг рекламы.

P2I использует как текстовые, так и визуальные входы, такие как аннотации, визуальные вставки и названия досок. Он использует методы обработки естественного языка (NLP), такие как лексическое расширение и встраивание сходств, для сопоставления входных данных каждого отдельного изображения со списком узлов таксономии в качестве кандидатов на предсказание. Затем модель релевантности поиска используется для прогнозирования и ранжирования оценки соответствия между изображением и каждым отдельным узлом таксономии. Ниже показан образец выходных данных P2I, включая наиболее релевантный прогноз интереса с оценкой изображения.

Информация об иерархии таксономии также используется в качестве информации ранжирования P2I. Более 99% контактов можно сопоставить хотя бы с одним узлом таксономии. Детализация и качество таксономии имеют решающее значение для точности P2I. Если содержимое изображения относится к очень конкретной теме и в таксономии нет аналогичного узла для покрытия этой темы, P2I сопоставит это изображение с узлом с другим контекстом, и точность прогноза упадет.

P2I и Таксономия интересов обеспечивают критическое понимание содержания. Например, мы можем отслеживать количество изображений на каждый узел таксономии, и этот показатель сообщает нам о тенденциях и снижении темы в контенте Pinterest.

Сопоставление пользователей с таксономией интересов

Таксономия интересов также используется в системе машинного обучения для определения интересов пользователей. Система называется user2interest. Одним из наиболее важных входных сигналов для системы ML являются задействованные пользователем выводы и соответствующие метки интересов этих выводов, выводимые из Pin2Interest (упомянутые в предыдущем разделе).

Сигнал интереса пользователя широко используется в Pinterest для таргетинга рекламы и обычных рекомендаций, а также может дать представление о таксономии интересов с точки зрения пользователя. Например, мы можем вычислить статистику, такую ​​как количество пользователей на узел таксономии, чтобы информировать наших рекламодателей об общих сдвигах интересов Pinners.

Сопоставление запросов с таксономией интересов

Query2Interest (Q2I) сопоставляет короткие текстовые запросы с узлами таксономии. Этот сигнал использует Pintext, многозадачную систему встраивания текста в Pinterest для вычисления показателя сходства между узлами краткого текста и таксономии. Он группирует запросы с похожими категориями и значениями для узлов таксономии. Q2I находится в производстве и используется в различных рекламных и органических поверхностях. Сопоставление запросов с Таксономией интересов помогает Pinterest понять намерения пользователей, чтобы мы могли предоставлять им релевантные результаты.

Создание и поддержка таксономии интересов

Процесс курирования таксономии включает следующие два важных компонента: 1) моделирование данных в визуализации и курировании RDF graphWebProtégé; 2) Рабочий процесс для облегчения постепенных изменений в таксономии. Мы представим подробности ниже.

Моделирование данных RDF, визуализация и курирование WebProtégé

Для моделирования данных в таксономии мы используем тройки RDF (Resource Description Framework) для создания графиков, которые затем также можно использовать для курирования. Мы используем инструмент с открытым исходным кодом WebProtégé для визуализации и контроля таксономии людьми, который помогает нам создавать высококачественную таксономию путем совместного контроля. Модель данных RDF, которую мы используем, изображена ниже:

На рисунке ниже показано моделирование данных в WebProtégé, которое мы используем для совместного управления.

От RDF к производственной БД

Рабочие процессы проектирования принимают в качестве входных данных RDF-графики (в формате XML) и генерируют реляционные таблицы БД для последующего использования. Для каждой итерации разработки таксономии мы развиваем / расширяем таксономию, которая была разработана на предыдущей итерации. Поэтому мы следуем поэтапному пути создания и развития таксономии. Когда мы создаем новую версию таксономии, мы последовательно выполняем и поддерживаем такие операции, как добавление нового узла, переименование существующего узла, удаление узла и объединение двух или более узлов в один, чтобы разработать качественную и актуальную таксономию. к контенту, представленному на Pinterest. Мы разработали эвристические правила для всех ситуаций, когда требуется изменение узла (например, переименование узла, слияние узла и удаление узла).

Обновление таксономии интересов

Таксономия Pinterest нацелена на сбор наиболее важных и актуальных тем из контента Pinterest. Активные темы, используемые в различных продуктах, таких как лента тем и покупки, охватываются нашей таксономией. Эти термины взяты из популярных аннотаций, используемых в пинах, названиях форумов и популярных поисковых запросах.

Когда мы хотим добавить новую тему в существующую Таксономию, мы сначала рассылаем кандидатские термины таким группам, как безопасность контента и юридические вопросы, для проверки. Затем мы полагаемся на алгоритм машинного обучения на основе нейронной сети, чтобы предсказать вероятность того, что существующие узлы являются родителем кандидата-члена. Предполагаемые родители проверяются вручную. После этого новые узлы добавляются в текущую Таксономию в WebProtégé нашими Таксономистами. Весь процесс изображен ниже:

Ключевое предположение, сделанное моделью NTE, заключается в том, что существует по крайней мере одна аффинная проекция, такая, что как только вложение нового термина (например, «litecoin») преобразуется с использованием этой матрицы. Ближайшим соседом преобразованного вложения является его родительский элемент, например «Криптовалюта». Таким образом, ключ состоит в том, чтобы узнать матрицу преобразования. Для простоты новый термин представлен как q (запрос), а потенциальный родительский элемент представлен как p (родительский) на следующей диаграмме модели:

Затем потери рассчитываются как сумма двух компонентов. Первый компонент побуждает проекцию запроса p быть похожей на встраиваемую ep его истинного родителя. Второй компонент побуждает проекцию запроса отличаться от m родителей с «отрицательной выборкой», обозначенных - p или p '. Общие потери для каждой пары запрос-родитель (q, p):

Мы собираем положительные метки из существующей иерархии таксономии и используем отрицательные образцы для обучения модели. Модель используется в производстве для нескольких крупномасштабных проектов расширения таксономии. Окончательная проверка людьми все еще необходима, потому что таксономия является доступной для рекламодателей, поэтому нам нужны данные очень высокого качества.

Интернационализация

Чтобы поддержать международную экспансию Pinterest, таксономия Pinterest переведена на 17 языков для 20 стран и будет продолжать расширяться на новые рынки. Английская таксономия служит основной истиной для всех международных версий.

Смотря вперед

Двигаясь вперед, мы рады продолжать развивать методы своевременного и систематического выявления и понимания тенденций. Наша Таксономия интересов и последующие сигналы (например, P2I, U2I, B2I, Q2I) будут регулярно и автоматически обновляться. В ближайшем будущем мы также будем работать над автоматическим построением новых типов отношений между сущностями в нашей таксономии и ассоциированных атрибутах (ссылка). Если вам интересно узнать больше о том, чем занимается наша команда по разработке знаний и другие команды, а также о том, как к нам присоединиться, загляните на нашу страницу вакансий.

Подтверждение

Мы хотим поблагодарить всех, кто внес свой вклад в этот проект: нашего EM Rui Li, Yunsong Guo; наш премьер-министр Трой Ма, Мива Такаки; наши инженеры Имен Чжан, Эмаад Ахмед Манзур (стажер), международная команда Хелен Лабриет-Гросс, Эвелин Обамос, Франческа Ди Марко, Кэтрин Роуз Маунтин, Серена Перфетто и команда Stanford Protege. Также особая благодарность Бо Чжао, Цзинью Се, Руи Хуангу за их продуманные предложения.