Резюме: Устранение неоднозначности имен в анонимизированных графиках с использованием сетевого внедрения (CIKM 2017)

[1702.02287] Устранение неоднозначности имен в анонимных графах с использованием сетевого встраивания
Аннотация: В реальном мире наша ДНК уникальна, но многие люди имеют одинаковые имена. Это явление часто вызывает ошибочные…arxiv.org

Авторы:Байчуань Чжан, Мохаммад Аль Хасан

В этой статье авторы рассматривают проблему устранения неоднозначности имен в анонимизированных графах и предлагают новое решение, использующее только реляционные данные. В отличие от большинства существующих решений, авторы решают задачу в условиях сохранения конфиденциальности, т. е. не используют биографические признаки, такие как имя, адрес, институциональная принадлежность, а также контекстуальные признаки, такие как соавтор, принадлежность к сообществу и т. д. внешний источник данных.

Чтобы включить данные о связи, для данной ссылки на имя «a» их метод предварительно обрабатывает входные данные в виде трех графиков: 1) график «человек-человек», представляющий сотрудничество между парой людей. Они строят этот граф, сначала идентифицируя все документы (набор D_a), которые связаны с ними. Затем, найдя всех соавторов (множество A_a) в этих документах и рассматривая их как узлы графа, они связывают двух людей вместе, если они совместно пишут документ. 2) граф человек-документ, представляющий ассоциацию человека с документом. Этот граф представляет собой двудольную сеть, в которой узлы относятся к двум наборам D_a и A_a, а ссылки представляют отношение авторства между человеком и документом. 3) граф подобия документ-документ. Они определяют сходство между документами посредством сочетания отношений человек-человек и человек-документ. Два документа подобны, если пересечение их наборов соавторов велико (при использовании отношений человек-документ) или если пересечение одношаговых соседей их наборов соавторов велико (при использовании отношений человек-документ и человек-человек). ).

Предоставляя топологическую информацию через три определенных графа, они находят векторное представление для каждого документа, одновременно изучая эти графы и встраивая их в одно и то же векторное пространство. Они определяют оценку сходства между двумя узлами как внутренний продукт их соответствующих представлений встраивания. Затем они изучают отрицательную логарифмическую целевую функцию правдоподобия по трем графикам, применяя сигмовидную функцию при вычитании оценки каждой выборки со случайной отрицательной выборкой. Найдя векторное представление для каждого документа, связанного с «а», они решают проблему устранения неоднозначности путем иерархической кластеризации вложений, предполагая, что количество кластеров известно. Псевдокод предлагаемого метода представлен следующим образом:

В качестве ориентиров они рассматривают два набора данных цитирования, а именно Arnetminer и CitSeer. Статистика этих наборов данных, которые для каждой ссылки на имя содержат количество документов и количество отдельных авторов, связанных с этой ссылкой на имя, представлена ниже:

Чтобы оценить свой метод, они рассматривают несколько базовых показателей, отличающихся только процедурой встраивания документов и использующих тот же метод кластеризации, что и раньше. Результаты сравнения Macro-F1 представлены в виде:

Кроме того, они предполагают, что относительно хорошая производительность предложенного ими метода для всех ссылок на имена связана с тем, что метод способен изучать встраивание документов, что особенно подходит для задачи устранения неоднозначности имени, облегчая обмен информацией между тремя сетями. . В дополнение к Macro-F1 они изучают влияние учета различных значений количества кластеров на их производительность на рисунке 3. Как видно, их метод обеспечивает более надежную производительность по сравнению с базовыми показателями.

Эта статья является одной из первых и немногих статей, которые выходят за рамки биографических и контекстуальных особенностей для решения проблемы устранения неоднозначности и вместо этого включают топологическую информацию графа для решения этой проблемы. Хотя они достигают очень интересных и убедительных результатов в своих экспериментах, я считаю, что неспособность их базовых линий получить информацию из трех определенных графиков играет важную роль в их низкой производительности. В результате, обеспечение более справедливой среды либо за счет увеличения возможностей базовых показателей для обработки всех трех графиков, либо путем определения этих графиков в соответствии с требованиями базовых показателей может пролить больше света на производительность этих методов. Кроме того, в качестве следующего шага было бы очень интересно объединить внешние функции с топологической информацией графа, чтобы добиться еще большей производительности.

Резюме: Устранение неоднозначности имен в анонимизированных графиках с использованием сетевого внедрения (CIKM 2017)

Похожие вопросы