Как использовать Google Refine для замены строкового значения на Fingerprint?

У меня есть столбец с более чем 100 000 строк. Я хочу, чтобы Google Refine заменил эти строки своим отпечатком пальца.

Я выбрал столбец в Google Refine и создал Text Facet. Из этого текстового аспекта я могу выбрать «Кластер». Это покажет мне кластеры, которые, как я предполагаю, означают строковые значения с одинаковым отпечатком пальца, и позволит мне выбрать новое значение ячейки, которое по умолчанию соответствует имени первого члена кластера.

Я хочу, чтобы это имя было просто отпечатком пальца. Причина в том, что мне нужно выполнить эту операцию с несколькими файлами, и мне нужно, чтобы они имели одинаковое значение, если они действительно являются частью одного и того же кластера. Я не могу объединить файлы, так как это приводит к слишком большому количеству данных для обработки Refine, несмотря на оптимизацию параметров памяти в соответствии с часто задаваемыми вопросами Refine.

Поэтому я просто ищу операцию, которая берет каждую ячейку в столбце, вычисляет ее отпечаток и заменяет значение в столбце ее отпечатком.

Я использую Google Refine 2.5 на OSX 10.7.


person Brian Feeny    schedule 26.11.2012    source источник


Ответы (1)


Текстовые фасеты с тысячами вариантов перегрузят ваш браузер. Если вы используете фасет только как средство доступа к кластеризации, вы можете получить ту же функциональность, используя Edit Cells -> Cluster and Edit

Чтобы вычислить отпечаток пальца, используйте функцию отпечатка пальца с метким названием, т.е. value.fingerprint(), хотя я бы рекомендовал добавить новый столбец, а не перезаписывать исходные значения на случай, если они понадобятся вам снова.

person Tom Morris    schedule 27.11.2012
comment
Рад помочь. Можете ли вы принять ответ, чтобы он не отображался как неотвеченный для тега Freebase? - person Tom Morris; 29.11.2012