У меня есть столбец с более чем 100 000 строк. Я хочу, чтобы Google Refine заменил эти строки своим отпечатком пальца.
Я выбрал столбец в Google Refine и создал Text Facet. Из этого текстового аспекта я могу выбрать «Кластер». Это покажет мне кластеры, которые, как я предполагаю, означают строковые значения с одинаковым отпечатком пальца, и позволит мне выбрать новое значение ячейки, которое по умолчанию соответствует имени первого члена кластера.
Я хочу, чтобы это имя было просто отпечатком пальца. Причина в том, что мне нужно выполнить эту операцию с несколькими файлами, и мне нужно, чтобы они имели одинаковое значение, если они действительно являются частью одного и того же кластера. Я не могу объединить файлы, так как это приводит к слишком большому количеству данных для обработки Refine, несмотря на оптимизацию параметров памяти в соответствии с часто задаваемыми вопросами Refine.
Поэтому я просто ищу операцию, которая берет каждую ячейку в столбце, вычисляет ее отпечаток и заменяет значение в столбце ее отпечатком.
Я использую Google Refine 2.5 на OSX 10.7.