У меня есть два массива одинаковой длины, содержащие двоичные значения
import numpy as np
a=np.array([1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0])
b=np.array([1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1])
Я хочу вычислить расстояние Хэмминга между ними как можно быстрее, так как мне нужно сделать миллионы таких вычислений расстояния.
Вот простой, но медленный вариант (взято из Википедии):
%timeit sum(ch1 != ch2 for ch1, ch2 in zip(a, b))
10000 loops, best of 3: 79 us per loop
Я придумал более быстрые варианты, вдохновленные некоторыми ответами здесь о переполнении стека.
%timeit np.sum(np.bitwise_xor(a,b))
100000 loops, best of 3: 6.94 us per loop
%timeit len(np.bitwise_xor(a,b).nonzero()[0])
100000 loops, best of 3: 2.43 us per loop
Мне интересно, есть ли еще более быстрые способы вычислить это, возможно, используя cython?
a
иb
с длинами ваших реальных данных? - person Warren Weckesser   schedule 23.09.2015scipy.spatial.distance.cdist
илиscipy.spatial.distance.pdist
- person user2034412   schedule 23.09.2015return (u != v).mean()
. См. Также битовый массив. - person denis   schedule 26.01.2016