Я работаю с набором данных, который содержит 40 разных участников, у каждого из которых 30 наблюдений. Поскольку я наблюдаю за поисковым поведением, я хочу рассчитать расстояние поиска для каждого субъекта за раунд (от 1 до 30).
Чтобы сравнить мои данные с текущей литературой, мне нужно использовать расстояние Хэмминга для описания расстояний поиска.
Переменная называется Inputs
и представляет собой строковую переменную с двоичными входными значениями 0 или 1 и длиной 10. Например: Тип входных данных 1 Тема 1 Раунд 1: 0000011111 Тип входных данных 1 Тема 1 Раунд 2: 0000011110
Используя расстояние Левенштейна, мой подход был прост:
sort type_num Subject round_num
gen input_prev=Input[_n-1]
replace input_prev="0000000000" if round_num==1 //default starting position with 0000000000 to get search distance for first input in round 1
//Levensthein distance & clearing data (Levensthein instead of hamming distance)
ustrdist Input input_prev
rename strdist input_change
Сейчас я изо всех сил пытаюсь получить правильные команды Stata для расстояния Хэмминга. Кто-нибудь может помочь?