Я хотел бы рассчитать количество попарных различий между длинным списком последовательностей и вернуть его в матричную форму.
У меня есть несколько сотен генетических последовательностей, и каждая последовательность уже выровнена и имеет одинаковую длину (около 300 символов). Я не ищу один из алгоритмов расстояния редактирования (хэмминга, левейнштейна и т. д.), а вместо этого хотел бы получить количество абсолютных различий между двумя последовательностями. Последовательности должны быть сравнены в каждой позиции символа.
Например,
Sequence 1: "GAT-ACA"
Sequence 2: "AT-GCGA"
Number of differences: 6
(Дефис здесь позволяет выравнивать последовательности, и мои последовательности также могут включать тире).
Есть ли какой-нибудь эффективный способ сделать это с помощью python (или другого языка) с коротким временем вычислений? Я также задал этот вопрос в R, изначально намереваясь сделать это таким образом, но он оказался слишком медленным, чтобы его можно было применить к нескольким сотням последовательностей.
Благодарю вас!