У меня есть два разных файла, содержимое каждого из которых поступает из разных потоков данных. У меня есть некоторые данные, собранные из этих потоков в двух разных файлах. Затем я хочу выполнить поиск в файлах, чтобы найти какие-либо шаблоны. Так что на более позднем этапе, если я соберу еще какие-то данные из потоков, я смогу различить, какие данные принадлежат какому потоку (на основе шаблонов, которые я нашел ранее).
Пример данных, содержащихся в файле, может быть: b0 82 91 a2 c3 89 b0 82 4a e3....(больше байтов)... Хотя здесь я взял очень мало байтов, но мы можем найти шаблон "b0 82 дюйма дважды выше. Таким образом, вывод должен показать шаблон и количество раз, когда он придет. Точно так же мы можем иметь 3-байтовый шаблон или даже более байтовый шаблон.
Еще одним примером может быть: aa 00 a7 2f 7b 4c ....(больше байтов).....aa 01 a7........(больше байтов)......aa 05 a7 ..... Я думаю, даже это можно считать шаблоном из 3 байтов, где два байта (aa и a7) фиксированы, а средний варьируется от 00 до 05.
Это два примера, которые я мог бы придумать, хотя шаблонов может быть больше. Даже могут быть какие-то скрытые паттерны, которые нельзя сразу визуализировать. Вся идея заключается в том, что подойдет любой шаблон, если он помогает различать два потока на более позднем этапе. Я думаю, что теперь я более ясно определил свою проблему. Пожалуйста, дайте мне знать следующие вещи:
Как мы можем сделать этот тип поиска закономерностей?
Есть ли какие-либо инструменты или библиотеки, которые могут помочь для этой цели?
Также какой язык или инструмент использовать для эффективной и быстрой разработки?
Может ли область интеллектуального анализа данных помочь в этом? Если да, то как это сделать?