Я собираюсь реализовать наивный байесовский классификатор с Python и классифицировать электронные письма как спам или не спам. У меня очень разреженный и длинный набор данных со многими записями. Каждая запись похожа на следующую:
1 9:3 94:1 109:1 163:1 405:1 406:1 415:2 416:1 435:3 436:3 437:4 ...
Где 1 — метка (спам, не спам), и каждая пара соответствует слову и его частоте. Например. 9:3 соответствует слову 9 и встречается в этом образце письма 3 раза.
Мне нужно прочитать этот набор данных и сохранить его в структуре. Поскольку это очень большой и разреженный набор данных, я ищу аккуратную структуру данных для хранения следующих переменных:
- индекс каждого письма
- метка этого (1 или -1)
- слово и его частота на каждое электронное письмо
- Мне также нужно создать корпус всех слов и их частоты с информацией о метках
Любые предложения для такой структуры данных?