Я создаю модуль мешка слов с нуля. Я не уверен, что в этом подходе лучше всего удалять знаки препинания. Рассмотрим предложение
I've been "DMX world center" for long time ago.Are u?
Вопрос. Что касается набора слов, следует ли мне рассмотреть
- токен
DMX
(без кавычек) или"DMX
(с левой кавычкой) u
(без знака вопроса) илиu?
(со знаком вопроса)
Короче говоря, должен ли я удалить все знаки препинания при получении отдельных слов?
заранее спасибо
Обновлено. Это код того, что я реализовал.
Пример текста: ham , im .. On the snowboarding trip. I was wondering if your planning to get everyone together befor we go..a meet and greet kind of affair? Cheers,
HashSet<String> bagOfWords = new HashSet<String>();
BufferedReader reader = new BufferedReader(new FileReader(path));
while (reader.ready()) {
String msg = reader.readLine().split("\t", 2)[1].toLowerCase(); // I get only the 2nd part. 1st part indicate wether message is spam or ham
String[] words = msg.split("[\\s+\n.\t!?+,]"); // this is the regex that I've used to split words
for (String word : words) {
bagOfWords.add(word);
}
}