В качестве домашнего задания мне нужно написать программу, которая удаляет HTML-код с веб-сайта, а затем каким-то образом находит фразы на веб-сайте. Когда я говорю фразы, я имею в виду какой-то произвольный способ организации текста, когда слова, находящиеся в непосредственной близости друг от друга, помещаются в одну группу. Я знаю, это звучит очень неясно, но в задании говорится, как мы это делаем, зависит от нашей собственной интерпретации того, как найти «фразы».
В настоящее время у меня есть код, который выглядит так:
Document doc = Jsoup.connect("http://oracle.com/").get();
String html = doc.body().toString();
System.out.println(html);
Это даст мне достойную распечатку всех различных слов, которые появляются на какой-либо веб-странице, при разборе всего html.
Моя основная проблема заключается в том, что я не могу придумать способ анализа HTML, чтобы каким-то образом собрать эти произвольные группы (и я не знаю, какие критерии я могу использовать для произвольного формирования этих «групп» слов) .
Я знаю, что этот вопрос звучит ужасно, но я не знаю, как еще я могу его сформулировать, и у меня действительно нет идей относительно того, что я могу сделать. Задание, которое мне дали, крайне неясно, и, когда меня попросили уточнить, мой профессор просто сказал мне интерпретировать его самому. Мне было интересно, есть ли у кого-нибудь какие-либо идеи о том, как анализировать html, чтобы слова, близкие друг к другу (возможно, внутри похожих тегов html или что-то в этом роде), могли быть отфильтрованы аналогично текущему выводу, который у меня есть прямо сейчас, за исключением, возможно, после каждой "фразы " там есть новая строка или что-то, что я могу разобрать.
Спасибо за любые идеи или советы.