Я пишу некоторый код Java, чтобы реализовать задачи НЛП над текстами с использованием Википедии. Как я могу использовать JSoup для извлечения всего текста статьи из Википедии (например, всего текста в http://en.wikipedia.org/wiki/Boston)?
jsoup — извлечь текст из статьи в Википедии
Ответы (1)
Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Boston").get();
Element contentDiv = doc.select("div[id=content]").first();
contentDiv.toString(); // The result
Конечно, таким образом вы извлекаете отформатированное содержимое. Если вам нужен «сырой» контент, вы можете отфильтровать результат с помощью Jsoup.clean
или использовать вызов contentDiv.text()
.
person
Hauke Ingmar Schmidt
schedule
05.02.2012
Почему бы нет? Так и должно быть, но он возвращает такие вещи, как заголовки или маркеры перечисления. Если вам нужны только (английские) слова, вам нужно немного отфильтровать, но мы не знаем ваших точных требований.
- person Hauke Ingmar Schmidt; 06.02.2012
Я скопировал ваш код в свой класс, и он не работал. Однако я сделал это сам, прежде чем попробовать ваше решение... и решение похоже!!! Однако спасибо... теперь я работаю над другим вопросом!!! stackoverflow.com/questions/9160760/
- person Ema; 06.02.2012
Я взял эти строки из живого кода, так что они должны хотя бы работать.
- person Hauke Ingmar Schmidt; 06.02.2012
ДА ОНИ БЕГАЮТ! Но тем не менее я решил проблему!!! Вы посмотрели на другой вопрос?
- person Ema; 06.02.2012
У меня будет больше мотивации ответить на этот вопрос, если этот вопрос будет завершен. В чем проблема с моим решением? Как вы решили проблему?
- person Hauke Ingmar Schmidt; 06.02.2012
Просто щелкните ссылку «Справка» рядом с полем для комментариев, чтобы увидеть синтаксис. Если он длиннее, вы можете создать собственный ответ.
- person Hauke Ingmar Schmidt; 06.02.2012
Мне жаль? Я предложил решение, вы не рассказали о своей проблеме.
- person Hauke Ingmar Schmidt; 07.02.2012
Но вы просите меня поставить свое решение, и если вы попробуете его, вы увидите, что вывод немного отличается, но ваше решение хорошее !!!! Это была моя ошибка!! Проблема в том, что я решил сам!!! Это все! Так что мне нужна помощь в другом вопросе... не в этом... но никто не пытается мне помочь!
- person Ema; 07.02.2012
Пожалуйста, успокойся. Если вы не предоставите никакой обратной связи (Что снова было проблемой с моим кодом?), мотивация помочь быстро угаснет. И вы должны показать, что вы уже сделали и в чем ваши проблемы (в другом вашем вопросе), а не просто просить людей делать вашу работу.
- person Hauke Ingmar Schmidt; 07.02.2012
jsoup
частью интересной проблемы? Потому что если нет, вы должны просто использовать параметрaction=raw
, чтобы получить источник для каждой страницы. например en.wikipedia.org/w/index.php?title=Elephant&action= сырой - person beerbajay   schedule 05.02.2012