Вопросы по теме 'apache-tika'

Apache Tika и ограничение на количество символов при разборе документов
Может ли кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new...
8433 просмотров
schedule 09.12.2023

Анализатор XML + индексирование данных
Мне нужно проиндексировать некоторые XML-документы с помощью Lucene, но перед этим мне нужно проанализировать эти XML и извлечь некоторую информацию из их тегов. XML выглядит следующим образом: <?xml version="1.0" encoding="UTF-8"?>...
2737 просмотров

Solr : обработчик импорта данных и ячейка solr
Можно ли индексировать расширенный документ (pdf, office)... с помощью обработчика импорта данных с использованием ячейки solr. Я использую солер 3.2. Спасибо.
3428 просмотров

использовать плагин tika в nutch
В nutch я реализую плагин, который будет получать содержимое веб-страниц и обрабатывать их особым образом. Моя основная проблема заключается в том, что я хочу преобразовать веб-страницы в обычный текст, чтобы их можно было обрабатывать, я читал,...
2114 просмотров
schedule 29.06.2023

как сохранить путь к файлу в Solr при использовании TikaEntityProcessor
Я использую DIH для индексации локальной файловой системы. Но путь к файлу, размер и поле lastmodified не сохранились. в schema.xml я определил: <fields> <field name="title" type="string" indexed="true" stored="true"/>...
4411 просмотров
schedule 20.04.2022

Возможен ли импорт, редактирование и экспорт Java RTF?
Я использую Apache Tika для анализа файлов RTF, чтобы получить открытый текст в виде строки. Теперь я хочу удалить некоторые символы из этой строки -> ok. Теперь я хочу снова сохранить результат в формате RTF. (Вы можете думать об этом процессе как...
2095 просмотров
schedule 09.05.2022

Apache Tika: разбор файлов visio (.vsd)
В настоящее время я пишу программу на Java для извлечения метаданных из нескольких типов документов. На данный момент я пытаюсь извлечь метаданные из файлов .vsd с помощью Apache Tika. Раньше я пытался использовать Apache POI напрямую, но дело в...
1551 просмотров
schedule 02.03.2023

как отключить/включить индексацию на веб-странице
Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хотел бы включать и выключать индексирование контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответствующим образом? Например, при...
231 просмотров
schedule 29.03.2023

curl не отвечает с приложением Tika в качестве сервера
Я создаю веб-сервис на PHP и использую Tika для перетаскивания файлов в текст. Изначально я обрабатывал каждый файл через Tika во внешней оболочке (отлично для разработки, но не масштабируется), но сейчас пытаюсь использовать Tika в серверном режиме:...
847 просмотров
schedule 12.10.2023

Проблема с Playframework 2.x Apache Tika
я загружаю файл, используя загрузку, затем после получения загруженного файла я использую Apache tika верхнее извлечение content,metadata из загруженного файла и применяю, но появляется какая-то ошибка взгляните на мой код контроллера...
813 просмотров

Извлеките текст из большого PDF-файла с помощью Tika
Я пытаюсь извлечь текст из большого PDF-файла, но получаю только первые страницы, мне нужно, чтобы весь текст был передан в строковую переменную. это код public class ParsePDF { public static void main(String args[]) throws Exception {...
9619 просмотров
schedule 14.10.2022

Примеры книг Tika in Action Lucene StandardAnalyzer не работает
Во-первых, я полный нуб, когда дело доходит до Тики и Люсен. Я работаю над книгой Tika in Action, пробую примеры. В главе 5 приведен такой пример: package tikatest01; import java.io.File; import org.apache.tika.Tika; import...
1692 просмотров
schedule 06.08.2023

Как я могу использовать Tika для получения только основного контента с тегами html
Можно ли каким-то образом использовать вместе параметры --text-main и --html Tika, чтобы получить основной HTML-контент страницы?
707 просмотров
schedule 03.06.2023

Regex разбивает строку на массив с использованием java и Tika
Я пытаюсь получить вывод Tika (pdf в текст) и разделить результат на массив слов или группы символов. я использую что-то вроде .... String str = contenthandler.toString(); String[] splitArray = str.split("\\s+"); for (String word :...
305 просмотров
schedule 30.08.2022

Интеграция Tika 1.7 с Solr 5.1.0
Я хочу анализировать (многие) каналы rss/atom/rdf с помощью Tika 1.7 (работает довольно хорошо, но не идеально) и загружать данные в Solr 5.1.0. автоматически. Я вижу данные в своем терминале - выглядит довольно красиво, каждый элемент...
198 просмотров
schedule 22.11.2023

оператор curl для PHP, позволяющий использовать Apache TIKA
Я установил Apache TIKA и TIKAJAXRS Я намерен использовать его с PHP (TIKA как услуга). Мне нужно извлечь содержимое URL-адреса, а затем манипулировать возвращенным содержимым. Чтобы использовать TIKA как услугу, в документации говорится...
661 просмотров
schedule 11.05.2024

Как извлечь значения из Tika OCR с помощью Tesseract
Привет, я пытаюсь извлечь текстовое содержимое из изображения, используя Tesseract с Tika. Parser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(); Metadata metadata = new Metadata();...
2308 просмотров
schedule 30.04.2024

Запрос сервера Apache Tika на получение «основного контента» вместо «простого текста»
Я экспериментирую с Apache Tika: приложение и сервер, графический интерфейс и командная строка. С приложением Tika я могу сделать что-то вроде java -jar tika-app-1.7.jar --gui и выберите «Вид» -> «Основное содержимое» или java...
498 просмотров
schedule 21.12.2022

Как проверить, что содержимое файла действительно изображение
Чтобы определить реальный тип файла на основе содержимого файла (а не расширения), я использую apache Tika. Я написал следующий код: InputStream theInputStream = new FileInputStream("D:\\video.mp4"); try (InputStream is =...
2358 просмотров
schedule 31.05.2023

автоматический перезапуск сервера Tika
Я создаю веб-службу, в которой пользователи отправляют файлы PDF, и из этих файлов текстовое содержимое извлекается с использованием Tika . Я использую Tika в режиме сервера на том же компьютере, на котором размещен мой веб-сайт Django . Мой...
1199 просмотров
schedule 23.08.2023