Вопросы по теме 'apache-tika'
Apache Tika и ограничение на количество символов при разборе документов
Может ли кто-нибудь помочь мне разобраться?
Это можно сделать так
Tika tika = new Tika();
tika.setMaxStringLength(10*1024*1024);
Но если вы не используете Tika напрямую, вот так:
ContentHandler textHandler = new...
8433 просмотров
schedule
09.12.2023
Анализатор XML + индексирование данных
Мне нужно проиндексировать некоторые XML-документы с помощью Lucene, но перед этим мне нужно проанализировать эти XML и извлечь некоторую информацию из их тегов.
XML выглядит следующим образом:
<?xml version="1.0" encoding="UTF-8"?>...
2737 просмотров
schedule
28.04.2023
Solr : обработчик импорта данных и ячейка solr
Можно ли индексировать расширенный документ (pdf, office)... с помощью обработчика импорта данных с использованием ячейки solr.
Я использую солер 3.2.
Спасибо.
3428 просмотров
schedule
05.11.2023
использовать плагин tika в nutch
В nutch я реализую плагин, который будет получать содержимое веб-страниц и обрабатывать их особым образом.
Моя основная проблема заключается в том, что я хочу преобразовать веб-страницы в обычный текст, чтобы их можно было обрабатывать, я читал,...
2114 просмотров
schedule
29.06.2023
как сохранить путь к файлу в Solr при использовании TikaEntityProcessor
Я использую DIH для индексации локальной файловой системы. Но путь к файлу, размер и поле lastmodified не сохранились. в schema.xml я определил:
<fields>
<field name="title" type="string" indexed="true" stored="true"/>...
4411 просмотров
schedule
20.04.2022
Возможен ли импорт, редактирование и экспорт Java RTF?
Я использую Apache Tika для анализа файлов RTF, чтобы получить открытый текст в виде строки. Теперь я хочу удалить некоторые символы из этой строки -> ok. Теперь я хочу снова сохранить результат в формате RTF. (Вы можете думать об этом процессе как...
2095 просмотров
schedule
09.05.2022
Apache Tika: разбор файлов visio (.vsd)
В настоящее время я пишу программу на Java для извлечения метаданных из нескольких типов документов. На данный момент я пытаюсь извлечь метаданные из файлов .vsd с помощью Apache Tika. Раньше я пытался использовать Apache POI напрямую, но дело в...
1551 просмотров
schedule
02.03.2023
как отключить/включить индексацию на веб-странице
Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хотел бы включать и выключать индексирование контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответствующим образом?
Например, при...
231 просмотров
schedule
29.03.2023
curl не отвечает с приложением Tika в качестве сервера
Я создаю веб-сервис на PHP и использую Tika для перетаскивания файлов в текст. Изначально я обрабатывал каждый файл через Tika во внешней оболочке (отлично для разработки, но не масштабируется), но сейчас пытаюсь использовать Tika в серверном режиме:...
847 просмотров
schedule
12.10.2023
Проблема с Playframework 2.x Apache Tika
я загружаю файл, используя загрузку, затем после получения загруженного файла я использую Apache tika верхнее извлечение content,metadata из загруженного файла и применяю, но появляется какая-то ошибка
взгляните на мой код контроллера...
813 просмотров
schedule
12.01.2024
Извлеките текст из большого PDF-файла с помощью Tika
Я пытаюсь извлечь текст из большого PDF-файла, но получаю только первые страницы, мне нужно, чтобы весь текст был передан в строковую переменную.
это код
public class ParsePDF {
public static void main(String args[]) throws Exception {...
9619 просмотров
schedule
14.10.2022
Примеры книг Tika in Action Lucene StandardAnalyzer не работает
Во-первых, я полный нуб, когда дело доходит до Тики и Люсен. Я работаю над книгой Tika in Action, пробую примеры. В главе 5 приведен такой пример:
package tikatest01;
import java.io.File;
import org.apache.tika.Tika;
import...
1692 просмотров
schedule
06.08.2023
Как я могу использовать Tika для получения только основного контента с тегами html
Можно ли каким-то образом использовать вместе параметры --text-main и --html Tika, чтобы получить основной HTML-контент страницы?
707 просмотров
schedule
03.06.2023
Regex разбивает строку на массив с использованием java и Tika
Я пытаюсь получить вывод Tika (pdf в текст) и разделить результат на массив слов или группы символов.
я использую что-то вроде ....
String str = contenthandler.toString();
String[] splitArray = str.split("\\s+");
for (String word :...
305 просмотров
schedule
30.08.2022
Интеграция Tika 1.7 с Solr 5.1.0
Я хочу анализировать (многие) каналы rss/atom/rdf с помощью Tika 1.7 (работает довольно хорошо, но не идеально) и загружать данные в Solr 5.1.0. автоматически.
Я вижу данные в своем терминале - выглядит довольно красиво, каждый элемент...
198 просмотров
schedule
22.11.2023
оператор curl для PHP, позволяющий использовать Apache TIKA
Я установил Apache TIKA и TIKAJAXRS
Я намерен использовать его с PHP (TIKA как услуга). Мне нужно извлечь содержимое URL-адреса, а затем манипулировать возвращенным содержимым. Чтобы использовать TIKA как услугу, в документации говорится...
661 просмотров
schedule
11.05.2024
Как извлечь значения из Tika OCR с помощью Tesseract
Привет, я пытаюсь извлечь текстовое содержимое из изображения, используя Tesseract с Tika.
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();...
2308 просмотров
schedule
30.04.2024
Запрос сервера Apache Tika на получение «основного контента» вместо «простого текста»
Я экспериментирую с Apache Tika: приложение и сервер, графический интерфейс и командная строка.
С приложением Tika я могу сделать что-то вроде
java -jar tika-app-1.7.jar --gui
и выберите «Вид» -> «Основное содержимое» или
java...
498 просмотров
schedule
21.12.2022
Как проверить, что содержимое файла действительно изображение
Чтобы определить реальный тип файла на основе содержимого файла (а не расширения), я использую apache Tika.
Я написал следующий код:
InputStream theInputStream = new FileInputStream("D:\\video.mp4");
try (InputStream is =...
2358 просмотров
schedule
31.05.2023
автоматический перезапуск сервера Tika
Я создаю веб-службу, в которой пользователи отправляют файлы PDF, и из этих файлов текстовое содержимое извлекается с использованием Tika . Я использую Tika в режиме сервера на том же компьютере, на котором размещен мой веб-сайт Django .
Мой...
1199 просмотров
schedule
23.08.2023