Вопросы по теме 'text-processing'

Поиск словарных слов
У меня много составных строк, представляющих собой комбинацию двух или трех английских слов. e.g. "Spicejet" is a combination of the words "spice" and "jet" Мне нужно отделить эти отдельные английские слова от таких составных строк. Мой...
3209 просмотров

Строки Unicode в Ruby 1.9
Я написал сценарий Ruby, который читает файл ( File.read() ), содержащий символы Юникода, и он отлично работает из командной строки. Однако, когда я пытаюсь поместить его в рабочий процесс Automator (Mac OS X), я получаю эту ошибку; 2009-12-23...
1676 просмотров
schedule 08.12.2022

Добавить строку префикса в начало каждой строки
У меня есть файл, как показано ниже: line1 line2 line3 И я хочу получить: prefixline1 prefixline2 prefixline3 Я мог бы написать сценарий Ruby, но лучше, если мне это не нужно. prefix будет содержать / . Это путь, например...
417187 просмотров
schedule 21.10.2022

Скрипт Sed для редактирования CSV-файла или Python
В нашем проекте нам нужно импортировать файл csv в postgres. Существует несколько типов файлов, что означает, что длина файла изменяется, так как некоторые файлы имеют меньшее количество столбцов, а некоторые — все столбцы. Нам нужен быстрый...
2080 просмотров
schedule 05.10.2023

Рекомендации по программному обеспечению для обработки текстов
Мне нужно обработать текстовые файлы, чтобы извлечь соответствующую информацию для последующего ввода в R для статистического анализа. Содержимое текстового файла обычно выглядит примерно так, как показано ниже. Может ли правление дать какие-либо...
999 просмотров
schedule 13.11.2023

определить обычный текст или html
В моем приложении я обрабатываю почтовые тексты с помощью PHP. Для некоторых почтовых клиентов, таких как sina.com, отправляются неверные заголовки. Например, они отправляют почту в формате HTML, но отправляют заголовок Content-Type как text/plain....
2103 просмотров
schedule 20.05.2023

Apache Tika и ограничение на количество символов при разборе документов
Может ли кто-нибудь помочь мне разобраться? Это можно сделать так Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); Но если вы не используете Tika напрямую, вот так: ContentHandler textHandler = new...
8433 просмотров
schedule 09.12.2023

подсчитать количество различных слов
Я пытаюсь подсчитать количество отдельных слов в тексте, используя Java. Слово может быть униграммным, биграммным или триграммным существительным . Эти трое уже обнаружены с помощью тэггера Stanford POS , но я не могу подсчитайте слова, частота...
18367 просмотров
schedule 17.09.2022

Извлечение текстовой информации с помощью Rapidminer
У меня есть список текстовых данных, из которых я хочу извлечь определенные части. В настоящее время я использую регулярное выражение для извлечения нужных мне данных, но это становится очень сложным, потому что каждая запись немного отличается....
663 просмотров

Оптимизация импорта MySQL (преобразование подробного дампа SQL в быстрый / использование расширенных вставок)
Мы используем mysqldump с параметрами --complete-insert --skip-extended-insert для создания дампов базы данных, которые хранятся в VCS. Мы используем эти опции (и VCS), чтобы иметь возможность легко сравнивать разные версии баз данных. Теперь...
746 просмотров
schedule 01.08.2023

Как заменить абзац с помощью команды sed
У меня есть текст лицензии в моем файле Java. Я хочу заменить его на другую лицензию. У меня есть много java-файлов для этого. Как это сделать с помощью команды «sed» или сценария bash? Оригинальная лицензия выглядит так, /* * some txt *...
2861 просмотров
schedule 08.11.2022

сложные манипуляции с файлами зоны BIND
Я пытаюсь написать сценарий, который будет принимать файл зоны BIND, захватывать все записи A в формате host ip . Я сделал это к grep -w 'A' "$A_ZONE"|awk '{print $1,$4}'|sort -V , чтобы пропустить часть IN A . Теперь мне нужно извлечь записи PTR...
960 просмотров
schedule 07.01.2023

знаки препинания хранятся в мешке слов?
Я создаю модуль мешка слов с нуля. Я не уверен, что в этом подходе лучше всего удалять знаки препинания. Рассмотрим предложение I've been "DMX world center" for long time ago.Are u? Вопрос . Что касается набора слов, следует ли мне...
800 просмотров
schedule 13.01.2024

Управление документами ODT с помощью PHP (базовый поиск и замена)
С помощью LibreOffice я разработал и написал текстовый документ (формат ODT). Теперь я хочу программно найти определенные заполнители и заменить их текстом из базы данных. Я знаю, что есть некоторые библиотеки ODT для PHP, но поскольку файлы ODT —...
2604 просмотров
schedule 25.06.2022

NULLPointerException при использовании KNIME
Я пытаюсь выполнить простой анализ текста с помощью KNIME. Мой процесс начинается с использования обычного «читателя XLS» или «читателя текста», за которым следует «фильтр строк», который работает нормально. За этим шагом следует «Строки в...
970 просмотров
schedule 02.06.2022

Почему \r\n.split(\r\n) возвращает пустой массив?
У меня есть регулярное выражение «[\r\n\f]+», чтобы найти количество строк, содержащихся в строке. Мой код такой: pattern = Pattern.compile("[\\r\\n\\f]+") String[] lines = pattern.split(texts); В моем модульном тесте у меня есть образцы...
886 просмотров
schedule 25.05.2024

Используя sed, определите правильную строку в текстовом файле и запишите три разные части в отдельные переменные.
У меня есть группа текстовых файлов, каждый из которых содержит один экземпляр следующей строки где-то, где "(MR #" - лучший способ определить правильную строку... Smith, John A (MR # MR123456) Я хотел бы получить три оператора sed, которые...
49 просмотров
schedule 08.03.2023

Команда sed для замены первого и последнего символа каждой строки
Я хочу написать команду sed с одним вкладышем, чтобы поменять местами первый и последний символы каждой строки файла. Показанная ниже команда не работает sed 's/\(.\)\(.+\)\(.\)/\3\2\1/' input.txt Я даже пытался добавить символы начала и...
3242 просмотров
schedule 20.03.2024

Сокращение времени парсера Stanford за счет сокращения предложения
Мы уже знаем, что время синтаксического анализа Stanford Parser увеличивается по мере увеличения длины предложения. Я заинтересован в поиске творческих способов сокращения предложения таким образом, чтобы сократить время синтаксического анализа без...
124 просмотров

Оболочка сравнения файлов
Это мои базовые значения в файле с именем file.txt : us-east-1a m1.small 1 us-east-1c m1.small 1 us-east-1c m3.medium 1 us-east-1c m3.medium 1 us-east-1c t1.micro 1 us-east-1d m1.large 1 us-east-1d m1.medium 1 us-east-1e m3.medium 6 Это...
50 просмотров
schedule 21.03.2023