Вопросы по теме 'text-parsing'

Разбор строк с разделителями?
Я смотрю на синтаксический анализ строки с разделителями, что-то в порядке a,b,c Но это очень простой пример, и анализ данных с разделителями может оказаться сложным; например 1, "Ваш простой алгоритм, он не работает", Верно взорвет вашу...
4260 просмотров
schedule 03.09.2022

Оценка строки простых математических выражений
Вызов Вот проблема (мое собственное изобретение, хотя я не удивлюсь, если раньше оно появилось где-нибудь в Интернете). Напишите функцию, которая принимает единственный аргумент, представляющий собой строковое представление простого...
17713 просмотров

библиотека для анализа относительной даты (например, календарь Google) в С#
Я задаю тот же вопрос, что и этот: Как я могу анализировать относительные даты с Perl? но на C#. Извините, если это дубликат, я удалю, если это так. Существует ли такая библиотека? Спасибо
642 просмотров
schedule 01.11.2022

Лучший способ получить все цифры из строки
Есть ли лучший способ получить строку, такую ​​​​как «(123) 455-2344», и получить из нее «1234552344», чем это: var matches = Regex.Matches(input, @"[0-9]+", RegexOptions.Compiled); return String.Join(string.Empty, matches.Cast<Match>()...
35349 просмотров
schedule 23.03.2023

Как я могу извлечь/разобрать табличные данные из текстового файла в Perl?
Я ищу что-то вроде HTML::TableExtract , только не для ввода HTML, а для ввода простого текста, который содержит «таблицы», отформатированные с отступом и интервалом. Данные могут выглядеть так: Here is some header text. Column One...
2853 просмотров

Как разобрать текст на предложения
Я пытаюсь разбить абзац на предложения. Вот мой код: import java.util.*; public class StringSplit { public static void main(String args[]) throws Exception{ String testString = "The outcome of the negotiations is vital, because the current...
11129 просмотров
schedule 03.03.2024

Библиотеки, которые помогают переводить или преобразовывать форматы файлов в другие форматы файлов.
Мне нужно преобразовать файлы генеалогии в формат файла OpenGen XML и обратно. Достаточно просто, я могу написать код Java для анализа определенного файла и вывода файла OpenGen. Если кто-то использует Java в своем проекте, он может использовать...
53 просмотров
schedule 03.05.2023

Как я могу определить URL-адрес из семантического веб-URI программно
У меня есть программа, которая сканирует семантические веб-документы, например. РДФ и СОВ. Он берет найденные URI и помещает их в список для дальнейшей обработки. Однако он также находит URL-адреса, которые являются частью некоторых утверждений...
153 просмотров
schedule 21.10.2023

Парсеры текста Java с открытым исходным кодом
Существует ли единый анализатор текста Java, который можно использовать для анализа документов Office (Windows), документов OpenOffice и PDF-файлов? В противном случае мне нужно использовать что-то вроде Apache POI для документов Word и других...
1231 просмотров

парсинг размеров из текстовых данных
Я хочу извлечь размеры из текстовых данных («ракета была длиной пятьдесят пять дюймов» или «он весил девять с половиной фунтов») и преобразовать их в данные в формате, используемом программой. Как это сделать? Есть ли полезные библиотеки? А...
39 просмотров
schedule 28.02.2024

NLTK Разделение на фрагменты и обход дерева результатов
Я использую NLTK RegexpParser для извлечения групп существительных и групп глаголов из помеченных токенов. Как мне пройтись по полученному дереву, чтобы найти только фрагменты, которые являются NP или V группами? from nltk.chunk import...
6799 просмотров
schedule 09.01.2023

BeanIO - слишком мало полей, ожидается минимум 8, почему?
Я использую BeanIO 1.2 в java, и вот мое сопоставление: <stream name="RecordImport" format="delimited"> <record name="Record" minOccurs="1" maxOccurs="unbounded" class="com.myclasses.Record"> <field name="date"...
1463 просмотров
schedule 01.05.2024

Жду общих отзывов о моем скрипте анализа URL (Javascript)
Я новичок в Javascript и собрал следующее (часть взята из примера в Интернете, остальное сделано мной): Это работает надежно, мне просто интересно, сколько лучших практик я нарушаю. Если кто-то достаточно любезен, чтобы предоставить общий отзыв о...
118 просмотров
schedule 03.11.2022

Как обнаружить квалификаторы текста в плоском файле (CSV, TSV и т. д.)?
Мы получаем файлы в различных форматах — CSV, TSV или другие плоские файлы, использующие более экзотические разделители (|, ; и т. д.). В этих файлах также могут использоваться текстовые квалификаторы, опять же в различных форматах (каждое поле...
4680 просмотров
schedule 19.02.2024

Ошибка предиката ANTLR4 игнорирует следующую альтернативу?
У меня проблемы с семантическими предикатами в ANTLR 4. Моя грамматика синтаксически неоднозначна, и для устранения двусмысленности нужно смотреть вперед на один токен. В качестве примера я хочу проанализировать «19 января 2012 г. до 9 вечера» как...
867 просмотров
schedule 02.05.2024

Сокращение времени парсера Stanford за счет сокращения предложения
Мы уже знаем, что время синтаксического анализа Stanford Parser увеличивается по мере увеличения длины предложения. Я заинтересован в поиске творческих способов сокращения предложения таким образом, чтобы сократить время синтаксического анализа без...
124 просмотров

Добавление # перед первыми 8 строками, соответствующими STRING
Вопрос немного сбивает с толку, поэтому я просто покажу пример. Допустим, у меня есть следующий случай: $ grep -P "locus_tag\tM715_1000193188" Genome.tbl -B1 -A8 193188 193066 gene locus_tag M715_1000193188 193188 193066 mRNA...
35 просмотров
schedule 01.04.2024

Разбор текста в поисках данных с различными строками, выражающими основные единицы измерения (например, квадратные метры, кв.м, м^2, м2 и т. д.)
Я пытаюсь очистить номер площади (квадратные метры или квадратные футы) многих жилых домов, которые хранятся в различных текстовых файлах. Площадь почти всегда выражается путем указания единиц либо в метрической системе (длина выражается в метрах в...
1214 просмотров

Как найти кратчайший путь зависимости между двумя словами в Python?
Я пытаюсь найти путь зависимости между двумя словами в Python с учетом дерева зависимостей. Для приговора Роботы в популярной культуре призваны напомнить нам об удивительности свободной человеческой деятельности. Для получения...
7852 просмотров
schedule 31.10.2023

как читать текстовые файлы и создавать фрейм данных в R
Необходимо прочитать текстовый файл в https://raw.githubusercontent.com/fonnesbeck/Bios6301/master/datasets/addr.txt и преобразовать их в фрейм данных R с номером столбца как: LastName, FirstName, streetno, streetname, city, state и zip......
26150 просмотров
schedule 26.02.2023