Вопросы по теме 'text-parsing'
Разбор строк с разделителями?
Я смотрю на синтаксический анализ строки с разделителями, что-то в порядке
a,b,c
Но это очень простой пример, и анализ данных с разделителями может оказаться сложным; например
1, "Ваш простой алгоритм, он не работает", Верно
взорвет вашу...
4260 просмотров
schedule
03.09.2022
Оценка строки простых математических выражений
Вызов
Вот проблема (мое собственное изобретение, хотя я не удивлюсь, если раньше оно появилось где-нибудь в Интернете).
Напишите функцию, которая принимает единственный аргумент, представляющий собой строковое представление простого...
17713 просмотров
schedule
22.05.2022
библиотека для анализа относительной даты (например, календарь Google) в С#
Я задаю тот же вопрос, что и этот: Как я могу анализировать относительные даты с Perl? но на C#.
Извините, если это дубликат, я удалю, если это так.
Существует ли такая библиотека?
Спасибо
642 просмотров
schedule
01.11.2022
Лучший способ получить все цифры из строки
Есть ли лучший способ получить строку, такую как «(123) 455-2344», и получить из нее «1234552344», чем это:
var matches = Regex.Matches(input, @"[0-9]+", RegexOptions.Compiled);
return String.Join(string.Empty, matches.Cast<Match>()...
35349 просмотров
schedule
23.03.2023
Как я могу извлечь/разобрать табличные данные из текстового файла в Perl?
Я ищу что-то вроде HTML::TableExtract , только не для ввода HTML, а для ввода простого текста, который содержит «таблицы», отформатированные с отступом и интервалом.
Данные могут выглядеть так:
Here is some header text.
Column One...
2853 просмотров
schedule
06.04.2024
Как разобрать текст на предложения
Я пытаюсь разбить абзац на предложения. Вот мой код:
import java.util.*;
public class StringSplit {
public static void main(String args[]) throws Exception{
String testString = "The outcome of the negotiations is vital, because the current...
11129 просмотров
schedule
03.03.2024
Библиотеки, которые помогают переводить или преобразовывать форматы файлов в другие форматы файлов.
Мне нужно преобразовать файлы генеалогии в формат файла OpenGen XML и обратно. Достаточно просто, я могу написать код Java для анализа определенного файла и вывода файла OpenGen. Если кто-то использует Java в своем проекте, он может использовать...
53 просмотров
schedule
03.05.2023
Как я могу определить URL-адрес из семантического веб-URI программно
У меня есть программа, которая сканирует семантические веб-документы, например. РДФ и СОВ.
Он берет найденные URI и помещает их в список для дальнейшей обработки. Однако он также находит URL-адреса, которые являются частью некоторых утверждений...
153 просмотров
schedule
21.10.2023
Парсеры текста Java с открытым исходным кодом
Существует ли единый анализатор текста Java, который можно использовать для анализа документов Office (Windows), документов OpenOffice и PDF-файлов? В противном случае мне нужно использовать что-то вроде Apache POI для документов Word и других...
1231 просмотров
schedule
05.02.2023
парсинг размеров из текстовых данных
Я хочу извлечь размеры из текстовых данных («ракета была длиной пятьдесят пять дюймов» или «он весил девять с половиной фунтов») и преобразовать их в данные в формате, используемом программой.
Как это сделать? Есть ли полезные библиотеки?
А...
39 просмотров
schedule
28.02.2024
NLTK Разделение на фрагменты и обход дерева результатов
Я использую NLTK RegexpParser для извлечения групп существительных и групп глаголов из помеченных токенов.
Как мне пройтись по полученному дереву, чтобы найти только фрагменты, которые являются NP или V группами?
from nltk.chunk import...
6799 просмотров
schedule
09.01.2023
BeanIO - слишком мало полей, ожидается минимум 8, почему?
Я использую BeanIO 1.2 в java, и вот мое сопоставление:
<stream name="RecordImport" format="delimited">
<record name="Record" minOccurs="1" maxOccurs="unbounded" class="com.myclasses.Record">
<field name="date"...
1463 просмотров
schedule
01.05.2024
Жду общих отзывов о моем скрипте анализа URL (Javascript)
Я новичок в Javascript и собрал следующее (часть взята из примера в Интернете, остальное сделано мной):
Это работает надежно, мне просто интересно, сколько лучших практик я нарушаю. Если кто-то достаточно любезен, чтобы предоставить общий отзыв о...
118 просмотров
schedule
03.11.2022
Как обнаружить квалификаторы текста в плоском файле (CSV, TSV и т. д.)?
Мы получаем файлы в различных форматах — CSV, TSV или другие плоские файлы, использующие более экзотические разделители (|, ; и т. д.). В этих файлах также могут использоваться текстовые квалификаторы, опять же в различных форматах (каждое поле...
4680 просмотров
schedule
19.02.2024
Ошибка предиката ANTLR4 игнорирует следующую альтернативу?
У меня проблемы с семантическими предикатами в ANTLR 4. Моя грамматика синтаксически неоднозначна, и для устранения двусмысленности нужно смотреть вперед на один токен.
В качестве примера я хочу проанализировать «19 января 2012 г. до 9 вечера» как...
867 просмотров
schedule
02.05.2024
Сокращение времени парсера Stanford за счет сокращения предложения
Мы уже знаем, что время синтаксического анализа Stanford Parser увеличивается по мере увеличения длины предложения. Я заинтересован в поиске творческих способов сокращения предложения таким образом, чтобы сократить время синтаксического анализа без...
124 просмотров
schedule
18.06.2022
Добавление # перед первыми 8 строками, соответствующими STRING
Вопрос немного сбивает с толку, поэтому я просто покажу пример.
Допустим, у меня есть следующий случай:
$ grep -P "locus_tag\tM715_1000193188" Genome.tbl -B1 -A8
193188 193066 gene
locus_tag M715_1000193188
193188 193066 mRNA...
35 просмотров
schedule
01.04.2024
Разбор текста в поисках данных с различными строками, выражающими основные единицы измерения (например, квадратные метры, кв.м, м^2, м2 и т. д.)
Я пытаюсь очистить номер площади (квадратные метры или квадратные футы) многих жилых домов, которые хранятся в различных текстовых файлах.
Площадь почти всегда выражается путем указания единиц либо в метрической системе (длина выражается в метрах в...
1214 просмотров
schedule
09.04.2023
Как найти кратчайший путь зависимости между двумя словами в Python?
Я пытаюсь найти путь зависимости между двумя словами в Python с учетом дерева зависимостей.
Для приговора
Роботы в популярной культуре призваны напомнить нам об удивительности свободной человеческой деятельности.
Для получения...
7852 просмотров
schedule
31.10.2023
как читать текстовые файлы и создавать фрейм данных в R
Необходимо прочитать текстовый файл в https://raw.githubusercontent.com/fonnesbeck/Bios6301/master/datasets/addr.txt
и преобразовать их в фрейм данных R с номером столбца как: LastName, FirstName, streetno, streetname, city, state и zip......
26150 просмотров
schedule
26.02.2023