Вопросы по теме 'tokenize'

Smalltalk, символ новой строки
Кто-нибудь знает, что такое разделитель новой строки для строки в smalltalk? Я пытаюсь разбить строку на отдельные строки, но не могу понять, что такое символ новой строки в smalltalk. ie. string := 'smalltalk is a lot of fun....
6926 просмотров
schedule 26.02.2022

Нарушение прав доступа с помощью указателей? - С++
Я написал простую программу токенизации строк с использованием указателей для недавнего школьного проекта. Однако у меня возникли проблемы с моим методом StringTokenizer::Next() , который при вызове должен возвращать указатель на первую букву...
9736 просмотров
schedule 15.03.2024

Анализатор расчетных выражений с вложенностью и переменными в ActionScript
Я пытаюсь включить динамические поля в файле конфигурации для своего картографического приложения, но я не могу понять, как анализировать «уравнение», переданное пользователем, по крайней мере, не без написания всего парсера с нуля! Я уверен, что...
649 просмотров
schedule 06.02.2023

Как разбить строку в оболочке и получить последнее поле
Предположим, у меня есть строка 1:2:3:4:5 , и я хочу получить ее последнее поле (в данном случае 5 ). Как мне это сделать с помощью Bash? Я пробовал cut , но не знаю, как указать последнее поле с помощью -f .
422386 просмотров
schedule 25.09.2022

RegEx Tokenizer для разделения текста на слова, цифры и знаки препинания
Что я хочу сделать, так это разделить текст на его конечные элементы. Например: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+')...
8023 просмотров
schedule 14.08.2023

C++ StringTokenizer для многосимвольного разделителя
Возможный дубликат: Разделить на подстроку Я хочу разделить std::string двухсимвольным разделителем, т.е. я ищу токенизатор строк, который может принимать разделители, которые НЕ являются одним символом. Токенизатор Boost позволяет...
553 просмотров
schedule 01.08.2022

Токенизация ключевых слов в Lucene.Net
Я использую Lucene.Net 2.9.2, и я считаю, что мне нужно будет написать собственный токенизатор, но я хотел проверить, если мне не хватает чего-то очевидного. Документ состоит из заголовка, ключевых слов и содержимого, а также некоторых метаданных,...
2294 просмотров
schedule 01.10.2022

Создание анализатора Lucene
Я хочу сделать базовый стемминг иврита. Все примеры настраиваемых анализаторов, которые я мог найти, всегда объединяют другие анализаторы и фильтры, но никогда не выполняют никакой обработки на уровне строк. Что мне нужно сделать, например, если...
2436 просмотров
schedule 05.12.2022

Токенизатор Boost для обработки строки в кавычках как одного токена
Есть ли способ заставить токенизатор Boost разделить строку ниже, не разделяя часть в кавычках? string s = "1st 2nd \"3rd with some comment\" 4th"; Exptected output: 1st 2nd 3rd with some comment 4th
1281 просмотров
schedule 22.12.2023

Проблема с токенизацией CString
Я использую метод CString::Tokenize для токенизации строки с помощью разделителя, но я заметил кое-что странное, я вызываю этот метод для своей строки внутри цикла, потому что я хочу получить все токены внутри строки, вот мой код: CString...
6124 просмотров
schedule 14.12.2023

Почему мой ведущий поиск с подстановочными знаками не работает в Solr?
У меня есть текстовое поле, в котором я использую copyField для заполнения различными исходными полями, и цель состоит в том, чтобы это одно поле было тем, что я использую для поиска в моем индексе Solr. Это текстовое поле определено для...
3247 просмотров
schedule 25.02.2023

Общий токенизатор
Я ищу библиотеки, которые помогли бы мне сделать следующее: Для заданного входного текстового документа: 1. Преобразуйте документ в нижний регистр (Легко. Решено с помощью функции toLowerCase) 2. Удалите символы 3. Обозначьте, получив список слов...
173 просмотров
schedule 21.10.2022

Токенизировать терминалы или записывать их в грамматику парсера?
Взгляните на это: http://www.verilog.com/VerilogBNF.html UNARY_OPERATOR и BINARY_OPERATOR перекрываются как токены. также OUTPUT_SYMBOL и LEVEL_SYMBOL. Я уверен, что есть и другие. Мой токенизатор (lex) не имеет контекста и не знает, должен...
364 просмотров
schedule 27.09.2022

Вставьте пробел между не буквенно-цифровым и буквенно-цифровым символом, кроме определенного символа (Python)
Есть ли шанс исключить из рассмотрения некоторые юникоды (не буквенно-цифровые)? Я размечаю арабские слова, которые иногда содержат диакритические знаки, которые считаются небуквенно-цифровыми символами, но я не хочу их удалять, и мне нужно иметь...
281 просмотров
schedule 24.05.2022

Метод XPath tokenize() не распознается msxml3.dll
Я пытаюсь использовать метод tokenize в вызове SelectNodes(" "), чтобы отфильтровать некоторые вещи. У меня есть что-то вроде: <nodes> <node colors="RED,BLUE,YELLOW"/> </nodes> И мой xpath такой:...
357 просмотров
schedule 13.05.2024

Разобрать varchar2 в таблицу (Oracle)
Есть ли в Oracle DB 11g r2 встроенная функция, которая может преобразовать переменную varchar2 в таблицу? Напротив listagg или wm_concat . Я нашел только метод Тома Кайта от 2006 года: with data as ( select trim(substr (txt, instr(txt,...
2151 просмотров

Токенизатор полнотекстового поиска Postgresql
Просто столкнитесь с проблемой. Я пытаюсь настроить полнотекстовый поиск по локализованному контенту (в частности, русскому). Проблема в том, что конфигурация по умолчанию (как и моя обычная) не работает с регистрами букв. Пример: SELECT * from...
1603 просмотров
schedule 03.07.2023

Поиск подстановочных знаков Elasticsearch в поле not_analyzed
У меня есть индекс, например, следующие настройки и отображение; { "settings":{ "index":{ "analysis":{ "analyzer":{ "analyzer_keyword":{ "tokenizer":"keyword",...
16911 просмотров
schedule 20.03.2023

Токенизация C++
Я пишу лексер на C++ и читаю из файла символ за символом, однако как в этом случае выполнить токенизацию? Я не могу использовать strtok, так как у меня символ, а не строка. Каким-то образом мне нужно продолжать читать, пока я не достигну разделителя?
633 просмотров
schedule 18.06.2022

Как получить токены комментариев из сканера Dart Analyzer?
Я использую токенизатор из пакета Dart Analyzer , начиная с кода в этот пример . Я изменил код, чтобы просто выдавать токены (без использования Parser), чтобы попытаться отследить мою проблему. Итак, мой код выглядит так: import 'dart:io';...
250 просмотров
schedule 13.09.2022