Статьи по теме tokenize

Вопросы по теме 'tokenize'

Кто-нибудь знает, что такое разделитель новой строки для строки в smalltalk? Я пытаюсь разбить строку на отдельные строки, но не могу понять, что такое символ новой строки в smalltalk. ie. string := 'smalltalk is a lot of fun....

6926 просмотров

tokenize smalltalk

26.02.2022

Нарушение прав доступа с помощью указателей? - С++

Я написал простую программу токенизации строк с использованием указателей для недавнего школьного проекта. Однако у меня возникли проблемы с моим методом StringTokenizer::Next() , который при вызове должен возвращать указатель на первую букву...

9736 просмотров

c++ runtime-error tokenize pointers

15.03.2024

Анализатор расчетных выражений с вложенностью и переменными в ActionScript

Я пытаюсь включить динамические поля в файле конфигурации для своего картографического приложения, но я не могу понять, как анализировать «уравнение», переданное пользователем, по крайней мере, не без написания всего парсера с нуля! Я уверен, что...

649 просмотров

string parsing tokenize actionscript-3

06.02.2023

Как разбить строку в оболочке и получить последнее поле

Предположим, у меня есть строка 1:2:3:4:5 , и я хочу получить ее последнее поле (в данном случае 5 ). Как мне это сделать с помощью Bash? Я пробовал cut , но не знаю, как указать последнее поле с помощью -f .

422386 просмотров

bash split tokenize cut

25.09.2022

RegEx Tokenizer для разделения текста на слова, цифры и знаки препинания

Что я хочу сделать, так это разделить текст на его конечные элементы. Например: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+')...

8023 просмотров

python regex tokenize nltk

14.08.2023

C++ StringTokenizer для многосимвольного разделителя

Возможный дубликат: Разделить на подстроку Я хочу разделить std::string двухсимвольным разделителем, т.е. я ищу токенизатор строк, который может принимать разделители, которые НЕ являются одним символом. Токенизатор Boost позволяет...

553 просмотров

c++ string tokenize

01.08.2022

Токенизация ключевых слов в Lucene.Net

Я использую Lucene.Net 2.9.2, и я считаю, что мне нужно будет написать собственный токенизатор, но я хотел проверить, если мне не хватает чего-то очевидного. Документ состоит из заголовка, ключевых слов и содержимого, а также некоторых метаданных,...

2294 просмотров

tokenize lucene analyzer lucene.net

01.10.2022

Создание анализатора Lucene

Я хочу сделать базовый стемминг иврита. Все примеры настраиваемых анализаторов, которые я мог найти, всегда объединяют другие анализаторы и фильтры, но никогда не выполняют никакой обработки на уровне строк. Что мне нужно сделать, например, если...

2436 просмотров

tokenize lucene analyzer stemming

05.12.2022

Токенизатор Boost для обработки строки в кавычках как одного токена

Есть ли способ заставить токенизатор Boost разделить строку ниже, не разделяя часть в кавычках? string s = "1st 2nd \"3rd with some comment\" 4th"; Exptected output: 1st 2nd 3rd with some comment 4th

1281 просмотров

c++ boost tokenize

22.12.2023

Проблема с токенизацией CString

Я использую метод CString::Tokenize для токенизации строки с помощью разделителя, но я заметил кое-что странное, я вызываю этот метод для своей строки внутри цикла, потому что я хочу получить все токены внутри строки, вот мой код: CString...

6124 просмотров

c++ tokenize mfc

14.12.2023

Почему мой ведущий поиск с подстановочными знаками не работает в Solr?

У меня есть текстовое поле, в котором я использую copyField для заполнения различными исходными полями, и цель состоит в том, чтобы это одно поле было тем, что я использую для поиска в моем индексе Solr. Это текстовое поле определено для...

3247 просмотров

tokenize solr lucene

25.02.2023

Общий токенизатор

Я ищу библиотеки, которые помогли бы мне сделать следующее: Для заданного входного текстового документа: 1. Преобразуйте документ в нижний регистр (Легко. Решено с помощью функции toLowerCase) 2. Удалите символы 3. Обозначьте, получив список слов...

173 просмотров

java string unicode split tokenize

21.10.2022

Токенизировать терминалы или записывать их в грамматику парсера?

Взгляните на это: http://www.verilog.com/VerilogBNF.html UNARY_OPERATOR и BINARY_OPERATOR перекрываются как токены. также OUTPUT_SYMBOL и LEVEL_SYMBOL. Я уверен, что есть и другие. Мой токенизатор (lex) не имеет контекста и не знает, должен...

364 просмотров

parsing tokenize verilog yacc lex

27.09.2022

Вставьте пробел между не буквенно-цифровым и буквенно-цифровым символом, кроме определенного символа (Python)

Есть ли шанс исключить из рассмотрения некоторые юникоды (не буквенно-цифровые)? Я размечаю арабские слова, которые иногда содержат диакритические знаки, которые считаются небуквенно-цифровыми символами, но я не хочу их удалять, и мне нужно иметь...

281 просмотров

python regex tokenize arabic diacritics

24.05.2022

Метод XPath tokenize() не распознается msxml3.dll

Я пытаюсь использовать метод tokenize в вызове SelectNodes(" "), чтобы отфильтровать некоторые вещи. У меня есть что-то вроде: <nodes> <node colors="RED,BLUE,YELLOW"/> </nodes> И мой xpath такой:...

357 просмотров

attributes xpath tokenize msxml

13.05.2024

Разобрать varchar2 в таблицу (Oracle)

Есть ли в Oracle DB 11g r2 встроенная функция, которая может преобразовать переменную varchar2 в таблицу? Напротив listagg или wm_concat . Я нашел только метод Тома Кайта от 2006 года: with data as ( select trim(substr (txt, instr(txt,...

2151 просмотров

tokenize oracle11gr2 string-parsing varchar2

14.09.2022

Токенизатор полнотекстового поиска Postgresql

Просто столкнитесь с проблемой. Я пытаюсь настроить полнотекстовый поиск по локализованному контенту (в частности, русскому). Проблема в том, что конфигурация по умолчанию (как и моя обычная) не работает с регистрами букв. Пример: SELECT * from...

1603 просмотров

postgresql full-text-search tokenize

03.07.2023

Поиск подстановочных знаков Elasticsearch в поле not_analyzed

У меня есть индекс, например, следующие настройки и отображение; { "settings":{ "index":{ "analysis":{ "analyzer":{ "analyzer_keyword":{ "tokenizer":"keyword",...

16911 просмотров

search tokenize lucene

20.03.2023

Токенизация C++

Я пишу лексер на C++ и читаю из файла символ за символом, однако как в этом случае выполнить токенизацию? Я не могу использовать strtok, так как у меня символ, а не строка. Каким-то образом мне нужно продолжать читать, пока я не достигну разделителя?

633 просмотров

c++ tokenize compiler-construction lexer

18.06.2022

Как получить токены комментариев из сканера Dart Analyzer?

Я использую токенизатор из пакета Dart Analyzer , начиная с кода в этот пример . Я изменил код, чтобы просто выдавать токены (без использования Parser), чтобы попытаться отследить мою проблему. Итак, мой код выглядит так: import 'dart:io';...

250 просмотров

dart parsing tokenize

13.09.2022

Вопросы по теме 'tokenize'

Похожие вопросы