Вопросы по теме 'tokenize'
Smalltalk, символ новой строки
Кто-нибудь знает, что такое разделитель новой строки для строки в smalltalk?
Я пытаюсь разбить строку на отдельные строки, но не могу понять, что такое символ новой строки в smalltalk.
ie.
string := 'smalltalk is
a lot of fun....
6926 просмотров
schedule
26.02.2022
Нарушение прав доступа с помощью указателей? - С++
Я написал простую программу токенизации строк с использованием указателей для недавнего школьного проекта. Однако у меня возникли проблемы с моим методом StringTokenizer::Next() , который при вызове должен возвращать указатель на первую букву...
9736 просмотров
schedule
15.03.2024
Анализатор расчетных выражений с вложенностью и переменными в ActionScript
Я пытаюсь включить динамические поля в файле конфигурации для своего картографического приложения, но я не могу понять, как анализировать «уравнение», переданное пользователем, по крайней мере, не без написания всего парсера с нуля! Я уверен, что...
649 просмотров
schedule
06.02.2023
Как разбить строку в оболочке и получить последнее поле
Предположим, у меня есть строка 1:2:3:4:5 , и я хочу получить ее последнее поле (в данном случае 5 ). Как мне это сделать с помощью Bash? Я пробовал cut , но не знаю, как указать последнее поле с помощью -f .
422386 просмотров
schedule
25.09.2022
RegEx Tokenizer для разделения текста на слова, цифры и знаки препинания
Что я хочу сделать, так это разделить текст на его конечные элементы.
Например:
from nltk.tokenize import *
txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome."
regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+')...
8023 просмотров
schedule
14.08.2023
C++ StringTokenizer для многосимвольного разделителя
Возможный дубликат: Разделить на подстроку
Я хочу разделить std::string двухсимвольным разделителем, т.е. я ищу токенизатор строк, который может принимать разделители, которые НЕ являются одним символом. Токенизатор Boost позволяет...
553 просмотров
schedule
01.08.2022
Токенизация ключевых слов в Lucene.Net
Я использую Lucene.Net 2.9.2, и я считаю, что мне нужно будет написать собственный токенизатор, но я хотел проверить, если мне не хватает чего-то очевидного.
Документ состоит из заголовка, ключевых слов и содержимого, а также некоторых метаданных,...
2294 просмотров
schedule
01.10.2022
Создание анализатора Lucene
Я хочу сделать базовый стемминг иврита.
Все примеры настраиваемых анализаторов, которые я мог найти, всегда объединяют другие анализаторы и фильтры, но никогда не выполняют никакой обработки на уровне строк.
Что мне нужно сделать, например, если...
2436 просмотров
schedule
05.12.2022
Токенизатор Boost для обработки строки в кавычках как одного токена
Есть ли способ заставить токенизатор Boost разделить строку ниже, не разделяя часть в кавычках?
string s = "1st 2nd \"3rd with some comment\" 4th";
Exptected output:
1st
2nd
3rd with some comment
4th
1281 просмотров
schedule
22.12.2023
Проблема с токенизацией CString
Я использую метод CString::Tokenize для токенизации строки с помощью разделителя, но я заметил кое-что странное, я вызываю этот метод для своей строки внутри цикла, потому что я хочу получить все токены внутри строки, вот мой код:
CString...
6124 просмотров
schedule
14.12.2023
Почему мой ведущий поиск с подстановочными знаками не работает в Solr?
У меня есть текстовое поле, в котором я использую copyField для заполнения различными исходными полями, и цель состоит в том, чтобы это одно поле было тем, что я использую для поиска в моем индексе Solr.
Это текстовое поле определено для...
3247 просмотров
schedule
25.02.2023
Общий токенизатор
Я ищу библиотеки, которые помогли бы мне сделать следующее:
Для заданного входного текстового документа: 1. Преобразуйте документ в нижний регистр (Легко. Решено с помощью функции toLowerCase) 2. Удалите символы 3. Обозначьте, получив список слов...
173 просмотров
schedule
21.10.2022
Токенизировать терминалы или записывать их в грамматику парсера?
Взгляните на это: http://www.verilog.com/VerilogBNF.html
UNARY_OPERATOR и BINARY_OPERATOR перекрываются как токены. также OUTPUT_SYMBOL и LEVEL_SYMBOL. Я уверен, что есть и другие.
Мой токенизатор (lex) не имеет контекста и не знает, должен...
364 просмотров
schedule
27.09.2022
Вставьте пробел между не буквенно-цифровым и буквенно-цифровым символом, кроме определенного символа (Python)
Есть ли шанс исключить из рассмотрения некоторые юникоды (не буквенно-цифровые)? Я размечаю арабские слова, которые иногда содержат диакритические знаки, которые считаются небуквенно-цифровыми символами, но я не хочу их удалять, и мне нужно иметь...
281 просмотров
schedule
24.05.2022
Метод XPath tokenize() не распознается msxml3.dll
Я пытаюсь использовать метод tokenize в вызове SelectNodes(" "), чтобы отфильтровать некоторые вещи.
У меня есть что-то вроде:
<nodes>
<node colors="RED,BLUE,YELLOW"/>
</nodes>
И мой xpath такой:...
357 просмотров
schedule
13.05.2024
Разобрать varchar2 в таблицу (Oracle)
Есть ли в Oracle DB 11g r2 встроенная функция, которая может преобразовать переменную varchar2 в таблицу? Напротив listagg или wm_concat . Я нашел только метод Тома Кайта от 2006 года:
with data as
(
select trim(substr (txt, instr(txt,...
2151 просмотров
schedule
14.09.2022
Токенизатор полнотекстового поиска Postgresql
Просто столкнитесь с проблемой. Я пытаюсь настроить полнотекстовый поиск по локализованному контенту (в частности, русскому). Проблема в том, что конфигурация по умолчанию (как и моя обычная) не работает с регистрами букв. Пример:
SELECT * from...
1603 просмотров
schedule
03.07.2023
Поиск подстановочных знаков Elasticsearch в поле not_analyzed
У меня есть индекс, например, следующие настройки и отображение;
{
"settings":{
"index":{
"analysis":{
"analyzer":{
"analyzer_keyword":{
"tokenizer":"keyword",...
16911 просмотров
schedule
20.03.2023
Токенизация C++
Я пишу лексер на C++ и читаю из файла символ за символом, однако как в этом случае выполнить токенизацию? Я не могу использовать strtok, так как у меня символ, а не строка. Каким-то образом мне нужно продолжать читать, пока я не достигну разделителя?
633 просмотров
schedule
18.06.2022
Как получить токены комментариев из сканера Dart Analyzer?
Я использую токенизатор из пакета Dart Analyzer , начиная с кода в этот пример .
Я изменил код, чтобы просто выдавать токены (без использования Parser), чтобы попытаться отследить мою проблему. Итак, мой код выглядит так:
import 'dart:io';...
250 просмотров
schedule
13.09.2022