Совпадение с самой длинной подстрокой в Python

У меня есть следующая строка с вкладкой между левой и правой частями в текстовом файле:

The dreams of REM (Geo) sleep         The sleep paralysis

Я хочу сопоставить приведенную выше строку, которая соответствует как левой, так и правой части в каждой строке другого следующего файла:

The pons also contains the sleep paralysis center of the brain as well as generating the dreams of REM sleep.

Если не удается сопоставить строку заполнения, попробуйте сопоставить подстроку.

Я хочу искать с самым левым и самым правым шаблоном. например (крайний левый падеж)

The dreams of REM  sleep     paralysis
The dreams of REM  sleep     The sleep

например (в большинстве случаев):

REM  sleep    The sleep paralysis
The dreams of   The sleep paralysis

Еще раз большое спасибо за любую помощь.

python substring

Blue Ice 04.07.2011 источник

comment

Вам нужно четко сформулировать проблему, пожалуйста, ответьте на мои вопросы ниже. Нет смысла писать код, пока вы этого не сделаете. - smci 05.07.2011

comment

@cellcortex: я делаю проект. Это связано с этим - Blue Ice 05.07.2011

comment

@ smci: Пожалуйста, ознакомьтесь с подробным объяснением каждого запроса. - Blue Ice 05.07.2011

Ответы (1)

arrow_upward
3
arrow_downward

(Хорошо, вы разъяснили большую часть того, что вы хотите. Позвольте мне повторить, а затем уточнить пункты, которые я перечислил ниже как оставшиеся неясными... Также возьмите начальный код, который я вам покажу, адаптируйте его, опубликуйте нам результат.)

Вы хотите искать, построчно, без учета регистра, самые длинные непрерывные совпадения для каждого из пары шаблонов сопоставления. Все паттерны кажутся непересекающимися (невозможно получить совпадение как по паттерну X, так и по паттерну Y, поскольку они используют разные фразы, например, не могут сопоставляться как «лобная доля», так и «префронтальная кора»).

Ваши шаблоны представлены в виде последовательности пар ('dom','rang'), => давайте просто будем ссылаться на них по индексу [0] и [1, вы можете использовать string.split( '\t'). Важно, чтобы совпадающая строка должна совпадать с обоими шаблонами dom и rang (полностью или частично ). Порядок не зависит, поэтому мы можем сопоставить rang, затем dom или наоборот => использовать 2 отдельных регулярных выражения в строке и проверить соответствие d и r.

Шаблоны имеют необязательные части в скобках =>, поэтому просто напишите/преобразуйте их в синтаксис регулярных выражений, уже используя синтаксис (optionaltext)?, например: re.compile('Frontallobes of (leftside)? the brain', re.IGNORECASE)

Возвращаемое значение должно быть строковым буфером с самой длинной на данный момент подстрокой.

Теперь здесь нужно прояснить несколько вещей - пожалуйста, отредактируйте свой вопрос, чтобы объяснить следующее:

Если вы найдете полное совпадение с какой-либо парой шаблонов, верните ее.
Если вы не можете найти полных совпадений, выполните поиск частичных совпадений обоих шаблонов. Где «частичное совпадение» означает «наибольшее количество слов» или «наибольшая доля (%) слов» из шаблона? Предположительно, мы исключаем ложные совпадения с такими словами, как «the», и в этом случае мы ничего не теряем, просто опуская «the» из ваших шаблонов поиска, тогда это гарантирует, что все частичные совпадения с любым шаблоном являются значимыми.
Мы оцениваем частичные совпадения (каким-то образом), например «содержит большинство слов из шаблона X» или «содержит наибольший % слов из шаблона X». Мы должны сделать это для всех шаблонов, а затем вернуть шаблон с наивысшим баллом. Вам нужно немного подумать об этом, лучше ли сопоставлять 2 слова шаблона из 5 слов (40%), например. 'мечты о' или 1 из 2 (50%), например. 'префронтальная, НО НЕ корковая'? Как мы разрываем связи и т.д.? Что произойдет, если мы сопоставим «сон», но ничего больше?

Каждый из вышеперечисленных вопросов повлияет на решение, поэтому вам нужно ответить на них для нас. Нет смысла писать страницы кода для решения самого общего случая, когда вам нужно только что-то простое. Обычно это называется «НЛП» (обработка естественного языка). Вы можете в конечном итоге использовать библиотеку НЛП.

Общая структура кода пока звучит так:

import re

# normally, read your input directly from file, but this allows us to test:
input = """The pons also contains the sleep paralysis center of the brain as well as generating the dreams of REM sleep.
The optic tract is a part of the visual system in the brain.
The inferior frontal gyrus is a gyrus of the frontal lobe of the human brain.
The prefrontal cortex (PFC) is the anterior part of the frontallobes of the brain, lying in front of the motor and premotor areas.
There are three possible ways to define the prefrontal cortex as the granular frontal cortex as that part of the frontal cortex whose electrical stimulation does not evoke movements.
This allowed the establishment of homologies despite the lack of a granular frontal cortex in nonprimates.
Modern  tracing studies have shown that projections of the mediodorsal nucleus of the thalamus are not restricted to the granular frontal cortex in primates.
""".split('\n')

patterns = [
    ('(dreams of REM (Geo)? sleep)', '(sleep paralysis)'),
    ('(frontal lobe)',            '(inferior frontal gyrus)'),
    ('(prefrontal cortex)',       '(frontallobes of (leftside )?(the )?brain)'),
    ('(modern tract)',            '(probably mediodorsal nucleus)') ]

# Compile the patterns as regexes
patterns = [ (re.compile(dstr),re.compile(rstr)) for (dstr,rstr) in patterns ]

def longest(t):
    """Get the longest from a tuple of strings."""
    l = list(t) # tuples can't be sorted (immutable), so convert to list...
    l.sort(key=len,reverse=True)
    return l[0]

def custommatch(line):
    for (d,r) in patterns:
        # If got full match to both (d,r), return it immediately...
        (dm,rm) = (d.findall(line), r.findall(line))
        # Slight design problem: we get tuples like: [('frontallobes of the brain', '', 'the ')]
        #... so return the longest match strings for each of dm,rm
        if dm and rm: # must match both dom & rang
            return [longest(dm), longest(rm)]
        # else score any partial matches to (d,r) - how exactly?
        # TBD...
    else:
        # We got here because we only have partial matches (or none)
        # TBD: return the 'highest-scoring' partial match
        return ('TBD... partial match')

for line in input:
    print custommatch(line)

и работа с 7 строками ввода, которые вы указали в настоящее время, дает:

TBD... partial match
TBD... partial match
['frontal lobe', 'inferior frontal gyrus']
['prefrontal cortex', ('frontallobes of the brain', '', 'the ')]
TBD... partial match
TBD... partial match
TBD... partial match
TBD... partial match

smci 04.07.2011

comment

Спасибо за подробное объяснение. - Blue Ice; 05.07.2011

comment

1.a) Let's say,  for here dom(fgksf ghghh hfklhl (jgjhg))        rang(hgkhg hhgkhg (hhggh) ghghg)).If I want to match dom & rang  in each line of a file, it's works for me. 1b) I have defined it earlier but didn't mentioned here. 2)Here I have taken array[0] =  fgksf ghghh hfklhl (jgjhg) & array[1] = (hgkhg hhgkhg (hhggh) ghghg) 3) I want take  dom & rang without the parenthesis string .

Если мне нужно что-то уточнить, пожалуйста, дайте мне знать. Большое спасибо за ваши усилия! - Blue Ice; 05.07.2011

comment

Моя мотивация:

1)First try to match with the full string of dom & rang to each line of a text file.  2)If can not match, then try without the parenthesis string. 3)If can not match, then try with substring.

- Blue Ice; 05.07.2011

comment

Ваши комментарии не содержали недостающей информации, которую я просил: 1a) Что определяют dom и rang? Вставьте нам точные строки кода, которые их определяют. Являются ли они крайними левыми/самыми правыми 40 символами каждой строки шаблонов? или еще что? 1b) Что такое текст? 2) Что означает двумерный массив? Сколько элементов содержит эта последовательность узоров? 3) Я совершенно не понимаю вашего комментария: я хочу взять дом и позвонить без скобок - smci; 05.07.2011

comment

если возможно, укажите свой адрес электронной почты / идентификатор Skype, чтобы я мог отправить все, bcz здесь я не могу опубликовать все в комментариях из-за нехватки места. - Blue Ice; 05.07.2011

comment

Вернитесь к вопросу, нажмите кнопку «Изменить» под ним, отредактируйте вопрос. (Делайте это каждый раз, когда вы можете уточнить вопрос или убрать беспорядок.) - smci; 05.07.2011

comment

Не могли бы вы предоставить свой recursive backtracking solution - Blue Ice; 05.07.2011

comment

Посмотрите мое последнее редактирование, заполните оставшиеся недостающие пояснения и попробуйте кодировать... - smci; 06.07.2011

comment

Большое спасибо! Я обновил вопросы в соответствии с вашим запросом. Также обратите внимание, что я хочу return the matches line не строку. Кроме того, здесь «частичное совпадение» означает «наибольшее количество слов» из шаблона. - Blue Ice; 06.07.2011

Совпадение с самой длинной подстрокой в ​​Python

Ответы (1)

Похожие вопросы

Совпадение с самой длинной подстрокой в Python