У меня есть этот текст из Википедии:
Амбициозный план расширения кампуса был предложен о. Вернон Ф. Галлахер в 1952 году. Успенский зал, первое студенческое общежитие, был открыт в 1954 году, а Рокуэлл-холл был открыт в ноябре 1958 года, в нем разместились школы бизнеса и права. Именно во время пребывания в должности Ф. Генри Дж. Маканулти о. Амбициозные планы Галлахера были претворены в жизнь.
Я использую NLTK nltk.sent_tokenize
для получения предложений. Это возвращает:
['An ambitious campus expansion plan was proposed by Fr.',
'Vernon F. Gallagher in 1952.',
'Assumption Hall, the first student dormitory, was opened in 1954, and Rockwell Hall was dedicated in November 1958, housing the schools of business and law.',
'It was during the tenure of Fr.',
'Henry J. McAnulty that Fr. Gallagher's ambitious plans were put to action.'
]
В то время как NTLK мог обрабатывать F. Генри Дж. Маканулти как единое целое, это не удалось для фр. Вернон Ф. Галлахер. И это разбило предложение на два.
Правильная токенизация будет:
[
'An ambitious campus expansion plan was proposed by Fr. Vernon F. Gallagher in 1952.',
'Assumption Hall, the first student dormitory, was opened in 1954, and Rockwell Hall was dedicated in November 1958, housing the schools of business and law.',
'It was during the tenure of Fr. Henry J. McAnulty that Fr. Gallagher's ambitious plans were put to action.'
]
Как повысить производительность токенизатора?