Использовать sklearn TfidfVectorizer с уже токенизированными входами?

У меня есть список токенизированных предложений, и я хотел бы разместить его в векторизаторе tfidf. Я пробовал следующее:

tokenized_list_of_sentences = [['this', 'is', 'one'], ['this', 'is', 'another']]

def identity_tokenizer(text):
  return text

tfidf = TfidfVectorizer(tokenizer=identity_tokenizer, stop_words='english')    
tfidf.fit_transform(tokenized_list_of_sentences)

какие ошибки как

AttributeError: 'list' object has no attribute 'lower'

Есть ли способ сделать это? У меня миллиард предложений, и я не хочу снова их токенизировать. Они токенизируются перед другим этапом перед этим.

scikit-learn tfidfvectorizer

greenberet123 07.02.2018 источник

comment

Чтобы иметь возможность помочь, добавьте полное сообщение об ошибке и добавьте минимальный код, необходимый для воспроизведения ошибки. - Mohamed Ali JAMAOUI 07.02.2018

Ответы (3)

arrow_upward
20
arrow_downward

Попробуйте инициализировать объект TfidfVectorizer с параметром lowercase=False (при условии, что это действительно нужно, поскольку на предыдущих этапах вы указали свои токены в нижнем регистре).

tokenized_list_of_sentences = [['this', 'is', 'one', 'basketball'], ['this', 'is', 'a', 'football']]

def identity_tokenizer(text):
    return text

tfidf = TfidfVectorizer(tokenizer=identity_tokenizer, stop_words='english', lowercase=False)    
tfidf.fit_transform(tokenized_list_of_sentences)

Обратите внимание, что я изменил предложения, поскольку они, по-видимому, содержали только стоп-слова, что вызвало еще одну ошибку из-за пустого словаря.

pmlk 05.06.2018

comment

Есть идеи, как сохранить и загрузить объект TfidfVectorizer? Если я использую внешнюю функцию, такую как в этом примере? Я получаю ошибки при загрузке. - Lior Magen; 27.01.2020

arrow_upward
2
arrow_downward

Попробуйте preprocessor вместо tokenizer.

    return lambda x: strip_accents(x.lower())
AttributeError: 'list' object has no attribute 'lower'

Если x в приведенном выше сообщении об ошибке является списком, то выполнение x.lower() для списка вызовет ошибку.

Все ваши два примера - это игнорируемые слова, поэтому, чтобы этот пример что-то возвращал, добавьте несколько случайных слов. Вот пример:

tokenized_sentences = [['this', 'is', 'one', 'cat', 'or', 'dog'],
                       ['this', 'is', 'another', 'dog']]

tfidf = TfidfVectorizer(preprocessor=' '.join, stop_words='english')
tfidf.fit_transform(tokenized_sentences)

Возврат:

<2x2 sparse matrix of type '<class 'numpy.float64'>'
    with 3 stored elements in Compressed Sparse Row format>

Функции:

>>> tfidf.get_feature_names()
['cat', 'dog']

ОБНОВЛЕНИЕ: может быть, использовать lambdas на токенизаторе и препроцессоре?

tokenized_sentences = [['this', 'is', 'one', 'cat', 'or', 'dog'],
                       ['this', 'is', 'another', 'dog']]

tfidf = TfidfVectorizer(tokenizer=lambda x: x,
                        preprocessor=lambda x: x, stop_words='english')
tfidf.fit_transform(tokenized_sentences)

<2x2 sparse matrix of type '<class 'numpy.float64'>'
    with 3 stored elements in Compressed Sparse Row format>
>>> tfidf.get_feature_names()
['cat', 'dog']

Jarad 07.02.2018

comment

Это повторно токенизирует ввод, к которому присоединился препроцессор. Я не хочу снова тратить ресурсы на ретокенизацию. - greenberet123; 08.02.2018

arrow_upward
0
arrow_downward

Как сказал @Jarad, просто используйте функцию «сквозной передачи» для вашего анализатора, но она должна игнорировать стоп-слова. Вы можете получить стоп-слова из sklearn:

>>> from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

или из nltk:

>>> import nltk
>>> nltk.download('stopwords')
>>> from nltk.corpus import stopwords
>>> stop_words = set(stopwords.words('english'))

или объедините оба набора:

stop_words = stop_words.union(ENGLISH_STOP_WORDS)

Но тогда ваши примеры содержат только стоп-слова (потому что все ваши слова находятся в sklearn.ENGLISH_STOP_WORDS наборе).

Тем не менее, примеры @Jarad работают:

>>> tokenized_list_of_sentences =  [
...     ['this', 'is', 'one', 'cat', 'or', 'dog'],
...     ['this', 'is', 'another', 'dog']]
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> tfidf = TfidfVectorizer(analyzer=lambda x:[w for w in x if w not in stop_words])
>>> tfidf_vectors = tfidf.fit_transform(tokenized_list_of_sentences)

Мне нравится pd.DataFrames для просмотра векторов TF-IDF:

>>> import pandas as pd
>>> pd.DataFrame(tfidf_vectors.todense(), columns=tfidf.vocabulary_)
        cat       dog 
0  0.814802  0.579739
1  0.000000  1.000000

hobs 15.08.2018

Использовать sklearn TfidfVectorizer с уже токенизированными входами?

Ответы (3)

Похожие вопросы