Ошибка при фильтрации твитов только на английском языке

Я извлекаю твиты, написанные только на английском языке, и использую следующий фильтр

stream.filter(stall_warnings=True, track=['#brain'], languages=['en'])

Но, к сожалению, этот фильтр возвращает твит, который представляет собой комбинацию английского и какого-то другого языка.

См. твит здесь

Как я могу извлечь твит, который написан только на английском языке?

Примечание. Прошу прощения, если неправильно ссылаться на чей-то твит.


person Jagadeesh    schedule 08.01.2015    source источник


Ответы (1)


Твиты классифицируются Twitter на том или ином языке. Их классификация не всегда верна. Если твит использует несколько языков, они просто назначают его одному из них.

Таким образом, вам нужно будет отфильтровать их в своем приложении по словарю или использовать некоторые библиотеки определения языка, чтобы быть на 100% уверенным, что в получаемых вами твитах используется только английский язык.

Источник: https://blog.twitter.com/2013/introduction-new-metadata-for-tweets

person Juan E.    schedule 12.01.2015