Создайте свой собственный структурированный набор данных в виде электронной таблицы, просматривая твиты с функциями, соответствующими вашим потребностям.
Вас раздражали длинные сложные файлы json, добываемые с помощью Python, содержащие море нежелательных деталей твитов без отступов? Вы не можете использовать свой собственный чистый набор данных в виде электронной таблицы, имея только соответствующие функции твитов с соответствующими названиями столбцов по вашему выбору? Если нет, то не волнуйтесь! После долгой борьбы я, наконец, научился создавать чистый, зависящий от требований набор данных отброшенных твитов, используя библиотеку tweepy в Python, и в этой статье я поделюсь с вами каждой крошечной деталью процесса и кода. Будь то анализ настроений или просто классификация текста, которую вы хотите провести, я к вашим услугам!
В этой статье я предполагаю, что у вас уже есть учетные данные разработчика Twitter для доступа к их API.
Давайте начнем с определения полей твита и выбора, какие из них мы хотим в нашем чистом наборе данных в соответствии с нашими требованиями из метаданных, связанных с твитом. Таким образом, мы, по сути, создадим соответствующие функции для нашего конкретного варианта использования.
Код, который я использовал для поиска параметров и методов твитов для выбора, которые присутствуют со своими значениями в добытых твитах в формате json:
Здесь я использовал расширенный режим твита, чтобы получить подробный набор методов и параметров в качестве вывода. Если вы хотите, вы можете удалить его, чтобы получить минимальное количество полей для твитов (что может вам не понадобиться в этом случае).
Прочтите и узнайте больше о каждом методе и параметре, а также о том, что в них заложено, чтобы решить, что лучше всего подходит для ваших требований. Поскольку моим требованием было проанализировать хэштег для исследовательского проекта, я выбрал следующие поля: created_at, full_text, user.screen_name, user.location, user.followers_count, retweet_count, favourite_count.
Я создал еще одну функцию под названием «all_hashtags» из поля tweet._json [«entity»] [«hashtags»].
Вуаля! Ваш CSV-файл был создан. Измените методы и параметры и прочитайте о них, чтобы узнать, что внутри них и что лучше всего подходит для ваших целей. Надеюсь, это многим поможет!
Пожалуйста, поддержите меня в обращении к большему количеству людей, которые могли бы извлечь пользу из этой статьи, хлопая в ладоши и комментируя ее. Для обратной связи, конструктивной критики и вопросов, напишите мне на [email protected] или свяжитесь со мной в Twitter (debsa2000) или LinkedIn (Debanjali Saha).
Я буду продолжать публиковать больше полезного контента для всех энтузиастов машинного обучения и науки о данных, подписывайтесь на меня, чтобы не терять подписку!