Исследовательские работы на основе данных Twitter, часть 2 (интеллектуальный анализ данных)

Описание дорожного происшествия на основе данных Twitter с использованием неконтролируемых методов обучения для индийских дорожных условий(arXiv)

Автор:Ясасви Шри Чандра Ганди Килару, Индраджит Гош

Вывод:Единичные и непредсказуемые дорожные события напрямую влияют на условия дорожного движения. Существует потребность в динамическом мониторинге и прогнозировании этих непредсказуемых событий для улучшения управления дорожной сетью. Проблема с существующими традиционными методами (исследования потока или скорости) заключается в том, что покрытие многих индийских дорог очень редкое, а воспроизводимые методы идентификации и описания событий недоступны. Добавление некоторых других форм данных необходимо для решения этой проблемы. Это могут быть данные мониторинга скорости в режиме реального времени, такие как Google Maps, Waze и т. д., или социальные данные, такие как Twitter, Facebook и т. д. В этой статье модель обучения без учителя используется для эффективной классификации твитов для улучшения данных о дорожном движении в Индии. Модель использует встраивание слов для расчета семантического сходства и достигает тестового результата 94,7%.

2.Спрашивайте Кто, а не Что: прогнозирование волатильности биткойнов на основе данных Twitter(arXiv)

Автор:М. Эрен Акбийик, Мерт Эркул, Киллиан Кемпф, Вайва Василяускайте, Нино Антулов-Фантулин

Аннотация. Понимание колебаний торговой цены (волатильности) и ее реакции на внешнюю информацию является хорошо изученной темой в области финансов. В этом исследовании мы сосредоточимся на прогнозах волатильности для относительно нового класса активов криптовалют (в частности, биткойнов) с использованием представлений глубокого обучения общедоступных данных социальных сетей из Twitter. Для полевой работы мы извлекли семантическую информацию и статистику взаимодействия с пользователем из более чем 30 миллионов твитов, связанных с биткойнами, в сочетании с 15-минутными внутридневными ценовыми данными за 144-дневный горизонт. Используя эти данные, мы построили несколько архитектур глубокого обучения, в которых использовалась комбинация собранной информации. Для всех архитектур мы провели исследования абляции, чтобы оценить влияние каждого компонента и набора функций в нашей модели. Мы нашли статистические подтверждения гипотез о том, что: (i) временные сверточные сети работают значительно лучше, чем авторегрессионные и другие модели, основанные на глубоком обучении, в литературе, и (ii) метаинформация автора твита, даже отделенная от самого твита, является лучшим предсказателем, чем семантическое содержание и статистика количества твитов.

3.Сравнительное исследование анализа настроений с использованием NLP и различных методов машинного обучения на данных Twitter авиакомпаний США(arXiv)

Автор: Md. Тауфикул Хаке Хан Тусар, Md. Тухидуль Ислам

Вывод. Сегодняшняя бизнес-экосистема стала очень конкурентной. Удовлетворение потребностей клиентов стало основным направлением для роста бизнеса. Бизнес-организации тратят много денег и человеческих ресурсов на различные стратегии, чтобы понять и удовлетворить потребности своих клиентов. Но из-за несовершенного ручного анализа разнообразных потребностей клиентов многие организации не могут добиться удовлетворения клиентов. В результате они теряют лояльность клиентов и тратят лишние деньги на маркетинг. Мы можем решить проблемы, внедрив анализ настроений. Это комбинированный метод обработки естественного языка (NLP) и машинного обучения (ML). Анализ настроений широко используется для извлечения информации из более широкого общественного мнения по определенным темам, продуктам и услугам. Мы можем сделать это из любых доступных онлайн данных. В этой статье мы представили два метода НЛП (мешок слов и TF-IDF) и различные алгоритмы классификации машинного обучения (машина опорных векторов, логистическая регрессия, полиномиальный наивный байесовский алгоритм, случайный лес), чтобы найти эффективный подход к анализу настроений на большой, несбалансированный и многоклассовый набор данных. Наши лучшие подходы обеспечивают точность 77 % с использованием метода опорных векторов и логистической регрессии с использованием метода Bag-of-Words.

Исследовательские работы на основе данных Twitter, часть 2 (интеллектуальный анализ данных)

Похожие вопросы