Анализ настроений — это способ компьютерного определения того, является ли текст положительным, отрицательным или нейтральным. Его также называют извлечением информации, потому что он включает в себя оценку точки зрения или мышления докладчика [1].
Почему так сложно провести анализ настроений [7]?
1. Сарказм. В зависимости от отправителя или ситуации слова или текстовые данные, подразумеваемые в саркастическом предложении, имеют разное значение. Сарказм — это когда вы говорите что-то прямо противоположное тому, что хотите сказать.
2. Расшифровка. Что такое подлежащее и дополнение в предложении и к кому относится глагол или прилагательное?
3. Распознавание именованных объектов — о чем именно говорит человек?
4. Твиты — заглавные буквы, слова с ошибками, знаки препинания, сокращения и грамматические конструкции.
Как работает анализ настроений?
Традиционные методы включают словарь или анализ на основе значений. Но с помощью машинного обучения мы можем генерировать «функции» из текста, чтобы использовать эти функции для прогнозирования «метки».
Пример — разделение текста на слова — использование этих слов для определения их частотности с помощью метода визуализации данных (облако слов) для классификации настроений.
Типичный анализ настроений включает следующие этапы:
Ввод текста à Предварительная обработка и очистка данных
· Токенизация (слова и предложения)
· Удаление стоп-слов
· Нормализация слов (основы и лемматизация)
· Векторизация текста
Базовый рабочий процесс для классификации настроений выглядит следующим образом:
- Разделение данных на обучающие и тестовые данные.
- Выбор архитектуры модели.
- Обучение модели с помощью «обучающих данных».
- Оценка производительности модели с использованием тестовых данных.
- Примените обученную модель к новым данным, чтобы сделать прогнозы, которые в данном случае будут числом от -1,0 до 1,0.
VADER (словарь с учетом валентности и анализ настроений) Анализ настроений:
Это лексическая база данных и инструмент анализа настроений на основе правил, оптимизированный для настроений в социальных сетях. Он использует различные техники. Лексикон настроений представляет собой набор лексических признаков (например, слов), которые классифицируются как положительные или отрицательные в зависимости от их полярности настроений. Он не только демонстрирует оценки позитивности и негативности, но также и степень позитивности или негативности настроения [1].
Команда для установки vaderSentiment [5] [6]:
pip install vaderSentiment
Пожалуйста, обратитесь к [1], чтобы понять результаты, полученные с помощью vadersentiment, и я следовал этой статье [11], чтобы реализовать vadersentiment с использованием python:
отметьте [6] для VADER, чтобы проанализировать обзоры.
Преимущества использования VADER [9] [10]:
- Он хорошо работает с текстом в социальных сетях, но при этом легко обобщается на различные дисциплины.
- Этот подход прост для понимания во многих реализациях, таких как оценка общественных настроений, выполнение анализа рынка или улучшение обслуживания клиентов.
- Он хорош для анализа больших наборов данных.
Недостатки
- Возможно предвзятая терминология, определения, смайлики
- Сарказм
- Из-за орфографических ошибок и грамматических ошибок при оценке могут быть пропущены важные слова.
Ссылки:
[1] https://www.geeksforgeeks.org/python-sentiment-analysis-using-vader/
[2] https://realpython.com/sentiment-analysis-python/#machine-learning-tools
[3] https://www.mdpi.com/2076-3417/11/18/8438/htm
[4] https://github.com/cjhutto/vaderSentiment
[5] https://pypi.org/project/vaderSentiment/
[8] Хатто, С. Дж., и Гилберт, Э. Э. (2014), озаглавленный «ВЕЙДЕР: экономная модель, основанная на правилах, для анализа настроений текста в социальных сетях».
[9] https://www.codeproject.com/Articles/5269447/Pros-and-Cons-of-NLTK-Sentiment-Analysis-with-VADE
[12] https://sentence.yourdictionary.com/angry
[13] https://www.peakpx.com/en/hd-wallpaper-desktop-abvkw