R-недопустимая многобайтовая строка 1

Я новичок в программном обеспечении R

Теперь изучаем интеллектуальный анализ текста с использованием пакета «tm».

У меня проблема с преобразованием текста в нижний регистр

sms_raw<-read.csv(............)
sms_corpus<-Corpus(VectorSource(sms_raw$text)) 
sms_corpus<-Corpus(VectorSource(sms_raw$text))  
tm_map(sms_corpus,content_transformer(tolower))   
error:invalid multubytes string 1

Я думал, что мой CSV-файл может быть не utf-8, поэтому я восстановил его как utf-8, но это не сработало.

моя ОС win8.1

У кого-нибудь есть решение этой проблемы, пожалуйста, дайте мне знать.


person Damien    schedule 05.11.2014    source источник
comment
Приведите небольшой воспроизводимый пример, показывающий, где останавливается ваш прогресс.   -  person Roman Luštrik    schedule 05.11.2014


Ответы (1)


Ошибка, которую я легко решил с помощью функции кодирования

В моем столбце файла имя которого содержит многобайтовый символ

Так что я печатаю

sms_raw$text <- iconv(enc2utf8(sms_raw$text),sub="byte")

Эта команда преобразует столбец «текст» (многобайтовый) в форму utf8.

person Damien    schedule 07.11.2014
comment
Я знаю, что это было много лет назад, но спасибо. Решил мою проблему. - person astronomerforfun; 31.10.2018