Многоязычное обнаружение текстового спама

Многие технологии могут использоваться для обнаружения спама на определенном языке, и если будет принята надлежащая технология, она может сделать систему способной обнаруживать спам на нескольких языках, но для этого требуется, чтобы один текст был на определенном языке.

Итак, мой вопрос: как обнаружить текст, состоящий из нескольких языков? это касается не только определения языка. Я хотел бы узнать некоторые рекомендации по обнаружению многоязычного текстового спама.


person Yu QIAN    schedule 25.04.2016    source источник


Ответы (1)


Наивным решением по-прежнему является использование API перевода для сегментации текста на фрагменты по языкам. А затем классифицировать текстовые фрагменты по языкам.

Это простое решение, но я боюсь производительности, поскольку API перевода часто называется.

Мне было интересно, как большие компании или некоторые отличные проекты справляются с этой проблемой?

person Yu QIAN    schedule 25.04.2016