Угадать кодировку текста, представленного как byte [] в Java

Учитывая массив байтов, представляющих текст в некоторой неизвестной кодировке (обычно UTF-8 или ISO-8859-1, но не обязательно), каков наилучший способ получить предположение для наиболее вероятной используемой кодировки (в Java)?

Стоит отметить:

Никаких дополнительных метаданных нет. Массив байтов - это буквально единственный доступный вход.
Очевидно, что алгоритм обнаружения не будет на 100% правильным. Если алгоритм верен более чем в 80% случаев, этого достаточно.

knorv 04.11.2009 источник

comment

stackoverflow.com/questions/373081 может помочь - Chris 05.11.2009

Ответы (7)

arrow_upward
34
arrow_downward

Следующий метод решает проблему с использованием juniversalchardet, который является портом Java библиотеки обнаружения кодировки Mozilla.

public static String guessEncoding(byte[] bytes) {
    String DEFAULT_ENCODING = "UTF-8";
    org.mozilla.universalchardet.UniversalDetector detector =
        new org.mozilla.universalchardet.UniversalDetector(null);
    detector.handleData(bytes, 0, bytes.length);
    detector.dataEnd();
    String encoding = detector.getDetectedCharset();
    detector.reset();
    if (encoding == null) {
        encoding = DEFAULT_ENCODING;
    }
    return encoding;
}

Приведенный выше код был протестирован и работает так, как задумано. Просто добавьте juniversalchardet-1.0.3.jar в путь к классам.

Я протестировал как juniversalchardet, так и jchardet. Мое общее впечатление таково, что juniversalchardet обеспечивает лучшую точность обнаружения и более приятный API из двух библиотек.

knorv 05.11.2009

comment

мое требование к проекту: если данные не в utf8 (после обнаружения), затем преобразовать их в utf8, как это сделать? - coding_idiot; 21.02.2013

comment

@coding_idiot использует предполагаемую кодировку для преобразования в строку, а затем получает байты utf-8: new String(bytes, guessedEncoding).getBytes("utf-8"). - Brett Okken; 19.06.2014

comment

Не очень доволен этим. См. github.com/albfernandez/juniversalchardet/issues/22. - Sxilderik; 09.01.2018

comment

juniversalchardet также доступен в maven. groupId: com.googlecode.juniversalchardet, artifactId: juniversalchardet. - Aleksandr Erokhin; 09.11.2018

arrow_upward
5
arrow_downward

Также существует Apache Tika - набор инструментов для анализа контента. Он может угадать тип пантомимы и кодировку. Обычно предположение оказывается верным с очень высокой вероятностью.

Thomas Mueller 20.09.2010

arrow_upward
4
arrow_downward

Вот мой любимый: https://github.com/codehaus/guessencoding

Работает это так:

Если есть спецификация UTF-8 или UTF-16, верните эту кодировку.
Если ни в одном из байтов не установлен старший бит, верните ASCII (или вы можете заставить его вернуть 8-битную кодировку по умолчанию).
Если есть байты с установленным старшим битом, но они расположены по правильным шаблонам для UTF-8, верните UTF-8.
В противном случае верните кодировку платформы по умолчанию (например, windows-1252 в системе Windows с английской локалью).

Это может показаться чересчур упрощенным, но в моей повседневной работе точность превышает 90%.

Alan Moore 05.11.2009

arrow_upward
1
arrow_downward

Ответ Чи кажется наиболее многообещающим для реального использования. Я просто хочу добавить, что, по словам Джоэла Спольски, в свое время Internet Explorer использовал алгоритм угадывания на основе частоты:

http://www.joelonsoftware.com/articles/Unicode.html

Грубо говоря, весь предполагаемый текст копируется и анализируется во всех возможных кодировках. Побеждает тот синтаксический анализ, который лучше всего соответствует среднему профилю частотности слов (и букв?) Языка. Я не могу быстро увидеть, использует ли jchardet такой же подход, поэтому я подумал, что упомяну об этом на всякий случай.

Rooke 05.11.2009

arrow_upward
0
arrow_downward

Ознакомьтесь с jchardet

Chi 05.11.2009

comment

Уточните, пожалуйста, почему вы считаете jchardet лучшей библиотекой? - knorv; 05.11.2009

comment

@chi, как преобразовать в utf8, если кодировка не utf8. - coding_idiot; 21.02.2013

arrow_upward
-1
arrow_downward

Должны быть вещи уже доступны

поиск Google показал icu4j

http://jchardet.sourceforge.net/

gomesla 05.11.2009

comment

Я вроде как знаю, как использовать Google, но вопрос конкретно спрашивает, что лучше всего [..]. Итак, что лучше: icu4j, jchardet или какая-нибудь другая библиотека? - knorv; 05.11.2009

arrow_upward
-1
arrow_downward

Без индикатора кодировки вы никогда не узнаете наверняка. Тем не менее, вы можете сделать некоторые разумные предположения. Смотрите мой ответ на этот вопрос,

Как определить, содержит ли строка недопустимые закодированные символы

Используйте методы validUTF8 (). Если он возвращает true, трактуйте его как UTF8, иначе как Latin-1.

ZZ Coder 05.11.2009

comment

А как насчет случаев, когда это не UTF-8? - knorv; 05.11.2009

comment

Если это не UTF-8, слепо называть его Latin-1 - не лучшая идея. Было бы лучше использовать ICU, jchardet или один из других инструментов, перечисленных на этой странице, чтобы сделать разумное предположение. - james.garriss; 06.08.2015