Учитывая массив байтов, представляющих текст в некоторой неизвестной кодировке (обычно UTF-8 или ISO-8859-1, но не обязательно), каков наилучший способ получить предположение для наиболее вероятной используемой кодировки (в Java)?
Стоит отметить:
- Никаких дополнительных метаданных нет. Массив байтов - это буквально единственный доступный вход.
- Очевидно, что алгоритм обнаружения не будет на 100% правильным. Если алгоритм верен более чем в 80% случаев, этого достаточно.