Мне нужно проверить, является ли строка Unicode, а затем, если это UTF-8. После этого получите длину строки в байтах, включая BOM, если она когда-либо используется. Как это можно сделать в Python?
Также в дидактических целях, как выглядит представление списка байтов строки UTF-8? Мне любопытно, как строка UTF-8 представлена в Python.
Последнее редактирование: pprint делает это довольно хорошо.
string.decode('ascii')
, но в этом нет особого смысла, так как ASCII является допустимым UTF-8. - person ecatmur   schedule 21.08.2012