Я пишу веб-сканер для получения некоторых китайских веб-файлов. Выбранные файлы кодируются в utf-8. И мне нужно прочитать этот файл, чтобы выполнить некоторый синтаксический анализ, например, извлечь URL-адреса и китайские символы. Но я обнаружил, что когда я читал файл в переменную std :: string и выводил его в консоль, китайские символы становились символами мусора. Я применил boost :: regex к переменной std :: string и могу извлечь все URL-адреса, кроме китайских символов.
Как я могу решить эти проблемы?
P.S. Мои файлы CPP по умолчанию кодируются как ANSI, операционная система - Win8 на китайском языке;
>
выполнить операцию с файлом. Если окажется, что это действительный UTF-8 с китайскими символами, значит, ваша программа работает нормально, и это вопрос Windows. (Конечно, вам все равно может потребоваться изменить свою программу для работы с Windows, но вы будете знать, кто виноват.) - person aib   schedule 25.11.2013"936(ANSI/OEM - 简体中文 GBK)"
. - person Bruce Yang   schedule 26.11.2013