Первый символ чтения из текстового файла: ï»¿

Если я напишу этот код, я получу это в качестве вывода --> Сначала это: ï»¿, а затем другие строки

try {
    BufferedReader br = new BufferedReader(new FileReader(
            "myFile.txt"));

    String line;
    while (line = br.readLine() != null) {
        System.out.println(line);
    }
    br.close();

} catch (FileNotFoundException e) {
    e.printStackTrace();
} catch (IOException e) {
    e.printStackTrace();
}

Как я могу этого избежать?

Milton90 01.07.2013 источник

comment

Я думаю, это из-за кодировки. - Ionică Bizău 01.07.2013

comment

Может БОМ? en.wikipedia.org/wiki/Byte_order_mark - Maxime Chéramy 01.07.2013

comment

Это спецификация UTF-8. - Raphaël 01.07.2013

comment

Я решил так: BufferedReader br = new BufferedReader(new InputStreamReader( new FileInputStream(dictionary.txt),UTF8)); если (line.startsWith()) { line = line.substring(1); } - Milton90 01.07.2013

comment

Однако это удалит с начала каждой строки. Я думаю, вы хотите удалить только то, что находится в начале файла. - Nayuki 01.07.2013

comment

Да, я делаю это только для чтения первой строки. - Milton90 01.07.2013

comment

@Milton90 Milton90: это хорошее решение, оно помогло мне, спасибо. - Ankur Srivastava 11.05.2017

Ответы (2)

arrow_upward
19
arrow_downward

Вы получаете символы ï»¿ в первой строке, потому что эта последовательность является меткой порядка байтов UTF-8 (BOM) . Если текстовый файл начинается с спецификации, скорее всего, он был создан программой Windows, такой как Блокнот.

Чтобы решить вашу проблему, мы решили читать файл явно как UTF-8 вместо любой кодировки системных символов по умолчанию (US-ASCII и т. д.):

BufferedReader in = new BufferedReader(
    new InputStreamReader(
        new FileInputStream("myFile.txt"),
        "UTF-8"));

Затем в UTF-8 последовательность байтов ï»¿ декодируется в один символ, то есть U+FEFF. Этот символ является необязательным — допустимый файл UTF-8 может начинаться с него, а может и не начинаться. Поэтому мы пропустим первый символ, только если это U+FEFF:

in.mark(1);
if (in.read() != 0xFEFF)
  in.reset();

И теперь вы можете продолжить работу с остальным кодом.

Nayuki 01.07.2013

comment

Если я прав, символ спецификации будет встречаться только один раз во всем файле? - Adil; 19.04.2018

comment

Это может произойти несколько раз, если тупая программа объединила несколько файлов, каждый из которых содержал заголовок BOM. - Nayuki; 19.04.2018

arrow_upward
2
arrow_downward

Проблема может быть в используемой кодировке. попробуй это:

BufferedReader in = new BufferedReader(new InputStreamReader(
      new FileInputStream("yourfile"), "UTF-8"));

Tala 01.07.2013

comment

Я бы сказал, что это определенно кодировка ;) - Joey; 01.07.2013

comment

Я уже пробовал. Вместо ï»¿ становится '?' - Milton90; 01.07.2013

comment

Это может быть из-за используемой вами IDE. Иногда они устанавливают кодировку по умолчанию родной операционной системы - Tala; 01.07.2013

Первый символ чтения из текстового файла: ï»¿

Ответы (2)

Похожие вопросы