Я хотел использовать examples/run_lm_finetuning.py
из репозитория Huggingface Transformers на предварительно обученной модели Берта. Однако из документации не очевидно, как должен быть структурирован файл корпуса (кроме ссылки на набор данных Wiki-2). я пробовал
- Один документ в строке (несколько предложений)
- Одно предложение в строке. Документы разделяются пустой строкой (я нашел это в какой-то старой документации по pytorch-transformers).
Глядя на код examples/run_lm_finetuning.py
, не совсем очевидно, как формируются пары последовательностей для цели прогнозирования следующего предложения. Поможет ли здесь опция --line-by-line
? Буду признателен, если кто-нибудь подскажет, как должен выглядеть файл текстового корпуса.
Большое спасибо и ура,
Minds