Как получить конкретные ранжированные слова из необработанного корпуса?

import nltk   
import nltk.data    

nltk.corpus.brown    
y= nltk.corpus.brown.raw()  
print(y)

Когда я делаю print(y), он показывает мне все необработанные данные в этом корпусе, но я хочу получить только 10,000 слова из этого необработанного корпуса. Как я могу этого добиться?


person Jawwad Rafiq    schedule 26.03.2016    source источник


Ответы (1)


Вы могли сделать:

import random
words = nltk.corpus.brown.words()
random_words = random.sample(words, 10000)
person Till    schedule 26.03.2016
comment
Мне не нужно 10000 слов из слов. Мне нужны слова из Raw corpus. вы написали words = nltk.corpus.brown.words () вместо words = nltk.corpus.brown.raw () - person Jawwad Rafiq; 26.03.2016
comment
В words() у вас есть все слова в raw() в том же порядке. Вы можете проверить это, выполнив: nltk.corpus.brown.raw()[0:100] и nltk.corpus.brown.words()[0:10] - person Till; 26.03.2016
comment
Спасибо, отлично работает. nltk.corpus.brown.words () [0:10] то, что я действительно хотел. - person Jawwad Rafiq; 27.03.2016