Как создать модульный и расширяемый код для извлечения произвольных функций для машинного обучения?

Я работал над созданием модуля Python, который выполняет извлечение функций для функций, которые в конечном итоге будут использоваться алгоритмом машинного обучения в будущем.

Мой подход заключался в том, чтобы дополнить исходный набор данных золотого стандарта (созданными вручную) функциями и тем самым создать новый набор данных, чтобы обучение не включало создание каких-либо функций, что может быть дорогостоящим. Я считаю, что это норма для большинства наборов данных - всегда включены основные функции (например, теги части речи, теги именованных сущностей, семантические метки и т. Д.).

Набор данных, который я использую, включает только все токенизированные предложения, отформатированные как теги XML. Например:

<s>
  <lex begin='351' end='354'>The</lex>
  <lex begin='355' end='361'>people</lex>
  <lex begin='362' end='366'>here</lex>
  <lex begin='367' end='370'>are</lex>
  <lex begin='371' end='374'>far</lex>
  <lex begin='375' end='384'>wealthier</lex>
  <lex begin='384' end='385'>.</lex>
</s>

Я хотел бы добавить к каждому токену дополнительную информацию, например часть речи, NER, семантические метки и т. д.

Я использовал Stanford NLP POS tagger и Stanford NLP NER tagger. Они невероятно медленные, но (надеюсь) скорость обеспечивает более точные метки POS и NER. Я также добавляю еще один синтаксический анализатор, чтобы получить семантические метки. Ниже приводится новое предложение, дополненное функциями.

<s>
    <lex ner='O' begin='351' end='354' pos='DT' label='None'>The</lex>
    <lex CATEGORY='#ref-category PERSON' begin='355' end='361'
        FORM='#ref-category COMMON-NOUN/PLURAL' ENDS-AT='#edges ending at 3'
        CONSTITUENTS='NIL' USED-IN='NIL' Type='SPARSER::EDGE' LEFT-DAUGHTER='#word "people"'
        pos='NNS' RULE='#PSR577  person -  "people"' label='SPATIAL_ENTITY'
        REFERENT='#people 1' POSITION-IN-RESOURCE-ARRAY='1' SPANNED-WORDS='NIL'
        RIGHT-DAUGHTER=':SINGLE-TERM' ner='O' Class='#STRUCTURE-CLASS SPARSER::EDGE'
        STARTS-AT='#edges starting at 2'>people</lex>
    <lex CATEGORY='#ref-category DEICTIC-LOCATION' begin='362' end='366'
        FORM='#ref-category PROPER-NOUN' ENDS-AT='#edges ending at 4'
        CONSTITUENTS='NIL' USED-IN='NIL' Type='SPARSER::EDGE' LEFT-DAUGHTER='#word "here"'
        pos='RB' RULE='#PSR271  deictic-location -  "here"' label='PLACE'
        REFERENT='#deictic-location "here" 3' POSITION-IN-RESOURCE-ARRAY='3'
        SPANNED-WORDS='NIL' RIGHT-DAUGHTER=':SINGLE-TERM' ner='O'
        Class='#STRUCTURE-CLASS SPARSER::EDGE' STARTS-AT='#edges starting at 3'>here</lex>
    <lex CATEGORY='#ref-category BE' begin='367' end='370'
        FORM='#ref-category VERB' ENDS-AT='#edges ending at 5' CONSTITUENTS='NIL'
        USED-IN='NIL' Type='SPARSER::EDGE' LEFT-DAUGHTER='#word "are"' pos='VBP'
        RULE='#PSR145  be -  "are"' label='None' REFERENT='#be 1'
        POSITION-IN-RESOURCE-ARRAY='4' SPANNED-WORDS='NIL' RIGHT-DAUGHTER=':SINGLE-TERM'
        ner='O' Class='#STRUCTURE-CLASS SPARSER::EDGE' STARTS-AT='#edges starting at 4'>are</lex>
    <lex CATEGORY='#word "far"' begin='371' end='374'
        FORM='#ref-category SPATIAL-PREPOSITION' ENDS-AT='#edges ending at 6'
        CONSTITUENTS='NIL' USED-IN='NIL' Type='SPARSER::EDGE' LEFT-DAUGHTER='#word "far"'
        pos='RB' RULE='(5)' label='None' REFERENT='#word "far"'
        POSITION-IN-RESOURCE-ARRAY='5' SPANNED-WORDS='NIL' RIGHT-DAUGHTER=':LITERAL-IN-A-RULE'
        ner='O' Class='#STRUCTURE-CLASS SPARSER::EDGE' STARTS-AT='#edges starting at 5'>far</lex>
    <lex ner='O' begin='375' end='384' pos='JJR' label='None'>wealthier</lex>
    <lex begin='384' end='385'>.</lex>
</s>

Очевидно, он больше не читается человеком, но это не важно, поскольку это просто функции, которые нужно передать алгоритму машинного обучения.

Для моих целей мне нужно сделать это только один раз, а менее дорогие функции можно просто добавить прямо перед обучением, например это слово с заглавной буквы.

Мое нынешнее решение, однако, действительно ужасно, и я не уверен, как его повторно использовать, чтобы кто-то в будущем мог легко добавлять свои собственные хуки / функции (например, они хотят быстро добавлять новые функции из какого-то другого парсера). . Вот мое рабочее решение:

xml_tokens_pattern = re.compile(r'<TOKENS>.+</TOKENS>', re.DOTALL)
sentence_pattern = re.compile(r'<s>.+?</s>', re.DOTALL)
lex_attrs_pattern = re.compile(r'(?<=<lex)[^>]+')

class Feature_Process(object):
    """Wrapper for adding features to xmls.

    """
    def __init__(self, xmls, golddir, newdir='', suffix='++',
                 feature_functions=[], renew=False, debug=False):
        self.xmls = xmls
        self.golddir = golddir
        self.newdir = newdir
        self.suffix = suffix
        self.feature_functions = feature_functions
        self.renew = renew
        self.debug = debug
        self.heavy = False

    def process(self):
        for xml in self.xmls:
            path = setup_newdir(xml, self.golddir, self.newdir,
                                self.suffix, self.renew)
            if not path:
                continue
            mkparentdirs(path)
            with open(xml, 'r') as oldfile:
                text = oldfile.read()
            doc = Space_Document(xml)
            tags = [tag for tag in doc.tags if 'start' in tag.attrib]
            new_text = text
            for (i,m) in enumerate(re.finditer(sentence_pattern, text)):
                sentence = doc.sentences[i]
                doc_lexes = sentence.getchildren()
                xml_sentence = m.group()
                tokens = [''.join([c if ord(c) < 128
                                   else u2ascii[c]
                                   for c in x.text]).encode('utf-8')
                          for x in doc_lexes]
                (pos_tags, ner_tags, edges) = ([], [], [])
                if self.heavy:
                    pos_tags = pos.tag(tokens)
                    ner_tags = ner.tag(tokens)
                    try:
                        if self.debug:
                            print ' '.join([x for x in tokens])
                        edges = p(' '.join([x for x in tokens]), split=True)
                    except:
                        'somehow got here'
                c = 0
                for (j, n) in enumerate(re.finditer(lex_attrs_pattern,
                                                    xml_sentence)):
                    doc_lex = doc_lexes[j]
                    new_lex = Lex(doc_lex.text, doc_lex.attrib)
                    attributes = n.group()
                    tag = binary_search((int(doc_lex.attrib['begin']),
                                         int(doc_lex.attrib['end']),
                                         doc_lex.text), tags)
                    label = 'None'
                    if type(tag) != type(None):
                        label = tag.tag
                    new_lex.add(('label', label))
                    new_lex.add(('word', new_lex.text.encode('utf-8')))
                    if type(tag) != type(None):
                            new_lex.addAll([(key, tag.attrib[key]) for key in tag.attrib])
                    if pos_tags:
                        if tokens[j] == pos_tags[c][0]:
                            new_lex.add(('pos', pos_tags[c][1]))
                            pos_tags.remove(pos_tags[c])
                    if ner_tags: #this error case comes up for RFC/Durango.xml
                        if tokens[j] == ner_tags[c][0]:
                            new_lex.add(('ner', ner_tags[c][1]))
                            ner_tags.remove(ner_tags[c])
                    if edges:
                        sparser_edge = ledge(edges, tokens[j])
                        if sparser_edge:
                            if sparser_edge.keyvalues:
                                keyvalues = sparser_edge.keyvalues[sparser_edge.keyvalues.keys()[0]]
                                new_lex.addAll([(key, keyvalues[key]) for key in keyvalues])
                    new_lex.addAll([function(new_lex) for function in self.feature_functions])
                    new_text = new_text.replace(attributes, str(new_lex))
            w = open(path, 'w')
            print>>w, new_text
            w.close()

person user3898238    schedule 23.12.2014    source источник


Ответы (1)


Во-первых, если вы собираетесь использовать XML в качестве источника и цели, почти всегда будет ошибкой пытаться разобрать XML вручную. Используйте библиотеки синтаксического анализа Python XML, которых несколько, для создания структуры или потока, которыми вы можете управлять.

Если ваша основная цель - предоставить API для добавления лексических функций, которые могут быть интерпретированы классификатором, моя единственная рекомендация - четко отделить сериализацию / десериализацию от манипулирования структурами данных. Но в таком простом случае это не особенно сложно.

person Sam Bayer    schedule 05.01.2015