Выпущена Legal NLP 1.2.0 для Spark NLP! ⚖️

Мы рады приветствовать новую версию Legal NLP 1.2.0, включающую следующие новые возможности.

Экосистема искры

Legal NLP был создан на основе Spark NLP, который использует конвейеры Spark MLLib. Это означает, что у вас может быть общий конвейер с любым компонентом Spark NLP Spark MLLib. Кроме того, вы комбинируете его с остальными нашими лицензированными библиотеками, такими как Visual NLP, Healthcare NLP или Finance NLP. Библиотека работает поверх Transformers и других архитектур глубокого обучения, предоставляя современные модели, которые можно запускать на кластерах Spark. Помните, Spark NLP — единственная библиотека, изначально масштабируемая для параллельных вычислений, поэтому это Legal NLP.

Новые модели 🚀🚀🚀

Распознавание именованных объектов:

⚖️ legner_termination : Это модель NER, которая извлекает информацию из пунктов прекращения, таких как субъект (кто? какая сторона?), действие (глагол), объект (что?) и косвенный объект (кому?). TERMINATION_SUBJECT, TERMINATION_ACTION, TERMINATION_OBJECT и TERMINATION_INDIRECT_OBJECT.

⚖️ legner_romanian_official_lg: это большая версия модели NER, которая извлекает следующие 14 объектов (PER, LOC, ORG, DATE, DECISION, DECREE, DIRECTIVE, ORDINANCE, EMERGENCY_ORDINANCE, LAW, ORDER, REGULATION, REPORT, TREATY) из румынских официальных документов.

⚖️ legner_romanian_official_md : это средняя версия модели NER, которая извлекает PER, LOC, ORG, DATE, LEGAL объектов из румынских официальных документов. В отличие от маленькой версии, он помечает все объекты, связанные с юридическим доменом, как LEGAL.

⚖️ legner_romanian_official_sm : это уменьшенная версия модели NER, которая извлекает только PER, LOC, ORG, DATEобъектов из румынских официальных документов.

Извлечение отношения

⚖️ legre_contract_doc_parties_md : Это модель извлечения правовых отношений, которую можно использовать после модели NER для извлечения сторон, типов документов, дат вступления в силу и псевдонимов, которая называется legner_contract_doc_parties.

На выходе вы получите отношения, связывающие разные понятия вместе, если такое отношение существует. Список отношений таков:

dated_as: документ имеет дату вступления в силу
has_alias: псевдоним стороны по всему документу.
has_collective_alias: Псевдоним, удерживаемый несколькими сторонами одновременно
signed_by: Между Стороной и документом, который они подписали

Это модель md с однонаправленными отношениями, что означает, что модель извлекает в чанк1 левую часть отношения (источник), а в чанк2 — правую сторону (цель).

⚖️ legre_obligations_md: Мы называем «обязательством» любое предложение в тексте, в котором говорится, что Сторона (ОБЛИГАЦИЯ_ОБЪЕКТ) должна сделать (ОБЛИГАЦИЯ_АКИТОН) что-то (ОБЛИГАЦИЯ_ОБЪЕКТ) другой Стороне (ОБЛИГАЦИЯ_ИНДИРЕКТ_ОБЪЕКТ). Эта модель извлекает отношения, связывая все эти части предложения (подлежащее с действием, действие с дополнением и т. д.).

Эта модель требует legner_obligations в качестве NER в конвейере. Это модель md с однонаправленными отношениями, что означает, что модель извлекает в чанк1 левую часть отношения (источник), а в чанк2 — правую сторону (цель).

Это модель глубокого обучения, то есть учитывается только семантика, а не грамматические структуры. Если вы хотите проанализировать отношения, используя дерево грамматических зависимостей, не стесняйтесь использовать эту другую модель.

⚖️ legre_confidentiality_md :Это модель извлечения правовых отношений для определения субъекта (кто), действия (веб), объекта (компенсация) и косвенного объекта (кому) из положений о конфиденциальности. Эта модель требует legner_confidentiality в качестве NER в конвейере. Это модель md с однонаправленными отношениями, что означает, что модель извлекает в чанк1 левую часть отношения (источник), а в чанк2 — правую сторону (цель).

⚖️ legre_grants_md: для этой модели требуется legner_bert_grants в качестве NER в процессе разработки. Это модель md с однонаправленными отношениями, что означает, что модель извлекает в чанк1 левую часть отношения (источник), а в чанк2 — правую сторону (цель).

⚖legre_indemnifications_md: Это модель извлечения отношений для группы различных сущностей, извлеченных с помощью модели NER компенсации (см. legner_bert_indemnifications в центре моделей). Эта модель требует legner_bert_indemnifications в качестве NER в конвейере. Это модель md с однонаправленными отношениями, что означает, что модель извлекает в чанк1 левую часть отношения (источник), а в чанк2 — правую сторону (цель).

⚖️legre_whereas_md: по этому принципу используется модель извлечения отношений для вывода отношений между элементами в предложениях WHEREAS, а именно SUBJECT, ACTION и OBJECT. Возможны два отношения: has_subject и has_object.

Вы также можете использовать legpipe_whereas, который включает в себя эту модель и ее NER, а также синтаксический анализ зависимостей, чтобы выполнять извлечение фрагментов с использованием грамматических функций (дерево зависимостей). Эта модель требует legner_whereas в качестве NER в конвейере. Это модель md с однонаправленными отношениями, что означает, что модель извлекает в чанк1 левую часть отношения (источник), а в чанк2 — правую сторону (цель).

Текстовая классификация

⚖️ Модели двоичной классификации. В этом выпуске мы добавили 38 различных моделей двоичной классификации. (генеральный договор-РЕПО, основной договор-аренды, договор-покупки ценных бумаг, договор-управления, договор-залога-и-обеспечения, договор-акционера, договор-покупки-акции, договор-обслуживания, договор-договора-договора, субаренды -договор, договор-купли-актива, договор-займа, договор-обмена акциями, договор-коммандитного-товарищества, договор-займа-и-залога, договор-консультации, договор-гарантии, договор-инвестиции-суб-консультации, договор-подписки , соглашение о покупке, межкредиторское соглашение, соглашение о распределении капитала, соглашение о возмещении убытков, соглашение об аренде, соглашение о хранении, соглашение об оказании услуг, соглашение об обеспечении, соглашение о найме, соглашение об обмене, соглашение об исключительной лицензии , соглашение-распределение, соглашение-кредит, соглашение-условия, соглашение-управление, исполнительный-трудовой-договор, общее-распределительное-соглашение, соглашение-и-декларация, соглашение-участие)

Модели бинарной классификации — это юридические классификаторы документов Longformer для классификации, принадлежит ли документ к родственному классу (отметьте Lawinsider для классификации аналогичного типа документа) или нет (двоичная классификация).

У лонгформеров есть ограничение на 4096 токенов, поэтому будут учитываться только первые 4096 токенов. Мы поняли, что для подавляющего большинства документов в юридических корпусах, если они чистые и содержат только юридический документ без какой-либо дополнительной информации ранее, 4096 достаточно для выполнения классификации документов.

Если нет, дайте нам знать, и мы можем выполнить для вас другой подход: получение кусков 4096 токенов и усреднение вложений, обучение на усредненной версии, что означает, что весь документ будет учитываться. Но это теоретически не должно требоваться.

⚖ legclf_judgement: Это легкая версия немецкого юридического суждения, написанное в немецком стиле юридического письма 'urteilsstil' (стиль суждения), который будет извлекать, если текст будет либо заключение, определение, другое, либо подпаренность.

⚖️ legclf_judgement_medium: по этому вопросу это усложненная версия классификатора текстов немецких юридических решений, написанная в немецком стиле юридического письма «Urteilsstil” (стиль судебного решения), который будет извлекать, если текст является выводом, определением, другим или включением.

⚖️ legclf_cuad_termination_clause: Эта модель представляет собой двоичный классификатор (верно, неверно) для типа предложения termination. Чтобы использовать эту модель, убедитесь, что вы предоставили достаточно контекста в качестве входных данных. Добавление разделителей предложений в конвейер заставит модель видеть только предложения, а не весь текст, поэтому лучше пропустить его, если только вы не хотите выполнять двоичную классификацию на уровне предложения.

Эта версия была обучена с помощью Universal Sentence Encoder.

Если у вас есть большие юридические документы, и вы хотите найти оговорки, мы рекомендуем вам разделить документы, используя любой из методов, доступных в нашем Spark NLP for Legal Workshop Tokenization & Splitting Tutorial (ссылка здесь), а именно:

Разбиение на абзацы (многострочное);
Разбиение по заголовкам/подзаголовкам;
и т. д.

Примите во внимание, что вложения этой модели позволяют использовать до 512 токенов. Если у вас больше, рассмотрите возможность разделения на более мелкие части (вы также можете проверить ту же ссылку на учебник, указанную выше).

Эту модель можно комбинировать с любым из более чем 200 других классификаторов юридических положений, которые вы найдете в Центре моделей, получая на выходе серию значений True/False для каждой из добавленных вами моделей юридических положений.

В этом наборе данных есть и другие модели с похожим названием, но разница заключается в наборе данных, на котором они обучались. Этот был обучен с набором данных cuad.

⚖️ legclf_sbert_cuad_termination_clause : Эта модель представляет собой двоичный классификатор (верно, неверно) для типа предложения termination. Чтобы использовать эту модель, убедитесь, что вы предоставили достаточно контекста в качестве входных данных. Добавление разделителей предложений в конвейер заставит модель видеть только предложения, а не весь текст, поэтому лучше пропустить его, если только вы не хотите выполнять двоичную классификацию на уровне предложения.

Эта версия была обучена с Sentence Bert.

Новые демо 🚀

Вы можете найти существующие демонстрации на нашем Демонстрационном сайте, где вы найдете демонстрации, демонстрирующие некоторые из моделей, доступных в Models Hub.

Распознавание именованных объектов в румынских официальных документах: эти 3 демонстрации (legner_romanian_official_sm, legner_romanian_official_md, legner_romanian_official_lg)показывают объекты из румынских официальных документов. Вы можете выбрать их на боковой панели.

Хочу увидеть больше?

Загляните в наш Модель Хаб
Загляните в наши Записные книжки
Проверьте наши Демо

Как установить

!pip install johnsnowlabs 
from johnsnowlabs import *
jsl.install(json_license_path=[your_legal_license_path])
jsl.start(json_license_path=[your_legal_license_path])

Вы хотите запросить бесплатную пробную версию?

Перейдите на нашу страницу самостоятельной установки здесь и запросите пробную версию. Напишите на [email protected], если у вас есть вопросы, или найдите нас на нашем Slack Channel (#legal)