обучение word2vec из субтитров вебинара

Я строю модель для запуска воспроизведения видео с временного интервала в зависимости от контекста. Например воспроизвести кульминацию фильма, начинает воспроизводиться с 59-й минуты.

Я использую субтитры видео, сопоставляю текст в определенной последовательности и определяю временные рамки. Я пытаюсь найти точные слова с реальными выражениями $$ не так эффективно $$. Я наткнулся на word2vec, который может найти похожие слова с косинусным сходством.


person Quantum Dreamer    schedule 10.05.2019    source источник
comment
Да, word2vec может помочь с нечетким сопоставлением слов. Но в чем вопрос?   -  person gojomo    schedule 10.05.2019
comment
У меня лекция по python. Я хочу подтянуть, где в видео обсуждаются декораторы, просто сказав, что такое декораторы?   -  person Quantum Dreamer    schedule 03.07.2019
comment
Вы должны показать примеры целевых текстов и запросов, чтобы было понятно, о чем вы спрашиваете.   -  person gojomo    schedule 03.07.2019


Ответы (1)


Пожалуйста, опубликуйте примеры названий вебинаров и условий поиска, чтобы получить лучший ответ, но на основе того, что вы опубликовали. Вам не обязательно обучать новую модель word2vec, если вы используете такой язык, как английский, с несколькими уже доступными предварительно обученными векторами. Вот шаги:

1) Рассчитайте вектор для вашего поискового запроса, используя предварительно обученные векторы word2vec.

2) Рассчитать вектор для каждого субтитра и сохранить в подходящем списке

3) Используйте функцию cosine_similarity из библиотеки ML, чтобы вычислить сходство между вектором из шага 1 и каждым из векторов в списке из шага 2.

4) Субтитры с оценкой сходства, наиболее близкой к 1, — это то, что вы ищете, и вы можете выполнить обратный поиск связанного времени для этого кадра.

person Adnan S    schedule 11.05.2019
comment
да, это зависит исключительно от предварительно обученных векторов и их корпуса. Я нахожусь в ситуации: более высокое косинусное сходство для текстов субтитров, которые точно не отражают содержание. - person Quantum Dreamer; 03.07.2019