Войти в мой кабинет
Регистрация
ГОТОВЫЕ РАБОТЫ / ДИПЛОМНАЯ РАБОТА, МАРКЕТИНГ

Обучение многодоменного энкодера предложений для задачи семантического поиска

beskonechno 1500 руб. КУПИТЬ ЭТУ РАБОТУ
Страниц: 45 Заказ написания работы может стоить дешевле
Оригинальность: неизвестно После покупки вы можете повысить уникальность этой работы до 80-100% с помощью сервиса
Размещено: 15.12.2020
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Обучение многодоменного энкодера предложений для задачи семантического поиска » Оригинальность работы 95%
Введение

1. Введение Методы Natural Language Processing (обработки естественного текста) или компьютерной лингвистики используются во многих индустриях. К таким задачам относятся машинный перевод, вопросно-ответные системы (чат-боты), информационный поиск, генерация текстовой информации и многое другое. Одной из распространенных задач компьютерной лингвистики является задача семантического поиска - технологии поиска информации, основанной на использовании смысла запрашиваемых фраз, вместо словарных значений отдельных слов или выражений при поисковом запросе. В задаче семантического поиска одной из важнейших частей является преобразование текстовой информации в машиночитаемый вид, а именно, в набор числовых параметров, представленных в виде вектора, или, иными словами, в векторный вид. Процесс такого преобразования называется векторизацией. Существует много различных подходов к векторизации. В каждом из них задействован больший или меньший объем разнородной текстовой информации, такой как, начальная форма слова, другие слова, часто встречающиеся рядом с рассматриваемым словом и прочее. Основной темой исследования является изучение возможностей совершенствования подходов к векторизации текстов русского языка с использованием такой текстовой информации как структура обрабатываемого текста. В процессе работы будут более подробно развернуты различные использованные типы структур текста. Некоторые примеры типов структуры текста - это вопрос, ответ, статья, пост в социальной сети. Основная идея данной работы состоит в том, что каждая из изучаемых структур имеет уникальные особенности, которые могут быть использованы моделью векторизации для повышения качества генерируемых векторов. В настоящее время многие подходы для векторизации текстов обучаются на больших массивах неразмеченных данных. Преимуществом использования неразмеченных данных в процессе обучения модели несомненно является намного большая доступность такого рода данных по сравнению с данными размеченными вручную. Однако из многих неразмеченных данных часто возможно автоматическим образом выделить метаинформацию, которая соответствует тому или иному источнику, откуда эти данные были получены. Так, к примеру, корпус текстов, полученных из онлайн-сервиса “Ответы mail.ru” и корпус текстов, полученный из новостного портала “Лента.ру”, будут иметь заведомо разную структуру. Соответственно кроме собственно текстовой информации, появится возможность использовать еще и информацию о структуре текста при обучении модели на таких текстах и последующей 5 их векторизации. Изучению возможностей такого подхода и будет посвящено данное исследование. Цель работы состоит в том, чтобы исследовать влияние информации о структуре текста на качество задачи семантического поиска. Новизна данной цели состоит в том, что ранее подобные параметры текста не были использованы для улучшения работы энкодеров. Способом достижения данной цели является проведение экспериментов, в ходе которых в модель будет добавляться информация об источнике данных и дополнительных заранее известных условиях, например, является ли текст вопросом или ответом. В процессе обучения будут использоваться задачи попарной смысловой близости а также распознавание маскированных именованных сущностей. Данная работа будет состоять из следующих разделов: ? Обзор литературы. В данном разделе будут рассмотрены различные подходы к решению поставленной в работе задачи, что позволит понять актуально проводимого исследования ? Методология. В данном разделе будут описаны параметры системы, в рамках которой проводились эксперименты. ? Эксперименты. В данном разделе будет описан ход всех экспериментов, а также проанализированы их результаты ? Выводы. В данном разделе на основании результатов проведенных экспериментов будут сделаны выводы относительно объекта исследования данной работы
Содержание

Введение 4 Обзор литературы 6 Предобработка текста 6 Подходы к токенизации текста 7 Пословная токенизация 7 Посимвольная токенизация 7 Токенизация по частям слов, Byte Pair Encoding (bpe) 8 Векторизация текста 9 Классические подходы 9 Современные методы векторизации текстов 10 Языковые модели 10 Universal Sentence Encoder 12 Методология 13 Домены 13 Данные 14 Тренировочные данные 14 Opusparcus 14 Sberquad 14 Ответы mail.ru 14 Посты и комментарии в социальной сети vkontakte 15 Посты и комментарии из различных форумов 15 Диалоги на свободные темы 15 Новостные статьи lenta.ru 16 Валидационные данные 16 Ответы mail.ru 17 Корпус русских учебных текстов 17 Токсичные комментарии 17 RuTweetCorp 18 Тайга 18 Количественный анализ данных 18 Архитектура энкодера 19 Векторизация исходной текстовой информации 19 Сверточный слой 20 Добавление информации о домене текста 20 Архитектура тренировочного пайплайна 21 Задача сближения векторов схожих по смыслу фраз 22 Задача многоклассовой классификации векторов маскированных токенов 22 Проверка результатов 23 2 Эксперименты 25 Референсные SOTA-подходы к векторизации текста 25 Универсальный многоязыковой энкодер предложений 25 SentenceRuBert 25 Результаты использования SOTA-технологий на валидационных данных 25 Ход экспериментов 26 Эксперимент № 1 27 Предобрабортка 27 Добавление информации о доменах 27 Количество и состав доменных векторов 27 Механизм внимания при добавлении информации о доменах 28 Инициализация значений векторов и задействованность тренировочных модулей 28 Эксперимент № 2 28 Механизм внимания при добавлении информации о доменах 28 Эксперимент № 3 29 Векторизация первой и ответной фразы 29 Механизм внимания при добавлении информации о доменах 29 Эксперимент № 4 29 Механизм внимания при добавлении информации о доменах и состав доменных векторов 29 Эксперимент № 5 30 Механизм внимания при добавлении информации о доменах и состав доменных векторов 30 Эксперимент № 6 30 Частота добавления доменной информации 30 Эксперимент № 7 30 Токенизация 30 Состав доменных векторов 30 Задействованные данные 30 Механизм внимания при добавлении информации о доменах 31 Эксперимент № 8 31 Состав доменных векторов 31 Эксперимент № 9 31 Предобучение весов 31 Эксперимент № 10 31 Предобучение весов 31 Состав доменных векторов 31 Эксперимент № 11 31 Предобучение весов 31 3 Состав доменных векторов 32 Эксперимент № 12 32 Токенизация 32 Состав до
Список литературы

6. Литература Рубцова, Ю. (2012). Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора. Инженерия Знаний И Технологии Семантического Веба,1, 109–116. Bahdanau, D., Cho, K., & Bengio, Y. (2016). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473 [cs, stat]. http://arxiv.org/abs/1409.0473 Bhojanapalli, S., Yun, C., Rawat, A. S., Reddi, S. J., & Kumar, S. (2020). Low-Rank Bottleneck in Multi-head Attention Models. arXiv:2002.07028 [cs, stat]. http://arxiv.org/abs/2002.07028 Chidambaram, M., Yang, Y., Cer, D., Yuan, S., Sung, Y.-H., Strope, B., & Kurzweil, R. (2019). Learning Cross-Lingual Sentence Representations via a Multi-task Dual-Encoder Model. ArXiv:1810.12836 [Cs].http://arxiv.org/abs/1810.12836 Creutz, M. (2018). Open Subtitles Paraphrase Corpus for Six Languages. arXiv:1809.06142 [cs].http://arxiv.org/abs/1809.06142 Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs]. http://arxiv.org/abs/1810.04805 Efimov, P., Chertok, A., Boytsov, L., & Braslavski, P. (2020). SberQuAD -- Russian Reading Comprehension Dataset: Description and Analysis. ArXiv:1912.09723 [Cs].http://arxiv.org/abs/1912.09723 42 Gage, P. (1994). A New Algorithm for Data Compression.14. The C User Journal Hinton, G. E., Osindero, S., & Teh, Y.-W. (2006). A Fast Learning Algorithm for Deep Belief Nets. Neural Computation,18(7), 1527–1554. https://doi.org/10.1162/neco.2006.18.7.1527 Hoffer, E., & Ailon, N. (2018). Deep metric learning using Triplet network. arXiv:1412.6622 [cs, stat].http://arxiv.org/abs/1412.6622 Jacovi, A., Shalom, O. S., & Goldberg, Y. (2020). Understanding Convolutional Neural Networks for Text Classification. arXiv:1809.08037 [cs]. http://arxiv.org/abs/1809.08037 Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. В C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, & K. Q. Weinberger (Ред.), Advances in Neural Information Processing Systems 26(сс. 3111–3119). Curran Associates, Inc. http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-a nd-their-compositionality.pdf Nwankpa, C., Ijomah, W., Gachagan, A., & Marshall, S. (2018). Activation Functions: Comparison of trends in Practice and Research for Deep Learning. arXiv:1811.03378 [cs].http://arxiv.org/abs/1811.03378 Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. arXiv:1802.05365 [cs]. http://arxiv.org/abs/1802.05365 43 Ramos, J. (2003). Using TF-IDF to Determine Word Relevance in Document Queries. Proceedings of the First Instructional Conference on Machine Learning, 242, 133–142. Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. arXiv:1908.10084 [cs].http://arxiv.org/abs/1908.10084 Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. ArXiv:1508.07909 [Cs]. http://arxiv.org/abs/1508.07909 Tatiana, S., & Alexandrovna, S. O. (2017). TO THE METHODOLOGY OF CORPUS CONSTRUCTION FOR MACHINE LEARNING: «TAIGA» SYNTAX TREE CORPUS AND PARSER.Труды Международной Конференции «КОРПУСНАЯ ЛИНГВИСТИКА – 2017»; .https://publications.hse.ru/en/chapters/228708483 Uszkoreit, J., Ponte, J., Popat, A., & Dubiner, M. (2010). Large Scale Parallel Document Mining for Machine Translation. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010),1101–1109. https://www.aclweb.org/anthology/C10-1124 Yang, Y., Abrego, G. H., Yuan, S., Guo, M., Shen, Q., Cer, D., Sung, Y., Strope, B., & Kurzweil, R. (2019). Improving Multilingual Sentence Embedding using Bi-directional Dual Encoder with Additive Margin Softmax. ArXiv:1902.08564 [Cs].http://arxiv.org/abs/1902.08564 (5) (PDF) Long Short-term Memory.(б. д.). ResearchGate. Извлечено 29 май 2020 г., отhttps://www.researchgate.net/publication/13853244_Long_Short-term_Memory 44 7. Дополнительные материалы Taiga Сorpus.(б. д.). Извлечено 22 май 2020 г., от https://tatianashavrina.github.io/taiga_site/ Russian Language Toxic Comments.(б. д.). Извлечено 22 май 2020 г., от https://kaggle.com/blackmoon/russian-language-toxic-comments Universal-sentence-encoder-multilingual | TensorFlow Hub.(б. д.). Извлечено 24 май 2020 г., отhttps://tfhub.dev/google/universal-sentence-encoder-multilingual/3 Corpus of Russian Student Texts.(б. д.). Извлечено 22 май 2020 г., от http://web-corpora.net/learner_corpus Анализируй это—Lenta.ru.(б. д.). Извлечено 21 май 2020 г., от https://habr.com/ru/post/343838/ Ответы Mail.ru: Человеческий поиск ответов на любые вопросы. Открытые вопросы.(б. д.). Извлечено 21 май 2020 г., отhttps://otvet.mail.ru/ BERT in DeepPavlov—DeepPavlov 0.9.1 documentation.(б. д.). Извлечено 24 май 2020 г., отhttp://docs.deeppavlov.ai/en/master/features/models/bert.html
Отрывок из работы

Важность тренировочных данных Применение доменных векторов на валидации с датасетом RuTweetCorp дало отрицательные результаты. Наиболее вероятной причиной этого является малое количество сэмплов данного домена (как указано в разделе “Количественный анализ данных” таких сэмплов только около 100 тысяч). Однако после применения тренировочного модуля с задачей многоклассовой классификации векторов с маскированными токенами метрика на данном датасете улучшилась относительно начальной эпохи, в которой доменная информация не применялась. Вывод из данного факта на момент исследования не представляется очевидным, особенно принимая во внимание то, что применение данной задачи к доменам с достаточным количеством сэмплов существенно снижало итоговые метрики после эпохи с применением соответствующей задачи. Подход к обработке неизвестного домена Концепция добавления векторов всех доменов к сэмплам с неизвестным доменам хоть и оказалась более эффективной, чем выделение отдельных доменов под неизвестный домен и неизвестный поддомен, но все же не является достаточной для серьезного приращения метрик при использовании доменной информации. Одним из возможных вариантов продолжения исследования в данном направлении может являться совершенствование механизма внимания, используемого при работе с неизвестным доменом.
Не смогли найти подходящую работу?
Вы можете заказать учебную работу от 100 рублей у наших авторов.
Оформите заказ и авторы начнут откликаться уже через 5 мин!
Служба поддержки сервиса
+7(499)346-70-08
Принимаем к оплате
Способы оплаты
© «Препод24»

Все права защищены

Разработка движка сайта

/slider/1.jpg /slider/2.jpg /slider/3.jpg /slider/4.jpg /slider/5.jpg