Введение
Юмор – один из ключевых компонентов социального взаимодействия в современном обществе. Когда человек слышит шутку, он смеётся, выражая тем самым позитивные эмоции. Что создаёт юмористический эффект в обычном тексте? Изучение механик и структур, определяющих юмор, позволяет понимать различные способы влияния на поведение индивидуумов. Например, если в рекламе какого-либо продукта, предвыборном видео, агитационном ролике есть смешной фрагмент, который, кроме того, соответствует современным тенденциям – вероятность того, что зритель выберет именно этот продукт, увеличивается в разы. Однако как создать шутку, которая понравится большинству? Существуют ли определённые алгоритмы, позволяющие манипулировать толпой таким образом? Для того, чтобы ответить на эти вопросы, необходимо выявить паттерны и факторы, которые делают обычное предложение смешным.
В настоящее время большинство юмора содержится в текстовой форме – многочисленные порталы анекдотов, бесконечные ветки Twitter и Reddit, комментарии пользователей в сети… Для того, чтобы понять природу юмора, необходимо исследовать компоненты существующих шуток на предмет общих паттернов. Но как выявить юмористические составляющие, если мы даже не умеем автоматически различать шутку и обычный текст? В этом и содержится задача распознавания юмора – ответ на вопрос «Является ли этот текст шуткой?»
В данной работе предлагается целых три способа ответить на этот вопрос. Это модели-классификаторы, обучающиеся на уже известных текстах и предсказывающие класс для новых. Сами модели и способы решения совсем не новы – в последнее десятилетие с прогрессом технологий и распространением различных форматов социального взаимодействия проводится всё больше и больше исследований по распознаванию юмора в текстовой форме. Всё же, данная работа предлагает объемный анализ моделей, так же как исследование влияния состязательных атак на классификацию юмора. Насколько известно на
5
настоящий момент, ни одна работа ранее не рассматривала состязательные атаки как способ дополнительного оценивания и анализа моделей распознавания юмора. Это открывает возможность для принципиально новых способов и решений в классификации юмористических текстов.
Основная цель данной работы – исследование моделей распознавания юмора, иначе говоря, их оценка и анализ. В задачи же входят сравнение нескольких подходов в распознавании шуток на разных датасетах, а также анализ влияния состязательных атак на предсказания в зависимости от метода и обучающих данных.
Можно с уверенностью сказать, что в ходе данного исследования были получены весьма интересные результаты – например, среди моделей распознавания юмора самым стабильным вариантом стало глубокое обучение, а наиболее уязвимы модели оказались от состязательной атаки, добавляющей неприличные слова в тестовое множество. Кроме того, были выявлены дополнительные сопутствующие и препятствующие работе моделей факторы, также как подтверждена важность некоторых юмористических свойств.
Структура работы организована следующим образом. Раздел «Обзор литературы» содержит в себе подробное описание источников по распознаванию юмора и по состязательным атакам. Далее в главе «Данные» приведено описание используемых в работе датасетов. В главе «Модели и метрики качества» рассмотрены модели распознавания юмора, приведён как индивидуальный, так
и сравнительный анализ результатов. Наконец, в главах «Состязательные атаки»
и «Применение состязательных атак» описаны исследуемые состязательные атаки и подробно рассмотрено влияние атак на модели распознавания юмора.
После основной части следуют «Заключение», «Библиографический список» и «Приложения».