Войти в мой кабинет
Регистрация
ГОТОВЫЕ РАБОТЫ / ДИССЕРТАЦИЯ, ИНФОРМАТИКА

Алгоритмы проверки текстового документа на уникальность при представлении в справочную коллекцию

ang_not 700 руб. КУПИТЬ ЭТУ РАБОТУ
Страниц: 108 Заказ написания работы может стоить дешевле
Оригинальность: неизвестно После покупки вы можете повысить уникальность этой работы до 80-100% с помощью сервиса
Размещено: 15.08.2018
В ходе выполнения диссертационного исследования был проведен обзор, существующих на момент написания магистерской диссертации программных систем и сервисов поиска заимствований и плагиата. Выявлены достоинства и недостатки существующих систем проверки. В результате диссертационного исследования был усовершенствован алгоритм поиска заимствований в текстовых документах, разработана и программно реализована автоматизированная система поиска плагиата в научных работах студентов, осуществляющая поиск в сети Интернет, а также по внутренней справочной коллекции, состоящей из ранее сданных работ. При проектировании системы были использованы разработанные и представленные в диссертационной работе методы и алгоритмы, позволяющие проводить анализ и сравнение текстовой информации. При проведении тестовых исследований с использованием работ, взятых из открытых источников, можно сделать вывод об увеличении скорости сравнения текстовых документов.
Введение

Актуальность диссертационного исследования. Развитие информационных технологий сегодня во многом упростило существование человека, и это не могло не отразиться на его работе, ведь появилась возможность с помощью простых алгоритмов и несложных манипуляций решать различные задачи в максимально короткие сроки. В пример можно привести поиск необходимой информации. Достаточно воспользоваться Интернетом, составить корректный запрос для поисковой системы и через несколько секунд уже можно анализировать результаты поиска. Однако в сфере науки и образования появилась и отрицательная сторона: такая простота и доступность получения информации дали возможность недобросовестным студентам, аспирантам, докторантам копировать чужие мысли. Заимствования из научного труда, который является одним из результатов научного исследования, как раз не допустимы, так как ущерб плагиата заключается в том, что заимствующий получает возможность использовать часть научного труда для своих целей, не приложив к этому особых усилий. При этом смысл любого научного труда заключается в элементе научной новизны, а заимствование значительных текстовых и графических фрагментов научной новизны не добавляет. К настоящему времени в мире идет усиление борьбы с неправомерным использованием чужой интеллектуальной собственности. Таким образом, усовершенствование механизмов поиска заимствований в текстовых и научных работах, поиск и оптимизация методов являются актуальными в сфере образования и науки. Не обошла стороной необходимость проверки текстовых документов на уникальность и учебные заведения. Современные студенты имеют неоспоримое преимущество по сравнению с теми, кто учился в высших учебных заведениях несколько десятилетий назад. Сегодня, благодаря развитию информационных технологий и Интернета, у студентов больше нет необходимости проводить длительное время в библиотеках и долго искать нужную литературу. Таким образом, проблема оригинальности текста в настоящее время является проблемой для науки. Во многих университетах проводится работа по внедрению систем антиплагиат, которая предназначена для проверки текстовых документов на наличие заимствований из общедоступных сетевых источников. Степень научной разработанности. В настоящий момент существует большое количество он-лайн сервисов и программ для проверки текстовых документов на уникальность. В научной литературе, а также в сети Интернет проблема поиска заимствований хорошо изучена. Однако на практике студенты находят новые способы обхода систем проверки научных письменных работ для получения высокого процента оригинальности текста. Разработчики подобных систем вынуждены увеличивать справочные коллекции рефератов и научных работ. Уже имеющиеся системы проводят проверку, основываясь на существующих алгоритмах проверки текстовых документов. В связи с тем, что увеличивается количество предложений по повышению процента оригинальности, возникает необходимость усовершенствования алгоритмов поиска заимствований. На основании изученных методов проверки текста необходимо предложить алгоритм поиска плагиата с помощью представления документа в справочную коллекцию. Цель и задачи исследования. Цель магистерской диссертации направлена на усовершенствование существующих методов проверки текстовых документов на уникальность. Результатом исследования является система, отвечающая за проверку письменных работ студентов высших учебных заведений, методом сопоставления документов справочной коллекции. Результатом проверки текста на уникальность будет являться отчет об оригинальности текста с указанием источников заимствований. Кроме того, в высшем учебном заведении будет собрана справочная коллекция, состоящая из научных работ учащихся, с помощью которой будет усовершенствован механизм поиска плагиата. Для поставленной цели требуется решить следующие задачи: – провести обзор методов проверки текстовых документов на уникальность; – разработать метод поиска заимствований в русскоязычных текстах, устойчивый к модификациям при заимствовании; – создать программное средство на основе разработанного метода, обеспечивающее поиск заимствований в текстах с возможностью визуализации заимствованных фрагментов текста в проверяемом документе; – сформировать справочную коллекцию для работы системы; – провести анализ проделанной работы. Научная новизна используемых в работе исследований заключается в следующем: ? предложен усовершенствованный алгоритм проверки текстовых документов на уникальность для повышения качества оценки работы; ? разработано программное обеспечение, применяемое в учебных заведениях, которое позволяет делать вывод об оригинальности предоставленного текстового документа; ? разработана методика выявления процента заимствований, основанного на предоставленной справочной коллекции высшего учебного заведения. Объектом исследования являются методы проверки текстовых документов на уникальности. Предметом исследования являются алгоритмы проверки текстовых документов на уникальность с использованием существующих методов анализа представленного текста. Методы исследования включают проведение вычислительных экспериментов, сравнительного анализа, сравнение результатов с аналогами на рынке. Теоретическая и методологическая основа исследования. Теоретической и методологической основой исследования в магистерской диссертации послужили научные исследования и их результаты, опубликованные в сети Интернет, научной и специальной (профессиональной литературе), а также УК РФ ст. 146 «Нарушение авторских и смежных прав», Постановления Пленума Верховного Суда РФ. Методы и алгоритмы проверки текстовых документов на уникальность изучали ученые и специалисты М. Б. Колясникова, Т. В. Калинина, С.В. Иванова, Т.И. Тимофеева, О.П. Астапова и другие. Проблеме поиска заимствований в текстовых документах посвящены работы Н. Ю. Абрамовой, А.С. Романова, Е.С. Чиркина, Р.В. Шарапова, В. Н. Михайлова, Р. Д. Абрарова и др. Практическая ценность заключается в возможности использовать предложенный алгоритм проверки текстового документа на уникальность на практике. Материалы диссертации целесообразно также использовать для проверки письменных научных работ студентов высшего учебного заведения ФГБОУ ВО МГУТУ имени К.Г.Разумовского. Результаты, выносимые на защиту: – предложен усовершенствованный алгоритм проверки текстовых документов на уникальность; – на основании усовершенствованного алгоритма была разработана система поиска плагиата в работах учащихся, имеющая собственную справочную коллекцию, состоящую из научных работ студентов ФГБОУ ВО МГУТУ имени К.Г.Разумовского; ¬– методика выявления процента заимствований при представлении документа в справочную коллекцию. Апробация результатов отражена в участии в Международной научно-практической конференции студентов и молодых ученых "Инновационный и кластерный подходы в развитии малого и среднего предпринимательства", проходившей 12 мая 2016 года. По результатам данной конференции был получен диплом II степени. Публикации. По теме магистерской диссертации опубликованы 5 научных статей. Список публикаций приведен в конце автореферата. Структура работы. Диссертация состоит из введения, трех глав, заключения, списка использованных источников и приложений. Она изложена на 80 стр. текста, содержит 17 рис. и 3 табл. Библиография включает 41 наименование источников.
Содержание

Введение 6 1 Теоретические и методологические аспекты сферы поиска заимствований в текстовых документах 11 1.1 Предметная область 11 1.2 Понятие плагиата в сфере образования и науки 14 1.3 Сфера деятельности ФГБОУ ВО МГУТУ имени К.Г.Разумовского 20 2 Характеристика задачи в рамках комплексного исследования 26 2.1 Анализ существующих методов поиска заимствований в текстовых документах 26 2.2 Исследование моделей решения проблемы поиска заимствований в текстовых документах 34 2.3 Анализ существующих программных средств и сервисов для решения исследуемой задачи 45 2.4 Анализ методов проверки текстовых документов на уникальность 47 3 Разработка системы поиска заимствований в текстовых документах 51 3.1 Проектирование и реализация системы поиска заимствований 51 3.2 Практическая значимость использования системы поиска заимствований текстовых документов 58 3.3 Экономическое обоснование эффективности предложенных решений. 64 Заключение 75 Список использованных источников 76 ПРИЛОЖЕНИЕ 81
Список литературы

1. Дягилев В. В., Цхай А. А., Бутаков С. В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав // Вестник НГУ. Серия:Информационные технологии. – 2013 (дата обращения: 20.04.2017). 2. Москаленко Е.Н. Понятие уникальности и плагиата / Е.Н. Москаленко, Ю.Н. Слесарев// Молодежь. Наука. Инновации (Youth.Science.Innovation): Труды XIV Международной научно-практической интернет-конференции. ? Пенза: Издательство «Поволжская школа бизнеса», ООО «Консалтинг. Инновационные технологии», 2017. ? С. 224?228 3. Ширяев М.а., Мустакимов В. Plаgiаtinform избавит от плагиата в научных работах // Educаtionаl Technology & Society 11 2011. [Электронный ресурс]. URL: http://cyberleninkа.ru/аrticle/n/problemа-plаgiаtа-v-nаuchnyh-rаbotаh (дата обращения: 05.04.2016) 4. Дягилев В.В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав / В.В. Дягилев, А.А. Цхай, С.В. Бутаков // Вестник НГУ. Сер.: Инфор- мационные технологии. – 2013. – Т. 9, вып. 3. – С. 23–29. 5. Школа жизни.ru // Что такое уникальность текста [Электронный ресурс]. URL: http://shkolazhizni.ru/computers/articles/42238/ (дата обращения: 05.04.2017) 6. Седов А. В., Рогов А. А. Анализ неоднородностей в тексте на основе последовательностей частей речи. // Современные проблемы науки и образования. –2013. –Вып. 1 (дата обращения: 25.04.2016). 7. Проблема плагиата и цитирования в студенческих работах [Электронный ресурс]. URL: http://www.edu-all.ru/vse-ob-obrazovanii/problema-plagiata-i-citirovaniya-v-studencheskix-rabotax.asp (дата обращения: 20.04.2017) 8. Шарапов Р. В., Шарапова Е. В. Система проверки текстов на заимствования из других источников (рус.) // Всероссийская научная конференция Электронные библиотеки: Перспективные методы и технологии, электронные коллекции. – 2011. (дата обращения: 20.04.2017). 9. Плагиат в науке [Электронный ресурс]. URL: http://www.publications/social_obozr_032014_sz.htm (дата обращения: 20.04.2017). 10. Крутояров Д.В. О выборе метода анализа текстовой информации // Проблемы полиграфии и издательского дела. 2013 №3. - с. 175 11. Сайт МГУТУ (ПФ) [Электронный ресурс]. URL: http://mgutupenza.ru/ (дата обращения: 21.04.2017). 12. Программа самообследования МГУТУ (ПФ) [Электронный ресурс]. URL: http://mgutupenza.ru/ (дата обращения: 21.04.2017). 13. Шарапов Р. В., Шарапова Е. В. Система проверки текстов на заимствования из других источников (рус.) // Всероссийская научная конференция Электронные библиотеки: Перспективные методы и технологии. – 2014. 14. Москаленко Е.Н., Слесарев Ю.Н. Методы проверки текстовых документов на уникальность // Современные научные исследования и инновации. 2016. № 6 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2016/06/69137 (дата обращения: 22.05.2017) 15. Шарапов Р. В., Шарапова Е. В. Система проверки текстов на заимствования из других источников // Всероссийская научная конференция Электронные библиотеки: Перспективные методы и технологии, электронные коллекции.– 2013. [Электронный ресурс] URL: http://cyberleninkа.ru/аrticle/n/issledovаnie-vozmozhnostey-sistemy-аntiplаgiаt-dlyа-obnаruzheniyа-zаimstvovаniy (дата обращения: 01.04.2016) 16. SearchInform Плагиат-Информ – система для определения плагиата в документах [Электронный ресурс]. –URL: http://www.searchinform.ru/main/full-text-searchplagiarism-search-plagiatinform.html (дата обращения: 11.04.2017) 17. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2012: сб. работ участников конкурса – Переславль-Залесский, 2012. [Электронный ресурс]. URL: http://cyberleninkа.ru/аrticle/n/metody-poiskа-dublikаtov-skomponovаnnyh-tekstov-nаuchnoy-stilistiki (дата обращения: 04.04.2017) 18. Неелова Н.В., Сычугов А. А. Сравнение результатов детектирования дублей методом шинглов и методом Джаккарда // Вестник РГРТУ. № 4 (выпуск 34). Рязань, 2012. [Электронный ресурс] URL: http://www.top-technologies.ru/ru/аrticle/view?id=26836 (дата обращения: 01.04.2017) 19. Романов А.С. Модификация метода накопительных сумм для проверки однородности текста и выявления плагиата // Электронные средства и системы управления: матер. докл. IX Междунар. науч.-практ. конф. (30–31 октября 2013 г.): в 2 ч. – Ч. 2. – Томск: В-Спектр, 2013. – С. 30–38. 20. Романов А.С. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста / А.С. Романов, А.А. Ше- лупанов, Р.В. Мещеряков. – Томск: В-Спектр, 2011. – 188 с. 21. Седов А.В. Анализ неоднородностей в тексте на основе последовательностей частей речи / А.В. Седов, А.А. Рогов // Современные проблемы науки и образования. – 2013. – № 1. – [Электронный ресурс]. URL: www.science-education.ru/107-8339 (дата обращения: 25.04.2017) 22. Воронцов К.В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Матема- тические вопросы кибернетики. – М.: Физматлит, 2004. – T. 13. – С. 5–36. 9. Mechti S. A framework for plagiarism detection based on author profil 23. Бах А.О. Разработка эффективных алгоритмов поиска слов в текстах для построения методов сжатия данных. Диссертационная работа к.т.н.:05.13.13, Новосибирск 2014. – 214 с. 24. Гасов В.М., Крутояров Д.В. Метод сравнения текстовых документов, позволяющий выявлять совпадающие фрагменты // Проблемы полиграфии и издательского дела. 2013 №4 - с. 92-104 25. Виноградов В.В. Проблемы авторства и теории стилей. М., 2011. – 263 с. 26. Сидоров Ю.В. Математическая и информационная поддержка методов обработки текстов на основе формально-грамматических параметров. Диссертационная работа к.т.н.: 05.13.18 Петрозаводск -2002. -127 с. 27. Уникальность текста [Электронный ресурс]. URL: http://contentmonster.ru/unikalnost-textov (дата обращения: 25.04.2017) 28. Алгоритмы проверки текста [Электронный ресурс]. URL: http://antiplagiatu.net/news/poslednie-tendentsii-i-algoritmy-proverki-tekstovykh-rabot-na-sajte-antiplagiat-ru (дата обращения: 20.04.2017) 29. Сайт программы Advego Plagiatus [Электронный ресурс]. URL: http://advego.ru/plagiatus/ (дата обращения: 20.03.2017) 30. Сайт программы Антиплагиат [Электронный ресурс]. URL: https://www.antiplagiat.ru/(дата обращения: 20.03.2017)
Отрывок из работы

1 Теоретические и методологические аспекты сферы поиска заимствований в текстовых документах 1.1 Предметная область В настоящее время во многих предметных областях существует потребность в формировании больших текстовых коллекций. При этом производится сбор текстовой информации из открытых источников сети Интернет, а также специализированных ресурсов. Основной областью использования создаваемых таким образом хранилищ документов является интеллектуальная обработка текстов. С ростом количества разнообразных источников данных в сети Интернет, таких как новостные сайты, блоги, социальные сети, все более серьезной проблемой становится дублирование информации. Сообщения, которые публикуются одним источником, зачастую многократно перепечатываются другими либо в исходном виде, либо с небольшими изменениями. В результате, при выполнении автоматического сбора документов из многочисленных источников в формируемой текстовой коллекции накапливаются идентичные или близкие по содержанию документы [1]. Для начала необходимо пояснить термины, в сфере методов проверки текстовых документов на уникальность. Уникальность текста представляет собой выраженную в процентах величину, которая определяется поисковыми системами при помощи специально разработанных алгоритмов. Алгоритмов и методов проверки текстовых документов на уникальность разработано достаточно много. Все это необходимо для того, чтобы исключить дублирование информации [2].
Не смогли найти подходящую работу?
Вы можете заказать учебную работу от 100 рублей у наших авторов.
Оформите заказ и авторы начнут откликаться уже через 5 мин!
Похожие работы
Служба поддержки сервиса
+7(499)346-70-08
Принимаем к оплате
Способы оплаты
© «Препод24»

Все права защищены

Разработка движка сайта

/slider/1.jpg /slider/2.jpg /slider/3.jpg /slider/4.jpg /slider/5.jpg