Войти в мой кабинет
Регистрация
ГОТОВЫЕ РАБОТЫ / ДИПЛОМНАЯ РАБОТА, ПСИХОЛОГИЯ

Алгоритм классификации текста по эмоциональной окраске.

irina_krut2020 1025 руб. КУПИТЬ ЭТУ РАБОТУ
Страниц: 41 Заказ написания работы может стоить дешевле
Оригинальность: неизвестно После покупки вы можете повысить уникальность этой работы до 80-100% с помощью сервиса
Размещено: 07.05.2020
В данной работе основной целью является разработка алгоритма, который в соотвествии с эмоциональной окраской данного мнения или набора мнений, имеющих отношение к конкретному объекту, определяет отношениие людей к продукту. Для решения поставленной цели требуется решить следующие задачи: • анализ существующих методов классификации текста по эмоциональной окраске, • подготовка набора данных, • построение модели семантического разбиения • оптимизация модели • проектирование модели алгоритма, • реализация алгоритма, • оценка реализации. В данной работе рассматривается наивный байесовский классификатор с использованием нейронных сетей, онтологий и структуризации слов при помощи гра, который работает с условными вероятностями, наивно предполагая, что слова в предложении независимы. Этот простой классификатор хорошо показывает себя в решении задачи классификации текстов. ?
Введение

С недавних пор стена между поздателями и потребителями информации была полностью разрушена: вместо статических сайтов все пользователи смогли публиковать свою информацию в абсолютно любой форме. В данный момент мы имеем возможность наблюдать за огромными потоками информации: будь то небольшая заметка в блоге или каком-либо форуме, фото или видео, отзыв в Интернет-магазине, “статус” в социальной сети или многое-многое другое. Максимальная простота и доступность инструментов для размещения информации стала причиной для создания всевозможных сайтов, собирающих и интегрирующих в себе мнения пользователей, например, о фильмах, книгах, товарах, такие как: Amazon, Яндекс.Маркет, Oz.by, Kinogo.by и подобные. Перед тем, как купить какой-либо товар, человек всегда читает десятки, а то и сотни мнений в сети Интернет, чтобы определить действительно ли товар обладает заявленными качествами и подходит ли он ему, и только после этого что-то приобретает. В течение времени отзывов становится настолько много, что прочитать их человеку стало просто не под силу. Именно благодаря этой проблеме возникла задача анализа мнений: появилась необходимость в системе для самостоятельного поиска, классификации и представления отзывов.
Содержание

ВВЕДЕНИЕ 6 Глава 1. Современное состояние методов оценки эмоциональной окраски текстов 8 1.1 Причины оценки текста 8 1.2 Особенности и проблемы оценки 8 1.3 Использование распознавания эмоций 11 1.4 Особенности семантического анализа текста 12 1.5 Методы обучения без учителя для задачи анализа мнений 13 1.6 Связанные идеи оптимизации алгоритма. 20 Глава 2. Модель классификатора семантического анализа текста 24 2.1 Наивный байесовский классификатор 24 2.1.1. Описание классификатора 24 2.1.2. Обучение и предсказание 25 2.1.3. Проблемы подхода 26 2.2. Оптимизация модели 28 2.2.1. Переход к байесовскому подходу 28 2.2.2. Использование n-грамм для измерения признаков 31 Глава 3. Реализация метода семантического анализа текста 33 3.1. Онтологии для замены неизвестных слов 33 3.2. Подготовка данных для предсказывания и обучения 34 3.3 Количественная оценка метода семантического анализа текста 36 ЗАКЛЮЧЕНИЕ 40 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 41
Список литературы

1. Porter M.F. Snowball: A language for stemming algorithms. / M.F. Porter —2001. 2. Church K. Parsing, Word Associations and Typical Predicate-argument Relations / K. Church // Proceedings of the Workshop on Speech and Natural Language. - 1989. — p. 75—81. 3. Murphy K.P. Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series) / K.P. Murphy // The MIT Press. —2012. 4. Manning C.D. Foundations of statistical natural language processing / C.D. Manning, H. Schutze // MIT press. — 1999. 5. Celikyilmaz A. Probabilistic model-based sentiment analysis of twitter messages / A. Celikyilmaz // Spoken Languge Technology Workshop. —2010. — р. 79—84. 6. Tong S. Support vector machine active learning with applications to text classification / S. Tong, D. Koller // The Journal of Machine Learning Research 2. — 2002. — р. 45—66. 7. Nigam K. Using maximum entropy for text classification / K. Nigam, J. Lafferty, A. McCallum // IJCAI99 workshop on machine learning for information filtering. — 1999. — р. 61—67. 8. Go, A. [Review] Twitter sentiment classification using distant supervision / A. Go, R. Bhayani, L. Huang // CS224N Project Report, Stanford. —2009. — р. 1—12. 9. Qadir A. Bootstrapped Learning of Emotion Hashtags# hashtags4you / A. Qadir, E. Riloff // WASSA. —2013.— р. 2. 10. Colace F. A Probabilistic Approach to Tweets’ Sentiment Classification / F. Colace, M. De Santo, L. Greco // Humaine Association Conference on Affective Computing and Intelligent Interaction — 2013. — р. 37—42. 11. Kontopoulo E. Ontology-based sentiment analysis of twitter posts / E. Kontopoulo // Expert Systems with Applications — 2013. — р. 4065—4074. 12. Turney P.D. Thumbs up or thumbs down: semantic orientation applied to unsupervised classification of reviews / P.D. Turney // Proceedings of the 40th annual meeting on association for computational linguistics / Association for Computational Linguistics. 2002. — р. 417—424. 13. Field D.A. Laplacian smoothing and Delaunay triangulations / D.A. Field and others // Communications in applied numerical methods. —1988. — р. 709—712. 14. Lehman J. DBpedia — A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia / J. Lehman // Semantic Web Journal. — 2014. 15. Bird S. NLTK: the natural language toolkit / S. Bird // Proceedings of the COLING/ACL on Interactive presentation sessions. — 2006. — р. 69— 72. 16. Saif H. Semantic sentiment analysis of twitter / H. Saif, Y. He, H. Alani // The 11th International Semantic Web Conference. — 2012.
Отрывок из работы

Глава 1. Современное состояние методов оценки эмоциональной окраски текстов 1.1 Причины оценки текста Анализ мнений — одно из направлений области обработки текстов на естественных языках. Эмоциональную окраску текста можно определить как вычислительное выявление субъективности в текстах и отношения авторов этих текстов к некоторым объектам. Решение этой задачи позволяет делать много интересного, например, выделять положительные и отрицательные эмоции в тексте, определять тональность текста. Что в последствии поможет решать многие системы, отвечающие на естественно-языковые вопросы (классификация типа вопроса), так же эта информация поможет сегментировать веб-страницы на смысловые блоки и многое другое, помочь людям за считанные секудны обработать десятки тысяч, сотни тысяч, а то и миллионы текстов и составить о них объективную оценку. Объективная оценка — это оценка, базирующаяся на свойствах самого рассматриваемого объекта. А субъективная — это которая задействует в том числе и субъекта (того, кто рассматривает). 1.2 Особенности и проблемы оценки Изначально в качестве исследуемых данных использовались большие записи, состоящие из нескольких предложений, в которых явно прослеживались связь и контекст. Позже, с развитием социальных сетей, с появлением в них комментариев, «статусов» и коротких сообщений, пользовательский контент становился все менее ёмким и, при этом, более субъективным и превратился в бесконечный поток поступающей информации. Ярким примером этому является сервис микроблогов Twitter. С помощью этого сервиса пользователи распространяют свои взгляды на актуальные новости, связанные с разными интересными другим людям областями, такими как политика, экономика, бизнес и другие, рассказывают о купленных товарах, а также публикуют личную информацию, например, что они сейчас делают и в каком настроении находятся. Классификация отдельных предложений значительно сложнее классификации больших блоков текста — в одном предложении значительно меньше полезных признаков, и велико влияние порядка слов. Например: «как положено фильму ужасов, этот фильм был ну очень жутким» — содержит негативные слова («ужас», «жуткий»), но выражает положительное мнение о фильме, «все было ужасно красиво», или даже «отличный фильм, ничего не скажешь, только зря деньги потратили». Все это ставит большой вопрос, каким образом можно анализировать в автоматическом режиме большие объемы данных и позже использовать полученные данные. Рассмотрим один из перспективных текстовых процессоров на базе Paraphraser.ru. Разработчики сервиса утверждают, что Сервис идеален для анализа диалогов с клиентами (логов общения) внутренней базы знаний. Входящих текстовых запросов. Результатов парсинга: соцсетей, прессы и тд. Текстов для чат-ботов. Сервис представлен в виде нескольких модулей, которые способны обрабатывать большие массивы текстов. Анализ текста в модулях реализован статистическими методами с использованием нейронных сетей. Сравнение 2-х методов обработки текстов можно представить вот таким образом: Статистические методы: Плюсы: • Быстрый и простой метод , • Прозрачность и интерпретируемость результатов. Минусы: • Необходимость ручной настройки параметров, пороговых значений, • Менее качественный результат. Машинное обучение: Плюсы: • Более высокое качество результата, • Не требуется ручная настройка. Минусы: • Нужны размеченные и обучающие данные, • Более трудозатратый метод, • Чёрный ящик (непрозрачность результатов). При этом полученные результаты можно разделить по таким видам: Результаты семантического анализа текстов : 1. Кластеризация вопросов и ответов: a. Выделение ключевых слов и синонимов, b. Выделение одинаковых по смыслу словосочетаний, c. Выделение однотипных вопросов, d. Выделение однотипных ответов. e. Выделение частотных ключевых слов и синонимов, f. Выделение смысловых сочетаний ключевых слов с другими словами, g. Расчет корреляции (морфологической, семантической, векторной) между с ловами и словосочетаниями. 2. Определение понятий и смысла в вопросах и ответах: a. Выделение понятий с разными уровнями обобщения (центроиды), b. Расчет корреляционной связи между понятиями в вопросе и понятиями в ответе, c. Построение семантического ряда смыслов d. Расчет кратчайшего пути от вопроса к ответу, корреляция вопросов и уточнений в диалоге и последним или последней группой ответов. 3. Классификация вопросов и ответов. a. Определение сущностей, определение субъекта, объекта и предмета. 4. Статистический анализ текста: a. Количество синонимов, семантическое ядро, частотность ключевых слов. 5. Автореферирование текста. 6. Определение пропущенных частей речи. 7. Построение карт смыслов. 8. Классификация текстов исходя из данных WikiPedia. 9.Перефразирование текста. 10. Определение тональности текста. 1.3 Использование распознавания эмоций По поисковому запросу получается огромное количество коротких текстов на определённую тему, носящих, в основном, субъективный характер и не помещающихся вместе в голове обычного человека. Приведем пример жизнедеятельности программного обеспечения на примере: пусть какая-нибудь компания выпустила обновление уже существующего приложения или создала новое и опубликовала новость об этом на каком-нибудь веб-ресурсе, сайте или в социальной сети(Твиттер, Вконтакте, Фейсбук и пр.). Читатели этого ресурса видят сообщение о выходе продукта и могут либо переслать его своим подписчикам или друзьям, либо прокомментировать и показать этим свое отношение к событию. На всех этапах распространения информации о продукте компании важно отношение целевой аудитории к продукту, то есть какой эмоциональные оттеноки имеют сообщения. Но случается, что люди выражают свое мнение о продукте независимо от публикации компании или ее представителей. Именно для этой ситуации необходимо использовать семантический анализ не только определенной записи или сообщений к нему, а среди всех текстов, имеющих отношение к объекту. Такая же задача встаёт, когда речь идёт об объектах из других областей: всё те же политика, экономика, события в обществе и прочее. Для достижения этой цели можно сформулировать следующие шаги: • проанализировать особенности задачи для коротких предложений и отзывов; • сравнить базовые методы обучения с учителем для данных из микроблогов и выбрать лучший по параметрам точности, полноты результатов и времени обучения; • предложить, обосновать и реализовать новый метод на основе выбранного; • оценить результаты работы нового метода 1.4 Особенности семантического анализа текста Задача анализа эмоциональной окраски текстов сводится к задаче классификации. В нашем случае имеется набор текстов, каждый из которых нужно отнести к одной из трёх категорий: положительные, нейтральные или отрицательные. Иногда классификация происходит в два этапа и на обоих этапах является бинарной. На первом отделяются субъективные сообщения от объективных. Объективными в этом случае называются как раз те, которые не несут эмоциональной окраски и являются нейтральными в варианте с тремя классами. Второй этап делит субъективные тексты на положительные и отрицательные. В случае с отзывами пользователей, где почти все сообщения субъективны, а критерии нейтральности можно сформулировать только в смысле «не положительное» и «не отрицательное», будем для простоты рассматривать разделение на два класса. Вычислительно поставленная задача решается при помощи техник машинного обучения. Задача анализа мнений активно рассматривалась в 2002 году и тогда были проанализированы стандартные решения методом обучения без учителя и методом обучения с учителем. В обеих статьях исследовались отзывы на специализированном ресурсе: хотелось выяснить, рекомендует или нет пользователь, оставивший отзыв, то, о чём он написал. 1.5 Методы обучения без учителя для задачи анализа мнений Обучения без учителя для классификации отзывов. В статье [1] автор предлагает алгоритм обучения без учителя для классификации отзывов на две категории: «рекомендует» и «не рекомендует». Алгоритм состоит из трёх этапов. 1. Поиск словосочетаний с прилагательными или наречиями. Для дальнейшей работы алгоритма нужны будут фразы, где одно из слов — прилагательное или наречие, а другое указывает на контекст. Если говорить про английский язык, то обычно для поиска второго слова достаточно взять соседнее. 2.Определение семантической ориентации словосочетания: положительное или отрицательное. На этом этапе используется PMM-IR алгоритм для выявления семантических ассоциаций [2]. При помощи этого алгоритма автор определяет схожесть словосочетания (?) с «excelent» и с «poor» и вычисляет его семантическую ориентацию (SO) по формуле SO(???????????) = PMI(???????????, «excelent») ? PMI(???????????, «poor») (1) где функция PMI(x,y) как раз определяет, есть ли семантическая ассоциация между x и y. Для уточнения этой формулы автор вводит отношение NEAR и функцию hits(x NEAR y) на основе PMI(x,y), которая показывает, попадает ли x в класс близких по смыслу к y и считает семантическую ориентацию по новой формуле: SO(?) = log hits( ? NEAR «excelent») hits(«poor») (2) 3. Определение семантической ориентации отзыва. Здесь считается средняя семантическая ориентация по всем словосочетаниям, найденным в отзыве, и определяется метка: «рекомендует», если среднее получилось положительным, и «не рекомендует», если оно получилось отрицательным. В результате алгоритм показывает точность около 80% на отзывах, состоящих из нескольких предложений, то есть представляющих собой полноценный текст. Сложность этого подхода в том, что для работы второго этапа необходим корпус, собранный лингвистами вручную, то есть появляется безусловный человеческий фактор. Особенности данных: опечатки, зачастую отсутствие контекста, пролонгирование гласных и прочее – обязывают постоянно расширять словари для определения семантической ориентации, а раз это делает человек, то либо это невозможно, либо составление такой или подобной базы нужно автоматизировать. Методы обучения с учителем для задачи анализа мнений. Общая формулировка. Методы обучения с учителем предсказывают, к какому классу относится объект, на основании уже размеченного набора данных, который также называется тренировочным. Каждый метод такого вида должен уметь делать две вещи: обучаться на тренировочных данных и делать предсказание для новых. Слово «обучиться» здесь означает «построить функцию, которая для примеров из тренировочного набора сделает разметку, максимально близкую к действительной». Другими словами, классификацию нужно смоделировать. В статье [1] авторы рассматривают три таких подхода: метод опорных векторов, наивный байесовский классификатор и метод мультиномиальной регрессии. На каждом из них сперва остановимся подробнее, а затем сравним их на данных из подготовленных данных. Наивный байесовский классификатор. Наивный байесовский классификатор [3] работает жс условными вероятностями, наивно предполагая, что слова в предложении независимы. Этот простой классификатор хорошо показывает себя в решении задачи классификации текстов [4]. Сперва необходимо выбрать закон, по которому, как предполагается, распределены данные [5]. Затем по размеченным примерам вычисляются параметры этого распределения, которые в дальнейшем используются для разметки. Предположим, что данные распределены по закону Бернулли (плотность распределения: ??(??|??) = ????(1 ? ??)(1???),где ? {0, 1} — наблюдение, ?? ? [0, 1] — параметр. ). В таком случае класс с?, к которому относится неизвестное сообщение, вычисляется по формуле: Классификация методом опорных векторов. Метод опорных векторов (SVM) [6] работает по принципу разделения пространства на подпространства, соответствующие классам. Здесь тоже выбираются признаки, по которым измеряются примеры и согласно измерениям преобразуются в числовые векторы. Дальше работа идёт уже с этими векторами и пространством, в котором они располагаются. На этапе обучения задача метода — преобразовать пространство при помощи оператора ядра так, чтобы нашлись такие гиперплоскости, которые разделяют примеры из разных классов обу- чающей выборки. Предсказание делается согласно тому, в какую часть пространства относительно найденных гиперплоскостей попадает вектор, соответствующий новому примеру. Иллюстрация разделения на два класса при помощи линейного ядра изображена на рисунке 1. Здесь показано, как строится равноудалённая от обоих множеств гиперплоскость и как новый вектор попадает в одно из них в зависимости от расположения относительно этой гиперплоскости. Рисунок 1 - Двоичная классификация SVM с линейным оператором ядра. ???????????? — расстояние от гиперплоскости до каждого из классов. ?? — вектор нового примера, для которого делается предсказание. Метод максимальной энтропии. Следующей рассмотрим классификацию при помощи метода максимальной энтропии [7]. В случае с разбиением на два класса это использование логистической регрессии для поиска распределения данных по классам. В отличие от наивного байесовского классификатора этот метод не предполагает независимости признаков. Это значит, что можно использовать для предсказания признаки разной природы, например, измерять n–граммы и словосочетания в сообщении одновременно. Суть этого метода в том, что надо выбрать самую подходящую модель, удовлетворяющую всем естественным ограничениям. Модель описывается формулой: Здесь с — метка класса, t — рассматриваемое сообщение, ????(??, ??) — совместная представленность i-ого признака в классе с и в примере t, N — количество признаков, ?? — вектор весов для всех признаков: чем больше вес, тем больше значимость этого признака для классификатора. На этапе обучения при помощи методов оптимизации вычисляется именно вектор весов признаков. При предсказании класса для нового примера снова нужно найти такое c? из множества меток, что рассматриваемая величина ?? (??|??, ??) будет максимальной. Сравнение работы методов на собранных данных. Сравнение проводится на данных, собранных из Твиттера в 2009 году [8] и расширенных собранными из Твиттера самостоятельно. Здесь мы берём текст в сыром виде, без дополнительной обработки, и передаём алгоритму. В таблицах 1, 2 и 3 представлены результаты работы наивного байесовского классификатора, классификатора на основе метода опорных векторов и классификатора по принципу максимальной энтропии соответственно. Алгоритмы обучались на 1 000 000 размеченных примеров и предсказывали результаты для 386 новых. Чтобы оценить качество классификации, обычно используют F1?score гармоническое среднее двух других: ?????????????????? (точность) и ???????????? (полнота). На языке вероятностей можно определить эти величины следующим образом: ?????????????????? — это вероятность того, что случайно выбранный твит попал в тот класс, которому он принадлежит на самом деле; ???????????? — это вероятность того, что случайно выбранный твит из класса при классификации в него и попадёт. Покажем, что значат эти величины более формально. Пусть зафиксирован класс и есть множество всех классифицируемых твитов ??, которое делится на два множества: • ???? — те, что на самом деле относятся к классу ??, и ?? ? ???? — те, у которых должны стоять другие метки. По результатам эксперимента определяются следующие величины: • ?? ?? — количество твитов из ??, которым алгоритм поставил метку ??; • ?? ?? — количество твитов из ???????, которым алгоритм поставил метку не ??; • ?? ?? — количество твитов из ????, которым алгоритм поставил метку не ??. Для проверки работы методов используются реализации из библиотеки Scikit-learn [9] для языка Python. Для наивного байесовского классификатора предполагается, что данные распределены по закону Бернулли. В качестве характеристик берутся все слова, встретившиеся в обучающей выборке, и каждый твит преобразуется в вектор из целых чисел, где на месте i-ого слова ставится 0, если слово встретилось в сообщении, и 1, если нет. Таблица 1 - Классификация наивным байесовским классификатором. Время обучения — 1 секунда. Метка класса Precision Recall F1-score Количество -1.0 0.82 0.75 0.78 204 1.0 0.74 0.82 0.78 182 avg / total 0.79 0.78 0.78 386 Таблица 2 - Классификация методом опорных векторов. Время обучения — 750 секунд. Метка класса Precision Recall F1-score Количество -1.0 0.86 0.73 0.79 204 1.0 0.74 0.87 0.80 182 avg / total 0.80 0.80 0.79 386 Таблица 3 - Классификация методом максимальной энтропии. Время обучения — 437 секунд. Метка класса Precision Recall F1-score Количество -1.0 0.87 0.71 0.78 204 1.0 0.73 0.88 0.80 182 avg / total 0.80 0.79 0.79 386 Как уже было сказано, всего в тестовой выборке было 386 сообщений, из которых 182 были помечены «+», а 204 — «?». Из таблиц 1, 2 и 3 видно, что все методы показали примерно одинаковую точность и полноту работы, но время обучения при этом у наивного байесовского классификатора отличается на порядок от двух других. Для постановки задачи, когда предсказание делается для данных из микроблогов, время обучения при равных показателях F1?score является решающим, так как меняются темы, о которых пишут в Интернете, а значит меняются лексика и способы выражения отношения к ним — классификатору нужно подстраиваться под эти обстоятельства, постоянно переобучаясь. Как итог сравнения за основу для улучшения стоит взять наивный байесовский классификатор. Стоит сказать, что для моделирования данных можно было без дополнительных усилий выбрать и закон мультиномиального распределения13. В случае с твитами это означает, что в векторе, в который этот твит переводится, каждому слову из обучающей выборки опоставляется количество раз, которое оно встретилось в сообщении. Когда тексты короткие, в случае с мультиномиальной моделью векторы получаются почти всегда из 0 и 1, поэтому отдельно его можно и не рассматривать. 1.6 Связанные идеи оптимизации алгоритма. Анализ графов слов. Идея, предложенная в статье [10], основывается на построении графа для получения информации о классах. Для положительных и отрицательных слов строятся два графа соответственно. Их структуры восстанавливаются из обучающей выборки. Для присваивания метки новому примеру предлагается использовать ещё и словарь синонимов: вероятность слова оказаться в классе учитывает количество попаданий его самого и всех его синонимов в этот класс. Использование онтологий. В статье [11] предлагается для каждой конкретной темы строить онтологии (схемы областей знаний), которые уточняют запросы, сужая все найденные в поиске твиты до тех, в которых действительно говорится об этом объекте. Тема запроса заменяется на пару «корень онтологии» и «свойство», например, если исходный запрос — «смартфон», то это и есть тема онтологии, а свойствами могут быть «android», «iphone» и «батарейка». В этом случае вместо одной попытки поиска будет уже три, но с более релевантной выдачей: «смартфон android», «смартфон iphone» и «смартфон батарейка». При помощи коммерческой программы с закрытым исходным кодом OpenDover авторами статьи производится дальнейший анализ окраски полученных результатов выдачи. Создатели статьи [12] предлагают использовать онтологии в момент подготовки найденных данных к разметке. Авторы предлагают три варианта: ставить категорию с предыдущего уровня рядом со словом в сообщении, для которого эта категории найдена; заменять слово на более общую категорию; рассматривать в примерах распределение слов как условное распределение от категорий. Статья описывает последний способ применения онтологий. Вероятность попадания примера в класс считается следующим образом: учитываются не только распределения слов, но и дополнительные признаки. Точнее, от величин дополнительных признаков зависит распределение слов в сообщении. Предложенный метод является уточнением наивного байесовского классификатора при помощи онтологий. Использование нейронных сетей. Нейронные сети используются для решения сложных задач, которые требуют аналитических вычислений подобных тем, что делает человеческий мозг. Нейронная сеть — это последовательность нейронов, соединенных между собой синапсами. Структура нейронной сети пришла в мир программирования прямиком из биологии. Благодаря такой структуре, машина обретает способность анализировать и даже запоминать различную информацию. Нейронные сети также способны не только анализировать входящую информацию, но и воспроизводить ее из своей памяти.Самыми распространенными применениями нейронных сетей является: Классификация — распределение данных по параметрам. Например, на вход дается набор людей и нужно решить, кому из них давать кредит, а кому нет. Эту работу может сделать нейронная сеть, анализируя такую информацию как: возраст, платежеспособность, кредитная история и тд. Предсказание — возможность предсказывать следующий шаг. Например, рост или падение акций, основываясь на ситуации на фондовом рынке. Распознавание — в настоящее время, самое широкое применение нейронных сетей. Используется в Google, когда вы ищете фото или в камерах телефонов, когда оно определяет положение вашего лица и выделяет его и многое другое. Основной вычислительной еденицей сети является нейрон, который получает информацию, производит над ней простые вычисления и передает ее дальше. Они делятся на три основных типа: входной (синий), скрытый (красный) и выходной (зеленый). Также есть нейрон смещения и контекстный нейрон о которых мы поговорим в следующей статье. В том случае, когда нейросеть состоит из большого количества нейронов, вводят термин слоя. Соответственно, есть входной слой, который получает информацию, n скрытых слоев (обычно их не больше 3), которые ее обрабатывают и выходной слой, который выводит результат. У каждого из нейронов есть 2 основных параметра: входные данные (input data) и выходные данные (output data). В случае входного нейрона: input=output. В остальных, в поле input попадает суммарная информация всех нейронов с предыдущего слоя, после чего, она нормализуется, с помощью функции активации (пока что просто представим ее f(x)) и попадает в поле output. Нейроны оперируют числами в диапазоне [0,1] или [-1,1Для обработки чисел, выходящих из данного диапазона следует разделить 1 на это число. Этот процесс называется нормализацией, и он очень часто используется в нейронных сетях. Взаимодействие между нейронами происходит при помощи синапса. Синапс - это связь между двумя нейронами. У синапсов есть 1 параметр — вес. Благодаря ему, входная информация изменяется, когда передается от одного нейрона к другому. Допустим, есть 3 нейрона, которые передают информацию следующему. Тогда у нас есть 3 веса, соответствующие каждому из этих нейронов. У того нейрона, у которого вес будет больше, та информация и будет доминирующей в следующем нейроне (пример — смешение цветов). На самом деле, совокупность весов нейронной сети или матрица весов — это своеобразный мозг всей системы. Именно благодаря этим весам, входная информация обрабатывается и превращается в результат.
Не смогли найти подходящую работу?
Вы можете заказать учебную работу от 100 рублей у наших авторов.
Оформите заказ и авторы начнут откликаться уже через 5 мин!
Похожие работы
Дипломная работа, Психология, 83 страницы
2075 руб.
Служба поддержки сервиса
+7(499)346-70-08
Принимаем к оплате
Способы оплаты
© «Препод24»

Все права защищены

Разработка движка сайта

/slider/1.jpg /slider/2.jpg /slider/3.jpg /slider/4.jpg /slider/5.jpg