НЛП с использованием руководств по глубокому обучению: классификатор настроений на основе персептрона (часть 2/4)

Обработка естественного языка — одна из самых сложных областей машинного обучения, в основном из-за сложности и неоднозначности языка. Тем не менее, это также одна из самых успешных областей со многими реальными приложениями, которые мы используем каждый день, такими как поисковые системы, инструменты перевода и многое другое.

Иногда самые сложные задачи решаются простейшими методами. В этой статье я попытаюсь исследовать это утверждение. Итак, я представлю полное решение для Sentiment Analysis на основе простейшей нейронной сети «Персептрон», используя реальную задачу и набор данных: классифицировать, являются ли отзывы о ресторанах на Yelp положительными или отрицательными.

Для этого я разделю эту статью на четыре части следующим образом:

Обзор Yelp DataSet (ссылка)
Словарь и векторизатор (данная статья касается этой части)
Распорядок дня
Оценка и вывод

Заранее благодарим за вашу поддержку. Если вы решите зарегистрироваться на Medium, вот моя страница подписки: https://abdelkader-rhouati.medium.com/membership

Часть 2. Словарь и векторизатор

Каждый текст представляет собой набор слов или символов, которые называются токенами. Итак, первым шагом в конвейере предварительной обработки является сопоставление каждого токена с числовой версией самого себя через переменную словаря Python. Это позволяет использовать текст в качестве входных данных для нейронной сети, основанной на математических уравнениях.

Пополнение словарного запаса

В этом примере мы будем использовать биекцию между токенами и целыми числами, что означает наличие двух переменных словаря. Двумя основными функциями класса Vocabulary являются lookup_tooken() и lookup_index(), для извлечения соответственно индекса для данного токена и токена, соответствующего данному индексу.

Помимо обработки этой биекции, класс Vocabulary позволяет добавлять новый токен, автоматически увеличивая его индекс: функция add_token().

Даже при самом большом корпусе словарный запас всегда ограничен. Вот почему наш словарь должен обрабатывать определенный токен с именем UNK (от неизвестного). с помощью UNK мы обрабатываем новые токены, которых не было в обучающем наборе данных.

Содержание класса словаря:

Векторизация текста

Класс Vectorizer инкапсулирует функции Vocabulary. Таким образом, он предлагает механизм с помощью функции from_dataframe() для создания персонализированного словаря на основе определенного набора данных (как правило, корпус соответствует обучающему набору данных). Эта функция перебирает строки Pandas DataFrame, чтобы, во-первых, подсчитать частоту каждого токена, присутствующего в наборе данных, а во-вторых, создать словарь (список пар токенов и индексов). Одна из хороших практик — ограничить словарный запас, игнорируя менее часто встречающиеся токены. это делается путем определения параметра cutoff.

В дополнение к созданию словаря функция Vectorize() возвращает векторизованное представление введенного текста (= вектор числовых значений). В этой работе мы используем свернутое однократное представление. Это представление создает двоичный вектор, длина которого равна размеру Vocabulary. двоичный вектор имеет 1 в местах, соответствующих Word в тексте. Это имеет ограничения, связанные с порядком слов в тексте, который не обрабатывается, и тем фактом, что токены, появляющиеся несколько раз, учитываются только один раз.

Содержимое класса Vectorizer:

Использование DataLoader для создания мини-пакетов.

Завершающим этапом является группировка векторизованных данных в мини-пакеты. Это жизненно важная часть обучения нейронных сетей. Для этого Pytorch предоставляет встроенный класс DataLoaer ([2] для более подробной информации).

Функция генерации мини-пакетов:

Ссылки:

смотрите также:

Новые материалы

12 сайтов с искусственным интеллектом, которые поразят вас

Приготовьтесь поразить воображение Сегодня существует несколько веб-сайтов, использующих искусственный интеллект (ИИ). От индивидуальных рекомендаций по новостям до более умных поисковых..

Скрытый технический долг в системах машинного обучения [NeurIPS 2015]

Что такое технический долг? Технический долг — это метафора, введенная Уордом Каннингемом в 1992 году, чтобы объяснить долгосрочные затраты, связанные с быстрым продвижением в разработке..

Алгоритм быстрой сортировки в Python

Всем привет, добро пожаловать на programminginpython.com . Здесь я покажу вам, как реализовать алгоритм быстрой сортировки в Python. В предыдущих статьях я рассмотрел Сортировку вставкой ,..

Как использовать манипулирование объектами в JavaScript

Объекты являются важным строительным блоком JavaScript. Они позволяют группировать свойства и методы вместе. Объект представляет собой набор свойств. Свойства идентифицируются с..

Разработка игр с помощью Godot Engine: мощный инструмент с открытым исходным кодом

Разработка игр — творческий и сложный процесс, требующий множества навыков и инструментов. Одним из наиболее важных инструментов является игровой движок, который представляет собой программную..

От XML к аннотациям: переход к современной конфигурации Spring

Введение Фреймворк Spring претерпел значительную эволюцию с момента своего создания. Одним из заметных изменений стал переход от конфигураций на основе XML к конфигурациям, управляемым..

Я люблю Руби!

Я люблю Руби! Мне это нравится по той же причине, по которой мне нравится программировать на Python. Он настолько интуитивно понятен, а встроенные методы упрощают решение проблем. Если вы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Coding Web Development Deep Learning AI React Nodejs Software Engineering Front End Development Java Computer Science Typescript Development Algorithms Data Programming Languages Reactjs Startup NLP ChatGPT React Native Tech HTML Learning Developer Data Visualization Javascript Tips Computer Vision Statistics Open Source CSS Angular Business