Навчання моделей штучного інтелекту (ШІ) вимагає великих обсягів даних,
які використовуються для тренування, валідації та тестування моделей.
Залежно від задачі (класифікація, регресія, генерація тексту, обробка зображень тощо)
використовуються різні типи датасетів.
Нижче наведено докладний огляд популярних
ресурсів і датасетів для навчання моделей ШІ.
1. Датасети для комп'ютерного зору (Computer Vision)
Комп'ютерний зір — це галузь ШІ, яка займається обробкою та аналізом зображень і відео.
Популярні датасети:
ImageNet
Один із найвідоміших датасетів для задач класифікації зображень.
Містить понад 14 мільйонів зображень, розділених на 20 тисяч категорій.
Використовується для навчання моделей, таких як ResNet, EfficientNet та інших.
Сайт ImageNet
COCO (Common Objects in Context)
Датасет для задач детекції об'єктів, сегментації та підписів до зображень.
Містить понад 200 тисяч зображень з 80 категоріями об'єктів.
Сайт COCO
MNIST
Датасет рукописних цифр (0-9).
Використовується для навчання моделей класифікації.
Містить 60 тисяч тренувальних та 10 тисяч тестових зображень.
Сайт MNIST
CIFAR-10 і CIFAR-100
Датасети для класифікації зображень.
CIFAR-10 містить 60 тисяч зображень 10 класів, CIFAR-100 — 100 класів.
Сайт CIFAR
Pascal VOC
Датасет для задач детекції та сегментації об'єктів.
Містить 20 класів об'єктів.
Сайт Pascal VOC
2. Датасети для обробки природної мови (NLP)
NLP (Natural Language Processing) — це галузь ШІ, яка займається обробкою та аналізом тексту.
Популярні датасети:
GLUE (General Language Understanding Evaluation)
Набір датасетів для оцінки моделей NLP.
Включає задачі класифікації тексту, аналізу тональності, парсингу та інші.
Сайт GLUE
SQuAD (Stanford Question Answering Dataset)
Датасет для задач питань та відповідей.
Містить понад 100 тисяч пар питань та відповідей на основі статей із Вікіпедії.
Сайт SQuAD
WikiText
Датасет для мовного моделювання на основі статей із Вікіпедії.
Використовується для навчання моделей, таких як GPT.
Сайт WikiText
IMDb Movie Reviews
Датасет для аналізу тональності тексту.
Містить 50 тисяч відгуків на фільми з мітками "позитивний" та "негативний".
Сайт IMDb
OpenWebText
Аналог датасету WebText, який використовувався для навчання GPT-2.
Містить тексти, зібрані з публічних веб-сторінок.
Сайт OpenWebText
3. Датасети для обробки аудіо
Аудіо-датасети використовуються для задач розпізнавання мови, генерації музики та аналізу звуків.
Популярні датасети:
LibriSpeech
Датасет для розпізнавання мови.
Містить понад 1000 годин аудіозаписів англійською мовою.
Сайт LibriSpeech
Common Voice
Датасет від Mozilla для розпізнавання мови.
Містить записи різними мовами, включаючи українську.
Сайт Common Voice
UrbanSound8K
Датасет для класифікації звуків.
Містить 8732 аудіофрагменти з 10 класами звуків (наприклад, гавкіт собаки, сирена тощо).
Сайт UrbanSound8K
4. Датасети для рекомендаційних систем
Рекомендаційні системи використовують дані про взаємодії користувачів із товарами, фільмами, музикою тощо.
Популярні датасети:
MovieLens
Датасет для рекомендацій фільмів.
Містить оцінки користувачів для фільмів.
Сайт MovieLens
Amazon Product Data
Датасет від Amazon для рекомендацій товарів.
Містить відгуки та рейтинги продуктів.
Сайт Amazon Product Data
Netflix Prize Dataset
Датасет для рекомендацій фільмів на основі оцінок користувачів.
Сайт Netflix Prize
5. Датасети для часових рядів
Часові ряди використовуються для задач прогнозування, таких як передбачення цін на акції, погоди тощо.
Популярні датасети:
UCR/UEA Time Series Classification Archive
Архів датасетів для класифікації часових рядів.
Сайт UCR/UEA
Kaggle: Time Series Datasets
Безліч датасетів для задач прогнозування.
Сайт Kaggle
6. Ресурси для пошуку датасетів
Існують платформи, де можна знайти датасети для різних задач:
Kaggle
Одна з найпопулярніших платформ для змагань з Data Science та пошуку датасетів.
Сайт Kaggle
Google Dataset Search
Пошукова система для датасетів.
Сайт Google Dataset Search
UCI Machine Learning Repository
Архів датасетів для машинного навчання.
Сайт UCI
Hugging Face Datasets
Платформа з датасетами для NLP та інших задач.
Сайт Hugging Face
Open Data Portals
Портали з відкритими даними від урядів та організацій (наприклад, data.gov, data.gov.uk).
7. Поради щодо вибору датасетів
Якість даних: Переконайтеся, що дані чисті та добре анотовані.
Розмір датасету: Для глибокого навчання потрібні великі обсяги даних.
Ліцензія: Перевірте ліцензію на використання даних.
Релевантність: Датасет повинен відповідати вашій задачі.