Привет! Решил собрать в одном месте список популярных источников открытых данных, надеюсь пригодится, поехали!
Google Cloud Public Datasets
Google Сloud содержит более сотни датасетов, размещенных в BigQuery и облачном хранилище. Датасеты взяты из различных источников, таких как GitHub, Бюро переписи населения США, NASA, BitCoin и многих других.
Dataset Search от Google
По большей части ведёт на данные которые можно купить на различных платформах, но иногда встречаются и бесплатные датасеты
Amazon Web Services Open Data Registry
Amazon Web Services позволяет загрузить датасеты или исследовать их в Elastic Compute Cloud. Open Data Registry является частью программы AWS Public Dataset, направленной на демократизацию доступа к данным.
Data.gov
Data.gov является основным хранилищем открытых датасетов правительства США. Большинство датасетов находятся в открытом доступе, однако для остальных требуется получить разрешения для их загрузки. Представленные на сайте данные касаются климата, сельского хозяйства и энергетики.
Data.gov.ru
Портал открытых данных Российской Федерации
Количество наборов открытых данных на портале: 26519
fsa.gov.ru
Открытые датасеты Национальной системы аккредитации РФ - 17 шт
rosstat.gov.ru
Открытые данные Федеральной службы государственной регистрации РФ, 1552 датасета
Kaggle
На Kaggle представлено более 23 000 датасетов в широчайшем диапазоне тематик — от здравоохранения до мультфильмов. Датасеты Kaggle, используемые в соревнованиях, часто более детализированы, чем общедоступные датасеты.
UCI Machine Learning Repository
Старейший источник данных, работающий с 1987-го года. Датасеты UCI отлично подходят для машинного обучения благодаря возможности настройки параметров загрузки.
Global Health Observatory
Хранилище данных ВОЗ, содержащих информацию о различных инфекционных и неинфекционных заболеваниях, психическим расстройствам и лекарствам.
Earthdata
Датасеты NASA, содержащие информацию об атмосфере Земли, океанах, криосфере, солнечных вспышках. В Earthdata есть инструменты для обработки, категоризации, поиска и визуализации данных.
Mockaroo.com
Генератор дата-сетов
data.europa.eu
Открытые данные из Европы
open.canada.ca
Открытые данные Канады
Датасеты по Информационной безопасности
Набор PCAP-файлов с записанным сетевым трафиком от Netresec
KDD Cup 1999 . Это классический набор для проведения тестов IDS (уже размеченный). Да, ему уже 20 лет. Да, его часто используют разработчики вновь создаваемых систем обнаружения атак. И да, часто не достигается значения 100%, что крайне удивительно.
Еще один датасет NSL KDD для систем обнаружения атак
Датасеты от Лаборатории Линкольна MIT, также предназначенный для систем обнаружения атак. Датасеты подготовлены DARPA и описывают несколько сценариев атак.
Лаборатория Лос-Аламоса (занимается ядерным оружием США) также имеет ряд датасетов, гораздо свежее, чем у Лаборатории Линкольна. Один содержит девятимесячные данные по почти 3/4 миллиардам аутентификационных событий. Второй описывает двухмесячные данные (DNS, аутентификация, Netflow и т.п.) из внутренней сети Лос-Аламоса. Третий датасет описывает три месяца работы корпоративной сети Лос-Аламоса с точки зрения хостовых событий и Netflow.
Датасет АНБ. Да-да, того самого агентства национальной безопасности. Тут и логи Snort, и DNS, и логи Web-серверов.
Ember - датасет из 1.1 миллиона вредоносных семплов (PE-файлов), которые "прошли" через VirusTotal в 2017-м году.