Привет! Решил собрать в одном месте список популярных источников открытых данных, надеюсь пригодится, поехали!

Google Cloud Public Datasets

Google Сloud содержит более сотни датасетов, размещенных в BigQuery и облачном хранилище. Датасеты взяты из различных источников, таких как GitHub, Бюро переписи населения США, NASA, BitCoin и многих других.

Dataset Search от Google

По большей части ведёт на данные которые можно купить на различных платформах, но иногда встречаются и бесплатные датасеты

Amazon Web Services Open Data Registry

Amazon Web Services позволяет загрузить датасеты или исследовать их в Elastic Compute Cloud. Open Data Registry является частью программы AWS Public Dataset, направленной на демократизацию доступа к данным.

Data.gov

Data.gov является основным хранилищем открытых датасетов правительства США. Большинство датасетов находятся в открытом доступе, однако для остальных требуется получить разрешения для их загрузки. Представленные на сайте данные касаются климата, сельского хозяйства и энергетики.

Data.gov.ru

Портал открытых данных Российской Федерации
Количество наборов открытых данных на портале: 26519

fsa.gov.ru

Открытые датасеты Национальной системы аккредитации РФ - 17 шт

rosstat.gov.ru

Открытые данные Федеральной службы государственной регистрации РФ, 1552 датасета

Kaggle

На Kaggle представлено более 23 000 датасетов в широчайшем диапазоне тематик — от здравоохранения до мультфильмов. Датасеты Kaggle, используемые в соревнованиях, часто более детализированы, чем общедоступные датасеты.

UCI Machine Learning Repository

Старейший источник данных, работающий с 1987-го года. Датасеты UCI отлично подходят для машинного обучения благодаря возможности настройки параметров загрузки.

Global Health Observatory

Хранилище данных ВОЗ, содержащих информацию о различных инфекционных и неинфекционных заболеваниях, психическим расстройствам и лекарствам.

Earthdata

Датасеты NASA, содержащие информацию об атмосфере Земли, океанах, криосфере, солнечных вспышках. В Earthdata есть инструменты для обработки, категоризации, поиска и визуализации данных.

Mockaroo.com

Генератор дата-сетов

data.europa.eu

Открытые данные из Европы

open.canada.ca

Открытые данные Канады

Датасеты по Информационной безопасности

Набор PCAP-файлов с записанным сетевым трафиком от Netresec

KDD Cup 1999 . Это классический набор для проведения тестов IDS (уже размеченный). Да, ему уже 20 лет. Да, его часто используют разработчики вновь создаваемых систем обнаружения атак. И да, часто не достигается значения 100%, что крайне удивительно.

Еще один датасет  NSL KDD для систем обнаружения атак

Датасеты от Лаборатории Линкольна MIT, также предназначенный для систем обнаружения атак. Датасеты подготовлены DARPA и описывают несколько сценариев атак.

Лаборатория Лос-Аламоса (занимается ядерным оружием США) также имеет ряд датасетов, гораздо свежее, чем у Лаборатории Линкольна. Один содержит девятимесячные данные по почти 3/4 миллиардам аутентификационных событий. Второй описывает двухмесячные данные (DNS, аутентификация, Netflow и т.п.) из внутренней сети Лос-Аламоса. Третий датасет описывает три месяца работы корпоративной сети Лос-Аламоса с точки зрения хостовых событий и Netflow.

Датасет АНБ. Да-да, того самого агентства национальной безопасности. Тут и логи Snort, и DNS, и логи Web-серверов.

Датасеты для спама и фишинга

Ember - датасет из 1.1 миллиона вредоносных семплов (PE-файлов), которые "прошли" через VirusTotal в 2017-м году.

Источники: