Страница 25 из 96

Re: Прочие базы данных

Добавлено: 16 авг 2022, 17:45
broyury
22.Singapore Targeted Financial Sanctions
поля: "id","schema","name","aliases","birth_date","countries","addresses","identifiers","sanctions","phones","emails","dataset","first_seen","last_seen"
47 записей
формат CSV с разделителем ","
[External Link Removed for Guests]
пароля нет

Re: Прочие базы данных

Добавлено: 16 авг 2022, 17:45
broyury
23.South African Targeted Financial Sanctions
поля: "id","schema","name","aliases","birth_date","countries","addresses","identifiers","sanctions","phones","emails","dataset","first_seen","last_seen"
311 записей
формат CSV с разделителем ","
[External Link Removed for Guests]
пароля нет

Re: Прочие базы данных

Добавлено: 16 авг 2022, 17:46
broyury
24.Swiss SECO Sanctions Embargoes
поля: "id","schema","name","aliases","birth_date","countries","addresses","identifiers","sanctions","phones","emails","dataset","first_seen","last_seen"
4688 записей
формат CSV с разделителем ","
[External Link Removed for Guests]
пароля нет

Re: Прочие базы данных

Добавлено: 16 авг 2022, 17:46
broyury
25.UK Companies House Disqualified Directors
поля: "id","schema","name","aliases","birth_date","countries","addresses","identifiers","sanctions","phones","emails","dataset","first_seen","last_seen"
990 записей
формат CSV с разделителем ","
[External Link Removed for Guests]
пароля нет

Re: Прочие базы данных

Добавлено: 16 авг 2022, 17:47
broyury
26.UK OFSI Consolidated List of Targets
поля: "id","schema","name","aliases","birth_date","countries","addresses","identifiers","sanctions","phones","emails","dataset","first_seen","last_seen"
3561 записей
формат CSV с разделителем ","
[External Link Removed for Guests]
пароля нет

gurmanikzn.ru orders

Добавлено: 18 авг 2022, 16:05
ttm
Дамп заказов Казанского сайта доставки еды
gurmanikzn.ru
Поля: Имя, Телефон, Адрес, перечень блюд, сумма заказа
1078 записей. JSON
 Скрытый текст. Для просмотра нужно [Local Link Removed for Guests]

Re: Прочие базы данных

Добавлено: 18 авг 2022, 18:27
Burg0mister
Всем доброго дня!

Публикую обновлённую версию зачистки утечек СДЭК 1-2-Контрагент
Сразу хочу выразить благодарность AKPM, без его подсказки регулярных выражений эту версию сделать бы не удалось ещё долго.

Что изменено по сравнению с прошлой версией?
-В общей сложности удалено около 10 миллионов строчек с дублями и мусором;
-Удалены дубли в рамках одной строки.
Было: 79271234567 Марков Пётр Максимович Марков Пётр Максимович YKT123
Стало: 79271234567 Марков Пётр Максимович YKT123

Таким образом удалось снизить вес каждого файла и сейчас все три файла весят меньше, чем в прошлой версии один только СДЭК-1.

Конкретно по файлам:
СДЭК-1
Было: размер - 12.4ГБ строк - 194.4М
Стало: размер - 7.82ГБ строк - 186.2М

СДЭК-2
Было: размер - 2.8ГБ строк - 41.5М
Стало: размер - 1.77ГБ строк - 40.34М

СДЭК-Контрагент
Было: размер - 2.03ГБ строк - 26.25М
Стало: размер - 1.58ГБ строк - 26.001М

Что НЕ сделано?
1-Не приведены в порядок номера телефонов, опасаюсь навредить с их изменением {а вот если это сделать правильно - получится удалить ещё много дублей};
2-Не приведён в общий вид регистр строк {знаю как это сделать, но не решил как будет красивее и удобнее};
3-Имена и наименования набранные латиницей не переведены в кириллицу {могут потеряться важные особенности некоторых слов, не совсем понимаю как это делать массово и с каким словарём};
4-Остаётся ещё много мусора и дублей, которые выявились бы после корректировки мусора и ошибок {скорее всего десятки миллионов строк};
5-Файл СДЭК-Контрагент не приведён к четкой структуре в виду некоторой хаотичности записей внутри {плюсы перед большинством номеров оставил умышленно, в будущем позволит проще обрабатывать эту информацию при реструктуризации и чистке}.

Но это ещё не всё!
После всей этой чистки были слиты СДЭК-1 и СДЭК-2, а потом проведена уборка дублей.
В этой версии удалось удалить ещё 9.7М строк.
Этот файл был назван СДЭК-12
Таким образом самый экономичный и лёгкий вариант - использовать слитый в одно СДЭК-12 и плюсом СДЭК-Контрагент.
Получится сэкономить - 400МБ дискового пространства и ускорить поиск за счёт сокращения строк в базе.

ПРОСЬБА
Проверьте целостность баз, ничего не должно было пострадать, но всякое бывает.

ССЫЛКА НА АРХИВЫ:
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Пароль: рекомендованный
Извините, объём работы слишком велик, решил эту обработку перекрыть именно рекомендованным.
Однако оставляю за собой право поделиться этой утечкой под личным паролем с теми пользователями, которые ещё не имеют рекомендованный пароль, но причинили мне здесь добро и помощь.
Новорегам и тем, кого не знаю - по прежнему готов выдать пароль от прошлых версий, если они до сих пор доступны.

Re: Прочие базы данных

Добавлено: 19 авг 2022, 10:52
борис18
 Скрытый текст. Для просмотра нужно [Local Link Removed for Guests]

Re: Прочие базы данных

Добавлено: 19 авг 2022, 14:07
борис18
[External Link Removed for Guests]
csv 79831 данных
фио.дата раждения.телефон(только сотовые) должность.емаил пас данные

Re: Прочие базы данных

Добавлено: 20 авг 2022, 01:42
memnos
UA - База жителей Кривого Рога
 Скрытый текст. Для просмотра нужно [Local Link Removed for Guests]