Прочие базы данных

все, что касается обмена базами данных, программы для работы с ними и пр.

Модераторы: konkar, deicide

Ответить
Аватара пользователя
SDFnik
местный
Сообщения: 46
Зарегистрирован: 30 мар 2022, 22:32
Благодарил (а): 109 раз
Поблагодарили: 90 раз

Re: Прочие базы данных

Сообщение SDFnik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]14 сен 2024, 13:41
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 сен 2024, 06:59 Всем привет, подскажите, чем можно собрать такое кол-во файлов в 1
imho, единственно правильным способом будет предложенный SDFnik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 сен 2024, 10:54 copy *.csv all.csv
все прочие могут привести к появлению в результирующем файле нечитаемых символов или ? в строках

другой вопрос, что полученный файл будет грузить ресурсы при чтении и обработке, данные стоит разбить на части, если не по регионам, то по хотя бы по размеру
Так стояла задача скопировать ВСЕ файлы csv в один.
Если нужно скопировать несколько файлов в один, то делаем так:
copy 1.csv+2.csv+3.csv 123.csv
В файле 123.csv будет скопировано содержимое файлов 1.csv, 2.csv и 3.csv.

Если нужно рассортировать по регионам:
findstr /M "Nigeria" *.csv > nigeria.txt

В файле nigeria.txt будет список файлов, где встречается слово "Nigeria", например:
23.csv
47.csv
91.csv

В любом редакторе в файле nigeria.txt заменяем знак переноса строки на "+":
23.csv+47.csv+91.csv
и редактируем получившуюся строку:
copy 23.csv+47.csv+91.csv Nigeria_linkedin.txt
меняем расширение файла nigeria.txt на bat или cmd и запускаем.
В получившимся файле Nigeria_linkedin.txt будут товарищи негры из Nigeria (тамбовский волк им товарищ).
Аватара пользователя
SDFnik
местный
Сообщения: 46
Зарегистрирован: 30 мар 2022, 22:32
Благодарил (а): 109 раз
Поблагодарили: 90 раз

Re: Прочие базы данных

Сообщение SDFnik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 08:28
Офтопик
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]14 сен 2024, 13:41 единственно правильным способом будет
научиться пользоваться линуксом, где есть простые cat, cut, sed и awk которые закрывают любые вопросы с обработкой текстовых данных любого размера
Все уже украдено придумано до нас (С).
Есть порт утилит unix под Windows:
[External Link Removed for Guests]
[External Link Removed for Guests]
Сам пользуюсь sed под виндой для поиска-замены в больших текстовых файлах.
Аватара пользователя
SDFnik
местный
Сообщения: 46
Зарегистрирован: 30 мар 2022, 22:32
Благодарил (а): 109 раз
Поблагодарили: 90 раз

Re: Прочие базы данных

Сообщение SDFnik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 10:18
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 08:28
Офтопик
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]14 сен 2024, 13:41 единственно правильным способом будет
научиться пользоваться линуксом, где есть простые cat, cut, sed и awk которые закрывают любые вопросы с обработкой текстовых данных любого размера
Я под виндой cygwin использую. Очень удобно
В комплект не только Cygwin, но и MSYS2, Active Perl, MINGW входят unix утилиты.
Аватара пользователя
ttm
профи
Сообщения: 140
Зарегистрирован: 09 июн 2022, 12:24
Благодарил (а): 435 раз
Поблагодарили: 218 раз

Re: Прочие базы данных

Сообщение ttm »

Прошу уважаемое сообщество обратить внимание на miller.
[External Link Removed for Guests]
LibVik
местный
Сообщения: 47
Зарегистрирован: 22 фев 2022, 09:26
Благодарил (а): 82 раза
Поблагодарили: 74 раза

Re: Прочие базы данных

Сообщение LibVik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 16:34 Так стояла задача скопировать ВСЕ файлы csv в один.
Моё замечание относительно размера было для FamilyTheRapy
А реализацию сортировки сделал бы через Total Commander
Найти с учётом текста, перенести в папку,
склейка / сopy *.csv all.csv /
LibVik
местный
Сообщения: 47
Зарегистрирован: 22 фев 2022, 09:26
Благодарил (а): 82 раза
Поблагодарили: 74 раза

Re: NationalPublicData

Сообщение LibVik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 сен 2024, 20:05 У меня NPD в сжатом виде - 50 Gb (files NPD202401.7z, NPD202402.7z), в распакованном - 284 Gb (files ssn.txt, ssn2.txt).
это уже подчищенная версия
в оригинале выгдядит так
► Показать
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 сен 2024, 20:05 А как такое чистить?
удалить индекс, слить в одну строку по SSN, удалить повтор имени
там Unique SSN: 239545219
Unique SSN: 159658869
Аватара пользователя
Burg0mister
профи
Сообщения: 326
Зарегистрирован: 19 июл 2022, 17:07
Благодарил (а): 1794 раза
Поблагодарили: 697 раз

Re: Прочие базы данных

Сообщение Burg0mister »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]10 сен 2024, 22:41 При таких объёмах файлов, лимитирующим фактором будет скорость чтения-записи на диск - нужен быстрый твердотельный винт.

Если сливать адреса вместе, могут очень длинные строки получиться:
Спойлер
ID,firstname,lastname,middlename,name_suff,dob,address,city,county_name,st,zip,phone1,aka1fullname,aka2fullname,aka3fullname,StartDat,alt1DOB,alt2DOB,alt3DOB,ssn
25717441,EDWARD,FOMENKO,G,,,701 S RIVER HEIGHTS DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294620,EDWARD,FOMENKO,G,,19390901,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294621,EDWARD,FOMENKO,G,,19390901,PO BOX 1241,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
28294622,EDWARD,FOMENKO,G,,19390901,PO BOX 2301,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
28294623,EDWARD,FOMENKO,G,,19390901,213 E 3RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294624,EDWARD,FOMENKO,G,,19390901,831 E MILES AVE,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
30116342,EDWARD,FOMENKO,G,,19700701,800 S MAJESTIC VIEW DR,POST FALLS,KOOTENAI,ID,83854,2087779658,,,,,,,,518398509
30116343,EDWARD,FOMENKO,G,,19700701,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,8167417598,,,,,,,,518398509
33592521,EDWARD,FOMENKO,G,,,213 E 3 RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33875737,EDWARD,FOMENKO,G,,19700701,800 S MAJESTIC VIEW DR,POST FALLS,KOOTENAI,ID,83854,2087732446,,,,,,,,518398509
33988293,EDWARD,FOMENKO,G,,,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33988294,EDWARD,FOMENKO,G,,,PO BOX 1241,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
33988295,EDWARD,FOMENKO,G,,,PO BOX 2301,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
33988296,EDWARD,FOMENKO,G,,,213 E 3RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33988297,EDWARD,FOMENKO,G,,,831 E MILES AVE,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509

15 адресов, 3 телефона (2087779658, 8167417598, 2087732446), 2 даты рождения (19390901, 19700701), 1 SSN.
Если не загонять текст в базу, можно использовать поиск в консоли, например:
find ",JOHN,RIPPER," ssn.txt > output.txt
(При установки NTFS сжатия, занимаемый размер текстовых файлов на диске уменьшается раза в полтора.)

в линукс можно попробовать ещё так:
7z e -so NPD202401.7z -p'[External Link Removed for Guests]' 2>/dev/null | rg -i ",JOHN,RIPPER," > search.txt
Приветствую! Да это понятно, что можно и ГРЕП использовать, и есть куча софта для создания нереляционной СУБД на коленке, как ведомственные так и свободные программы со своими плюсами и минусами. Однако если не чистить - объемы получаются огромные, это надо прямиком по США работать чтобы такое хранить иначе никаких запасов дисков не хватит. Да и десяток таких баз без чистки превратит со временем поиск в очень томительное и рутинное занятие.
С замечанием на счет диска согласен, а еще оперативки много надо, остальное менее критично даже при использовании сложных регулярных выражений.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 18:47 Достаточно выборочно сверить с Московсим ДИТом...
Ходят слухи, что существует две версии ДИТ, здорового человека и больная. Где-то в Березах выкладывали обновленную версию, но руки проверить еще не дошли. Ставшая пабликом ранее версия была с искажениями, не ориентируйся на нее. Я тоже так пару раз пролетел с поиском по этой базе, хотя на этапе конвертирования сверял и так удачно попалось видимо, что несколько строк было верных.
Похоже там не все номера попортили, а как уже бывало с другими, например только 6 поменяли на 3.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]06 сен 2024, 07:25 На один из теневых форумов выложили базу профилей соцсети ВКонтакте и назвали это "крупной утечкой данных". 🤦‍♂️🤣

На самом деле ни о какой утечке данных речь, конечно, не идет. Выложенная база содержит информацию, полученную с помощью запросов к официальному API социальной сети, а не в результате ее взлома. 🤷‍♂️

Всего в файле 390,425,718 строк, содержащих: имя/фамилию (так, как указано в профиле), ссылку на фотографию, пол, идентификатор профиля и город/страну (если указано в профиле). Вся эта информация является публично доступной и пользователи сами разместили ее у себя в открытых профилях.

Утверждается, что данные собраны в сентябре 2024.
Скрытый текст
Парсинг очень полезный, пригодится, спасибо! Но хочу отметить что данные там примерно за 2018-2019 год, нашел аккаунты, которые с тех пор были удалены, и аватарки там сохранены как раз плюс минус тех времен.

Возможно jewibev прав и это даже 2017
Спойлер
Если на раздачи ставлю личный пароль - делюсь им безвозмездно, так же он есть и у администрации! Приму в дар БД с контактами, ФИО, адресами по СНГ/РФ. Интересуют: Современные ГИБДД, банки, блэклисты банков, телефоны, спецучет и т. п.
Аватара пользователя
SDFnik
местный
Сообщения: 46
Зарегистрирован: 30 мар 2022, 22:32
Благодарил (а): 109 раз
Поблагодарили: 90 раз

Re: Прочие базы данных

Сообщение SDFnik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 сен 2024, 09:00
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 16:34 Так стояла задача скопировать ВСЕ файлы csv в один.
Моё замечание относительно размера было для FamilyTheRapy
А реализацию сортировки сделал бы через Total Commander
Найти с учётом текста, перенести в папку,
склейка / сopy *.csv all.csv /
Поиск в TotalCommander - удобная вещь, пользуюсь не только для нахождения текста, но и HEX-code в dll и exe для поиска сигнатур некоторых защит (FlexNET / FlexLM), с последующим пропатчиванием.
Findstr из комплекта Windows имеет возможность поиска строк по списку из файла (опция /G:файл_списка.txt).
Например, если хотим сделать выборку по всей Африке, в файл list.txt помещаем название всех стран Африки (например из вики) и запускаем:
findstr /M /G:list.txt *.csv > Africa.txt
В Africa.txt будет список всех файлов, в которых присутствует хотя бы одна строка из list.txt .
Аватара пользователя
SDFnik
местный
Сообщения: 46
Зарегистрирован: 30 мар 2022, 22:32
Благодарил (а): 109 раз
Поблагодарили: 90 раз

Re: Прочие базы данных

Сообщение SDFnik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 сен 2024, 12:10
Приветствую! ...
Однако если не чистить - объемы получаются огромные, это надо прямиком по США работать чтобы такое хранить иначе никаких запасов дисков не хватит.
Приветствую!
Да уж, действительно, дисков не напасёшься:
- 5 лет назад купил 4 TB, думал, надолго хватит - ЩАЗ ...
- в начале года купил 16 TB, думал, надолго хватит - ЩАЗ ...
Да и нужда в база по usa - сомнительна (для меня - вообще одноразовая:
найти десяток однокурсников и десяток знакомых по аспирантуре, ставших колбасными эмигрантами).
Аватара пользователя
SDFnik
местный
Сообщения: 46
Зарегистрирован: 30 мар 2022, 22:32
Благодарил (а): 109 раз
Поблагодарили: 90 раз

Re: NationalPublicData

Сообщение SDFnik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 сен 2024, 10:36
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 сен 2024, 20:05 У меня NPD в сжатом виде - 50 Gb (files NPD202401.7z, NPD202402.7z), в распакованном - 284 Gb (files ssn.txt, ssn2.txt).
это уже подчищенная версия
в оригинале выгдядит так
► Показать
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 сен 2024, 20:05 А как такое чистить?
удалить индекс, слить в одну строку по SSN, удалить повтор имени
там Unique SSN: 239545219
Unique SSN: 159658869
Да, Вы правы, это база чищенная, полная - мне попадалась 100 Gb сжатая.
Но зачем нужна полная, если есть почищенная (другой вопрос - как почищена и от чего).
Да и с базой непонятки:
Спойлер
...
Специалисты Atlas Data Privacy Corp. проанализировали украденные данные и сообщили, что в них содержится 272 миллиона уникальных SSN. Большинство записей включают имя, SSN и домашний адрес, причем 26% записей также содержат номера телефонов. Интересно, что значительная часть данных относится к умершим людям, причем средний возраст пострадавших – 70 лет.
В июле утекшие данные стали доступны широкому кругу лиц, и NPD уведомила клиентов о компрометации данных. Особое внимание привлекло то, что в утечке не содержались данные тех людей, которые ранее отказались от сбора и обработки данных, что подтвердило легальность действий компании. NPD утверждает, что сотрудничает с правоохранительными органами и проводит расследование, обещая уведомить пользователей о дальнейших изменениях в ситуации.
Несмотря на всю серьёзность инцидента, точное происхождение данных остаётся неясным. Хакеры, участвовавшие в распространении информации, регулярно публиковали новые фрагменты данных, но общий объём данных не соответствовал заявленным 4 ТБ. Кроме того, обнаружились совпадения с предыдущими утечками данных из других источников, что вызвало подозрения, что часть данных могла быть собрана из различных источников, включая NPD.
Особенно тревожным оказалось то, что некоторые данные содержали недостоверную информацию. Например, в базе данных присутствовали записи с неправильными датами рождения и несоответствующими именами. Это создавало дополнительные сложности для тех, кто пытался оценить масштабы утечки и её последствия.
...
Подробнее: [External Link Removed for Guests]
Ответить