Прочие базы данных

все, что касается обмена базами данных, программы для работы с ними и пр.

Модераторы: konkar, deicide

Ответить
Аватара пользователя
Altron
профи
Сообщения: 475
Зарегистрирован: 23 фев 2022, 04:12
Благодарил (а): 557 раз
Поблагодарили: 933 раза

Re: База Химера

Сообщение Altron »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 17:37
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 15:01
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 12:37

Да, так оно и есть. Мобильные номера увеличены на 3 или 4, номера квартир умеьшены на 1-цу (или типа того)
мое мнение всегда надо перепроверять всё, так же ,как недавно слитый "билайн 2021", в котором фио и адреса нормальные,а телефон и паспорта испорчены,но даже из испорченных массивов можно извлечь информацию для аналитики)
Проверил я данную Химеру, которая кстати в Телеграмме спокойно лежит, некоторые телефоны совпадают с телефонами из других баз. ФИО и адреса правильные. Лично я не нашел умышленного искажения телефонов и адресов. По некоторым номерам полное не совпадение, совершенно другой человек, но на мой взгляд это просто устаревшая информация. Сменился владелец телефона.
Достаточно выборочно сверить с Московсим ДИТом...
Аватара пользователя
Altron
профи
Сообщения: 475
Зарегистрирован: 23 фев 2022, 04:12
Благодарил (а): 557 раз
Поблагодарили: 933 раза

Re: База Химера

Сообщение Altron »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 18:47
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 17:37
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 15:01
мое мнение всегда надо перепроверять всё, так же ,как недавно слитый "билайн 2021", в котором фио и адреса нормальные,а телефон и паспорта испорчены,но даже из испорченных массивов можно извлечь информацию для аналитики)
Проверил я данную Химеру, которая кстати в Телеграмме спокойно лежит, некоторые телефоны совпадают с телефонами из других баз. ФИО и адреса правильные. Лично я не нашел умышленного искажения телефонов и адресов. По некоторым номерам полное не совпадение, совершенно другой человек, но на мой взгляд это просто устаревшая информация. Сменился владелец телефона.
Достаточно выборочно сверить с Московсим ДИТом...
Спойлер
ЗАЕЦ ИГОРЬ ИГОРЕВИЧ||8965-274-23-11 <-Химера
7965-274-34-11 <-ДИТ
Аватара пользователя
sergeiii
профи
Сообщения: 211
Зарегистрирован: 30 ноя 2021, 15:23
Благодарил (а): 201 раз
Поблагодарили: 492 раза

Re: База Химера

Сообщение sergeiii »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 19:00
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 18:47
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 17:37

Проверил я данную Химеру, которая кстати в Телеграмме спокойно лежит, некоторые телефоны совпадают с телефонами из других баз. ФИО и адреса правильные. Лично я не нашел умышленного искажения телефонов и адресов. По некоторым номерам полное не совпадение, совершенно другой человек, но на мой взгляд это просто устаревшая информация. Сменился владелец телефона.
Достаточно выборочно сверить с Московсим ДИТом...
Спойлер
ЗАЕЦ ИГОРЬ ИГОРЕВИЧ||8965-274-23-11 <-Химера
7965-274-34-11 <-ДИТ
на первый взгляд при быстрой проверке....в утечках Ашан, Сбербанк, Золото585, Фейсбук- фигурирует телефон именно из Химеры (2311 окончание), а второй телефон (3411) только в ДИТ и старой Юле и Авито,но в них другой чел указан... поэтому в Химере верный номер
Tereha
профи
Сообщения: 116
Зарегистрирован: 19 дек 2022, 16:48
Благодарил (а): 72 раза
Поблагодарили: 118 раз

Re: База Химера

Сообщение Tereha »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 19:00
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 18:47
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 17:37

Проверил я данную Химеру, которая кстати в Телеграмме спокойно лежит, некоторые телефоны совпадают с телефонами из других баз. ФИО и адреса правильные. Лично я не нашел умышленного искажения телефонов и адресов. По некоторым номерам полное не совпадение, совершенно другой человек, но на мой взгляд это просто устаревшая информация. Сменился владелец телефона.
Достаточно выборочно сверить с Московсим ДИТом...
Спойлер
ЗАЕЦ ИГОРЬ ИГОРЕВИЧ||8965-274-23-11 <-Химера
7965-274-34-11 <-ДИТ
У меня конкретно данный номер из Химеры совпадает со следующими базами: beeline, doctor.ru, гетконтакт, золото585, ашан, сбер и еще 10 баз. Почему Вы считаете, что телефон в ДИТ он верный? Я проверял номера телефонов, адреса по разным субъектам и городам, умышленного искажения данных не нашел. Сама Химера - это ведь сборник разных баз, на мой взгляд, не очень новых и не очень достоверных. Вопрос ведь стоит о том, что в Химере умышленно искажены данные, я этого не вижу.
Аватара пользователя
Altron
профи
Сообщения: 475
Зарегистрирован: 23 фев 2022, 04:12
Благодарил (а): 557 раз
Поблагодарили: 933 раза

Re: База Химера

Сообщение Altron »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 20:21
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 19:00
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 18:47

Достаточно выборочно сверить с Московсим ДИТом...
Спойлер
ЗАЕЦ ИГОРЬ ИГОРЕВИЧ||8965-274-23-11 <-Химера
7965-274-34-11 <-ДИТ
У меня конкретно данный номер из Химеры совпадает со следующими базами: beeline, doctor.ru, гетконтакт, золото585, ашан, сбер и еще 10 баз. Почему Вы считаете, что телефон в ДИТ он верный? Я проверял номера телефонов, адреса по разным субъектам и городам, умышленного искажения данных не нашел. Сама Химера - это ведь сборник разных баз, на мой взгляд, не очень новых и не очень достоверных. Вопрос ведь стоит о том, что в Химере умышленно искажены данные, я этого не вижу.
По адресной книге в телефоне проверял 7 человек - у всех искажены квартиры и телефоны, но, понятное дело, расписать их здесь не могу.
С другой стороны 7 человек для 91кк (или 64кк после идентификации) слишком малая выборка, конечно.
На досуге попробую через связку на большем массиве.
Аватара пользователя
sershb
профи
Сообщения: 103
Зарегистрирован: 29 ноя 2021, 12:52
Благодарил (а): 75 раз
Поблагодарили: 70 раз

Re: База Химера

Сообщение sershb »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 21:34
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 20:21
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 19:00
Спойлер
ЗАЕЦ ИГОРЬ ИГОРЕВИЧ||8965-274-23-11 <-Химера
7965-274-34-11 <-ДИТ
У меня конкретно данный номер из Химеры совпадает со следующими базами: beeline, doctor.ru, гетконтакт, золото585, ашан, сбер и еще 10 баз. Почему Вы считаете, что телефон в ДИТ он верный? Я проверял номера телефонов, адреса по разным субъектам и городам, умышленного искажения данных не нашел. Сама Химера - это ведь сборник разных баз, на мой взгляд, не очень новых и не очень достоверных. Вопрос ведь стоит о том, что в Химере умышленно искажены данные, я этого не вижу.
По адресной книге в телефоне проверял 7 человек - у всех искажены квартиры и телефоны, но, понятное дело, расписать их здесь не могу.
С другой стороны 7 человек для 91кк (или 64кк после идентификации) слишком малая выборка, конечно.
На досуге попробую через связку на большем массиве.
7 случайных человек это огромная выборка. этого более чем достаточно, чтобы считать эту базу исковерканным калом
jewibev
профи
Сообщения: 54
Зарегистрирован: 29 ноя 2021, 19:54
Благодарил (а): 15 раз
Поблагодарили: 69 раз

Re: Прочие базы данных

Сообщение jewibev »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]06 сен 2024, 07:25 На один из теневых форумов выложили базу профилей соцсети ВКонтакте и назвали это "крупной утечкой данных". 🤦‍♂️🤣
Это данные 2017 года. И самое смешное что они с 17 года и лежат в паблике, потому что это что то типо опендаты. Очень странно что даже Ашот их не видел все эти 7 лет )

Мнение по химере и диту:
Химера это сборник, как тут уже справедливо заметили, то есть рейтинг доверия низкий просто потому что каша из разных годов и баз, в которых попадались и фейковые. Но в целом с этой поправкой - норм
А вот дит это намерянно исковерканная БД. Какой то негодяй взял и испортил данные. Для примера 3 пары телефонов по которым это сразу видно. Каждая пара висит на одном человеке, но один верный, а второй испорчен

79167738884 - валид
79167783884 - невалид

79089597332 - валид
79098597332 - невалид

79264829309 - валид
79264829390 - невалид
Аватара пользователя
SDFnik
местный
Сообщения: 46
Зарегистрирован: 30 мар 2022, 22:32
Благодарил (а): 109 раз
Поблагодарили: 90 раз

Re: Прочие базы данных

Сообщение SDFnik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]21 авг 2024, 09:39
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 авг 2024, 21:22 Да, дублей довольно много, но не все они дубли 1 в 1, часть из различными адресами, в части ссн разный, очень странные даты рождения - вида 19600500 (видимо, по этому есть несколько полей для них).
Телефоны есть "на глаз" где-то для 8-10% записей. Не очень понял в каком формате они указаны.
Работы по очистке будет довольно много.
Даты вида 19600500 скорее всего Unixtimestamp, такие даты конвертятся специальными утилитами или на сайтах, но обычно в единичном виде. Пакетно их можно конвертировать с помощью макросов в экселе и аналогах {при этом есть ограничение на количество строк}, либо с помощью сложного макроса с применением скриптов.

В США проживает около 330 миллионов граждан, плюс мигранты, плюс те кто уже умер. Если учесть, что не все они должны быть в базе, плюс дубли, думаю что там реальное количество строк хорошо если до 100-150 миллионов дотянет. После нормализации дат рождения, если объединить строки с одинаковыми ФИО, датами рождения и ССН {убрав дублирующиеся} и оставив разные адреса слив их в одну строку, вес базы вполне возможно будет раз в десять меньше.

Осталось только найти героя, у которого сильный компьютер, стальные нервы и огромная куча времени :lol:
При таких объёмах файлов, лимитирующим фактором будет скорость чтения-записи на диск - нужен быстрый твердотельный винт.

Если сливать адреса вместе, могут очень длинные строки получиться:
Спойлер
ID,firstname,lastname,middlename,name_suff,dob,address,city,county_name,st,zip,phone1,aka1fullname,aka2fullname,aka3fullname,StartDat,alt1DOB,alt2DOB,alt3DOB,ssn
25717441,EDWARD,FOMENKO,G,,,701 S RIVER HEIGHTS DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294620,EDWARD,FOMENKO,G,,19390901,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294621,EDWARD,FOMENKO,G,,19390901,PO BOX 1241,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
28294622,EDWARD,FOMENKO,G,,19390901,PO BOX 2301,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
28294623,EDWARD,FOMENKO,G,,19390901,213 E 3RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294624,EDWARD,FOMENKO,G,,19390901,831 E MILES AVE,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
30116342,EDWARD,FOMENKO,G,,19700701,800 S MAJESTIC VIEW DR,POST FALLS,KOOTENAI,ID,83854,2087779658,,,,,,,,518398509
30116343,EDWARD,FOMENKO,G,,19700701,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,8167417598,,,,,,,,518398509
33592521,EDWARD,FOMENKO,G,,,213 E 3 RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33875737,EDWARD,FOMENKO,G,,19700701,800 S MAJESTIC VIEW DR,POST FALLS,KOOTENAI,ID,83854,2087732446,,,,,,,,518398509
33988293,EDWARD,FOMENKO,G,,,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33988294,EDWARD,FOMENKO,G,,,PO BOX 1241,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
33988295,EDWARD,FOMENKO,G,,,PO BOX 2301,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
33988296,EDWARD,FOMENKO,G,,,213 E 3RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33988297,EDWARD,FOMENKO,G,,,831 E MILES AVE,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509

15 адресов, 3 телефона (2087779658, 8167417598, 2087732446), 2 даты рождения (19390901, 19700701), 1 SSN.
Если не загонять текст в базу, можно использовать поиск в консоли, например:
find ",JOHN,RIPPER," ssn.txt > output.txt
(При установки NTFS сжатия, занимаемый размер текстовых файлов на диске уменьшается раза в полтора.)

в линукс можно попробовать ещё так:
7z e -so NPD202401.7z -p'[External Link Removed for Guests]' 2>/dev/null | rg -i ",JOHN,RIPPER," > search.txt
Аватара пользователя
SDFnik
местный
Сообщения: 46
Зарегистрирован: 30 мар 2022, 22:32
Благодарил (а): 109 раз
Поблагодарили: 90 раз

Re: NationalPublicData

Сообщение SDFnik »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]06 сен 2024, 11:22
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 авг 2024, 21:09 SSN тот же, а адреса разные.
Если почитать пиндосов, то это связано с тем, что указаны все адреса на которых чел проживал или указывал (для доставки и т.п.)
Ну так и есть, по этому поводу Береза запилил уже базу "ДЖЕК_ВОСЬМЁРКИН" (она же RELATIVES_USA):
Спойлер
"В ней собраны связи на предмет регистрации по месту жительства граждан, имеющих SNN (Номер социального страхования США). Как правило эти связи говорят о прямом родстве между персонажами. Вес 125 Гб в кодировке UTF8 Строк 651.623.287. В строках ФИО, SNN, адрес и связанные по адресу лица.
...
База не полная (полная весила бы под 3Тб), в ней отобраны только записи, где по каждому адресу было меньше 14 фигурантов. Максимальное количество регистраций доходило до 70 тысяч. Это могли быть студенческие кампусы, военные базы итд. Так что если кто, то хочет заморочиться, то может собрать из исходников базу под названием что-то типа «сослуживцы военной базы Льюис–Маккорд, штат Вашингтон»."
[External Link Removed for Guests]
Аватара пользователя
sergeiii
профи
Сообщения: 211
Зарегистрирован: 30 ноя 2021, 15:23
Благодарил (а): 201 раз
Поблагодарили: 492 раза

Re: NationalPublicData

Сообщение sergeiii »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]10 сен 2024, 22:49
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]06 сен 2024, 11:22
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 авг 2024, 21:09 SSN тот же, а адреса разные.
Если почитать пиндосов, то это связано с тем, что указаны все адреса на которых чел проживал или указывал (для доставки и т.п.)
Ну так и есть, по этому поводу Береза запилил уже базу "ДЖЕК_ВОСЬМЁРКИН" (она же RELATIVES_USA):
Спойлер
"В ней собраны связи на предмет регистрации по месту жительства граждан, имеющих SNN (Номер социального страхования США). Как правило эти связи говорят о прямом родстве между персонажами. Вес 125 Гб в кодировке UTF8 Строк 651.623.287. В строках ФИО, SNN, адрес и связанные по адресу лица.
...
База не полная (полная весила бы под 3Тб), в ней отобраны только записи, где по каждому адресу было меньше 14 фигурантов. Максимальное количество регистраций доходило до 70 тысяч. Это могли быть студенческие кампусы, военные базы итд. Так что если кто, то хочет заморочиться, то может собрать из исходников базу под названием что-то типа «сослуживцы военной базы Льюис–Маккорд, штат Вашингтон»."
[External Link Removed for Guests]
скачал этого Джека,а открыть не могу, 7zip ошибку выдает, подскажи как открыл
Ответить