скорее всего наткнулись на супер мега компиляцию из баз, а раздули как всегда[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]19 июн 2025, 13:58 Кому-то уже попадалась на глаза нашумевшая сегодня база? Имеется ввиду: [External Link Removed for Guests]
болталка
- sandro123
- Администратор
- Сообщения: 563
- Зарегистрирован: 28 ноя 2021, 14:48
- Откуда: паттайя
- Благодарил (а): 1954 раза
- Поблагодарили: 582 раза
Re: болталка
[Local Link Removed for Guests]
наш канал оперативных новостей
phreakerhelp_bot наш бот связи в telegram
toxid: 45D6774856D7BF74AD54751BD2FB4B1C810BB6CFA9694AEE6E9AD1E6D4686831332245703BA1
наш канал оперативных новостей
phreakerhelp_bot наш бот связи в telegram
toxid: 45D6774856D7BF74AD54751BD2FB4B1C810BB6CFA9694AEE6E9AD1E6D4686831332245703BA1
-
- новый пользователь
- Сообщения: 10
- Зарегистрирован: 01 июл 2025, 00:58
- Благодарил (а): 47 раз
- Поблагодарили: 10 раз
Re: болталка
Доброго времени суток.
Как быть, если есть большой файл dbf и его не открыть в dbf viewer 2000? Программа просто падает и все. Файл весит 16 гб. Достоверно известно, что он целый, просто не хватает ресурсов в системе его открыть. Другие вьюверы работают еще хуже...
Как быть, если есть большой файл dbf и его не открыть в dbf viewer 2000? Программа просто падает и все. Файл весит 16 гб. Достоверно известно, что он целый, просто не хватает ресурсов в системе его открыть. Другие вьюверы работают еще хуже...
- [N]etwork[P]irate
- профи
- Сообщения: 78
- Зарегистрирован: 15 сен 2023, 05:16
- Благодарил (а): 24 раза
- Поблагодарили: 118 раз
Re: болталка
Кто-то проверял базу RussianTAX 2022 на корректность данных? Сразу было видно что в фамилии, имени или отчестве присутствует ошибка в кодировке, имеется ввиду что фамилия и отчество корректные, а имя неожиданно испорченно. Вчера я выложил комбинации ИНН + СНИЛС которые были проверены с помощью контрольного числа, возможно кому-то они действительно пригодятся для обогащения по ИНН или СНИЛС, но возникает вопрос, не могли ли они быть подделкой с заранее подогнанной суммой в контрольном числе, или такое ещё никогда не наблюдалось? Решил спросить, ибо чёрт знает, как сейчас, могут ухитриться те кто создаёт ложные данные для обмена на настоящие утечки. Буду благодарен за любое мнение относительно этой темы.
- [N]etwork[P]irate
- профи
- Сообщения: 78
- Зарегистрирован: 15 сен 2023, 05:16
- Благодарил (а): 24 раза
- Поблагодарили: 118 раз
Комбинации ИНН + СНИЛС
Пожалуй, стоит рассказать, какой именно опыт я приобрёл, исследуя комбинации ИНН + СНИЛС из базы RussianTAX 2022.
Первым делом, конечно же, была выполнена фильтрация и нормализация как ИНН, так и СНИЛС: удаление пустых значений и приведение к формату для юридических или физических ИНН. То есть, если длина ИНН была 9, добавлялся ведущий ноль (юридический ИНН), если длина 11 - также добавлялся ведущий ноль (физический ИНН). Значения длиной менее 9 удалялись сразу.
В итоге оказалось, что юридических лиц в выборке фактически не оказалось. Забыл ещё упомянуть, что перед добавлением ведущих нулей я удалил все значения, в которых не содержалось ни одной цифры, используя регулярное выражение. Таким образом, пустые значения тоже были удалены, что ускорило очистку данных.
СНИЛС - более специфический идентификатор. Как и с ИНН, я удалил все записи, не содержащие ни одной цифры, и привёл длину значений к 11 символам с ведущими нулями.
На всякий случай перед проверкой контрольного числа я проверил все ИНН и СНИЛС с помощью регулярного выражения, которое выявляло хотя бы один символ, не являющийся цифрой. На деле ошибок не оказалось. В противном случае можно было бы либо снова нормализовать, либо удалить проблемные записи.
Далее началась проверка по контрольному числу: все комбинации, где ИНН или СНИЛС не проходили эту проверку, удалялись. После этого я проверил ИНН на начало с "00" и обнаружил такие значения. Это не ошибка расчёта контрольного числа, такое действительно может встречаться. Поэтому я удалил все ИНН, начинающиеся на "00".
Для СНИЛС сначала проверил начало на "000", таких значений не нашлось. Это позволяет сделать вывод, что СНИЛС технически не может начинаться на "000" (по крайней мере исходя из объёма данных в 27 миллионов). В то же время СНИЛС спокойно может начинаться на "00". Поэтому по СНИЛС дополнительных удалений не потребовалось. Но стоит учитывать, что СНИЛС вида "00000000505" может быть корректным с точки зрения контрольного числа, как и ИНН, поэтому даже после проверки контрольным числом желательно фильтровать такие значения по началу "000".
Был также произведён поиск повторяющихся ИНН и СНИЛС. По СНИЛС дубликатов не обнаружилось, а вот ИНН встречались повторно. В итоге было решено удалить такие комбинации, так как они не несут никакой ценности, создавая лишь конфликт. На деле удалилось совсем немного конфликтных комбинаций.
В итоге удалось отсеять некорректных комбинаций порядка 150-250 тысяч, что при общем объёме ≈28 миллионов записей составляет совсем немного. Таким образом, в подавляющем большинстве случаев встретились корректные комбинации ИНН + СНИЛС.
P.S. С начала 2019 года СНИЛС оформляется в виде 10-значного номера без контрольного числа, что затрудняет его проверку на корректность привычным алгоритмом.
Первым делом, конечно же, была выполнена фильтрация и нормализация как ИНН, так и СНИЛС: удаление пустых значений и приведение к формату для юридических или физических ИНН. То есть, если длина ИНН была 9, добавлялся ведущий ноль (юридический ИНН), если длина 11 - также добавлялся ведущий ноль (физический ИНН). Значения длиной менее 9 удалялись сразу.
В итоге оказалось, что юридических лиц в выборке фактически не оказалось. Забыл ещё упомянуть, что перед добавлением ведущих нулей я удалил все значения, в которых не содержалось ни одной цифры, используя регулярное выражение. Таким образом, пустые значения тоже были удалены, что ускорило очистку данных.
СНИЛС - более специфический идентификатор. Как и с ИНН, я удалил все записи, не содержащие ни одной цифры, и привёл длину значений к 11 символам с ведущими нулями.
На всякий случай перед проверкой контрольного числа я проверил все ИНН и СНИЛС с помощью регулярного выражения, которое выявляло хотя бы один символ, не являющийся цифрой. На деле ошибок не оказалось. В противном случае можно было бы либо снова нормализовать, либо удалить проблемные записи.
Далее началась проверка по контрольному числу: все комбинации, где ИНН или СНИЛС не проходили эту проверку, удалялись. После этого я проверил ИНН на начало с "00" и обнаружил такие значения. Это не ошибка расчёта контрольного числа, такое действительно может встречаться. Поэтому я удалил все ИНН, начинающиеся на "00".
Для СНИЛС сначала проверил начало на "000", таких значений не нашлось. Это позволяет сделать вывод, что СНИЛС технически не может начинаться на "000" (по крайней мере исходя из объёма данных в 27 миллионов). В то же время СНИЛС спокойно может начинаться на "00". Поэтому по СНИЛС дополнительных удалений не потребовалось. Но стоит учитывать, что СНИЛС вида "00000000505" может быть корректным с точки зрения контрольного числа, как и ИНН, поэтому даже после проверки контрольным числом желательно фильтровать такие значения по началу "000".
Был также произведён поиск повторяющихся ИНН и СНИЛС. По СНИЛС дубликатов не обнаружилось, а вот ИНН встречались повторно. В итоге было решено удалить такие комбинации, так как они не несут никакой ценности, создавая лишь конфликт. На деле удалилось совсем немного конфликтных комбинаций.
В итоге удалось отсеять некорректных комбинаций порядка 150-250 тысяч, что при общем объёме ≈28 миллионов записей составляет совсем немного. Таким образом, в подавляющем большинстве случаев встретились корректные комбинации ИНН + СНИЛС.
P.S. С начала 2019 года СНИЛС оформляется в виде 10-значного номера без контрольного числа, что затрудняет его проверку на корректность привычным алгоритмом.
-
- Сообщения: 3
- Зарегистрирован: 10 июл 2025, 15:01
- Благодарил (а): 6 раз
- Поблагодарили: 5 раз
Re: болталка
А если его подлить в СУБД мощные? SQLServer или Oracle умеют наверное dbf конвертировать[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]01 июл 2025, 01:15 Доброго времени суток.
Как быть, если есть большой файл dbf и его не открыть в dbf viewer 2000? Программа просто падает и все. Файл весит 16 гб. Достоверно известно, что он целый, просто не хватает ресурсов в системе его открыть. Другие вьюверы работают еще хуже...
-
- профи
- Сообщения: 121
- Зарегистрирован: 16 дек 2021, 22:53
- Благодарил (а): 19 раз
- Поблагодарили: 21 раз
Re: болталка
Привет всем,подмутил ТСД Атол smart slim plus,никто не в курсе как сбросить до заводских?
- [N]etwork[P]irate
- профи
- Сообщения: 78
- Зарегистрирован: 15 сен 2023, 05:16
- Благодарил (а): 24 раза
- Поблагодарили: 118 раз
-
- профи
- Сообщения: 340
- Зарегистрирован: 29 ноя 2021, 15:40
- Благодарил (а): 123 раза
- Поблагодарили: 1216 раз
Re: болталка
"Замоскворецкий районный суд Москвы отправил под стражу главного редактора телеграм-канала Baza Глеба Трифонова, сообщили из зала суда.
Судья огласил решение: «Суд удовлетворил ходатайство следствия и избрал Трифонову Глебу Александровичу меру пресечения в виде заключения под стражу сроком на 1 месяц 27 суток». Таким образом, Трифонов останется в следственном изоляторе до рассмотрения дела по существу, передает ТАСС.
Ранее в СК подтвердили, что главному редактору Telegram-канала Baza Глебу Трифонову и его коллеге Татьяне Лукьяновой предъявлено обвинение в даче взяток полицейским из разных регионов с целью получения служебной информации. В ходе обысков в редакции и по месту жительства Трифонова изъяты документы и электронные носители.
В среду СК установил факты передачи журналистами Baza денег полицейским за информацию, изучив банковские переводы на счета силовиков."
И вдруг как выстрел в спину
забрали Катерину
©Высоцкий
Судья огласил решение: «Суд удовлетворил ходатайство следствия и избрал Трифонову Глебу Александровичу меру пресечения в виде заключения под стражу сроком на 1 месяц 27 суток». Таким образом, Трифонов останется в следственном изоляторе до рассмотрения дела по существу, передает ТАСС.
Ранее в СК подтвердили, что главному редактору Telegram-канала Baza Глебу Трифонову и его коллеге Татьяне Лукьяновой предъявлено обвинение в даче взяток полицейским из разных регионов с целью получения служебной информации. В ходе обысков в редакции и по месту жительства Трифонова изъяты документы и электронные носители.
В среду СК установил факты передачи журналистами Baza денег полицейским за информацию, изучив банковские переводы на счета силовиков."
И вдруг как выстрел в спину
забрали Катерину
©Высоцкий
- sandro123
- Администратор
- Сообщения: 563
- Зарегистрирован: 28 ноя 2021, 14:48
- Откуда: паттайя
- Благодарил (а): 1954 раза
- Поблагодарили: 582 раза
Re: болталка
ну тоже, хоть бы криптой брали..[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2025, 18:03 "Замоскворецкий районный суд Москвы отправил под стражу главного редактора телеграм-канала Baza Глеба Трифонова, сообщили из зала суда.
Судья огласил решение: «Суд удовлетворил ходатайство следствия и избрал Трифонову Глебу Александровичу меру пресечения в виде заключения под стражу сроком на 1 месяц 27 суток». Таким образом, Трифонов останется в следственном изоляторе до рассмотрения дела по существу, передает ТАСС.
Ранее в СК подтвердили, что главному редактору Telegram-канала Baza Глебу Трифонову и его коллеге Татьяне Лукьяновой предъявлено обвинение в даче взяток полицейским из разных регионов с целью получения служебной информации. В ходе обысков в редакции и по месту жительства Трифонова изъяты документы и электронные носители.
В среду СК установил факты передачи журналистами Baza денег полицейским за информацию, изучив банковские переводы на счета силовиков."
И вдруг как выстрел в спину
забрали Катерину
©Высоцкий
[Local Link Removed for Guests]
наш канал оперативных новостей
phreakerhelp_bot наш бот связи в telegram
toxid: 45D6774856D7BF74AD54751BD2FB4B1C810BB6CFA9694AEE6E9AD1E6D4686831332245703BA1
наш канал оперативных новостей
phreakerhelp_bot наш бот связи в telegram
toxid: 45D6774856D7BF74AD54751BD2FB4B1C810BB6CFA9694AEE6E9AD1E6D4686831332245703BA1