Страница 72 из 100

Re: Прочие базы данных

Добавлено: 12 янв 2024, 17:43
ixicor
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:38
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 11:05
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 10:57 Подскажите есть ли что-то подобное в EmEditor?
Regex-ами можно поправить.
Можно просто пакетной заменой в Emeditor, там не так много возможных комбинаций.
да...emeditor наше все...менял так на "всякий случай" ГРЗ, а вот с ФИО не догадался....пакетная замена шикарная штука - помогла заменить таблицу сдека на телефоны

Re: Прочие базы данных

Добавлено: 12 янв 2024, 18:28
Altron
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:43
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:38
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 11:05

Regex-ами можно поправить.
Можно просто пакетной заменой в Emeditor, там не так много возможных комбинаций.
да...emeditor наше все...менял так на "всякий случай" ГРЗ, а вот с ФИО не догадался....пакетная замена шикарная штука - помогла заменить таблицу сдека на телефоны
ГРЗ через latrus все время прогоняю.
Тоже "на всякий случай".
Сейчас даже метки стал ставить, была замена через latrus или нет...

Re: Прочие базы данных

Добавлено: 12 янв 2024, 23:08
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 14:32 в очень многих дампах такое
К сожалению, да, и это работа на годы вперед, если не использовать какие-то хитрые скрипты.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:36 В том файле где 115кк строк их намного больше
Подтверждаю, я считал в минимальной версии, где убрал пустые записи без контактов, дат рождения и счетов, там заменил вручную {ниже поясню почему вручную}, было всего в районе 360 строк.
Проверил в большом файле, а там их минимум 11 тысяч.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:38 Можно просто пакетной заменой в Emeditor, там не так много возможных комбинаций.
В таблицах с автомобильными номерами это хороший вариант, а вот с ФИО и наименованиями - нет.
Там обилие иностранных граждан и компаний, если транслитирировать прямым методом, тогда такие имена и названия станут бесполезным набором букв, например Alex станет чем-то вроде Алех

К тому же там есть ошибки раскладки, когда часть имени написана правильно клоавишей,Ю но не в той раскладке - Иванович - Иваноdbx

Хочу еще добавить свои рассуждения на тему этой базы.
В оригинальности ее сомнений нет, как и в полезности, можно установить родственные и дружеские связи по номерам телефонов, можно понять где человек раньше жил по старым городским телефонам {а может и сейчас живет}.
Но сдается мне, что нам мало того, что скинули далеко не все записи, которые на самом деле есть, но еще и не выбросили в паблик дополнительные таблицы.
Это же банк, он должен собирать номера документов, ИНН, паспорт, водительское, адрес прописки и фактический, даже отдельная таблица с комментариями СБ могла бы быть.
В данном случае есть лишь пометка рядом с ФИО о том, что клиент умер, даже не в отдельной ячейке, а прямо в ФИО.
У меня такое ощущение, что это либо выгрузка из более сложной базы, которая предназначена для каких-то обзвонщиков, технических служб, тестов, либо это нам специально кинули подачку, но явно не все и не основную рабочую базу, может чтобы мы думали что у нас полная версия и перестали искать?

Re: Прочие базы данных

Добавлено: 13 янв 2024, 12:31
Br1wnHat
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 23:08
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 14:32 в очень многих дампах такое
К сожалению, да, и это работа на годы вперед, если не использовать какие-то хитрые скрипты.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:36 В том файле где 115кк строк их намного больше
Подтверждаю, я считал в минимальной версии, где убрал пустые записи без контактов, дат рождения и счетов, там заменил вручную {ниже поясню почему вручную}, было всего в районе 360 строк.
Проверил в большом файле, а там их минимум 11 тысяч.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:38 Можно просто пакетной заменой в Emeditor, там не так много возможных комбинаций.
В таблицах с автомобильными номерами это хороший вариант, а вот с ФИО и наименованиями - нет.
Там обилие иностранных граждан и компаний, если транслитирировать прямым методом, тогда такие имена и названия станут бесполезным набором букв, например Alex станет чем-то вроде Алех

К тому же там есть ошибки раскладки, когда часть имени написана правильно клоавишей,Ю но не в той раскладке - Иванович - Иваноdbx

Хочу еще добавить свои рассуждения на тему этой базы.
В оригинальности ее сомнений нет, как и в полезности, можно установить родственные и дружеские связи по номерам телефонов, можно понять где человек раньше жил по старым городским телефонам {а может и сейчас живет}.
Но сдается мне, что нам мало того, что скинули далеко не все записи, которые на самом деле есть, но еще и не выбросили в паблик дополнительные таблицы.
Это же банк, он должен собирать номера документов, ИНН, паспорт, водительское, адрес прописки и фактический, даже отдельная таблица с комментариями СБ могла бы быть.
В данном случае есть лишь пометка рядом с ФИО о том, что клиент умер, даже не в отдельной ячейке, а прямо в ФИО.
У меня такое ощущение, что это либо выгрузка из более сложной базы, которая предназначена для каких-то обзвонщиков, технических служб, тестов, либо это нам специально кинули подачку, но явно не все и не основную рабочую базу, может чтобы мы думали что у нас полная версия и перестали искать?
Вы проводили всю эту работу с оригинальной версией,которую в тг слили? (Там файл был разбит на три части из-за размера и ещё пароль был G5ydUW>f*qbr8S)

Re: Прочие базы данных

Добавлено: 13 янв 2024, 14:28
Tereha
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 янв 2024, 12:31
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 23:08
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 14:32 в очень многих дампах такое
К сожалению, да, и это работа на годы вперед, если не использовать какие-то хитрые скрипты.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:36 В том файле где 115кк строк их намного больше
Подтверждаю, я считал в минимальной версии, где убрал пустые записи без контактов, дат рождения и счетов, там заменил вручную {ниже поясню почему вручную}, было всего в районе 360 строк.
Проверил в большом файле, а там их минимум 11 тысяч.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 янв 2024, 17:38 Можно просто пакетной заменой в Emeditor, там не так много возможных комбинаций.
В таблицах с автомобильными номерами это хороший вариант, а вот с ФИО и наименованиями - нет.
Там обилие иностранных граждан и компаний, если транслитирировать прямым методом, тогда такие имена и названия станут бесполезным набором букв, например Alex станет чем-то вроде Алех

К тому же там есть ошибки раскладки, когда часть имени написана правильно клоавишей,Ю но не в той раскладке - Иванович - Иваноdbx

Хочу еще добавить свои рассуждения на тему этой базы.
В оригинальности ее сомнений нет, как и в полезности, можно установить родственные и дружеские связи по номерам телефонов, можно понять где человек раньше жил по старым городским телефонам {а может и сейчас живет}.
Но сдается мне, что нам мало того, что скинули далеко не все записи, которые на самом деле есть, но еще и не выбросили в паблик дополнительные таблицы.
Это же банк, он должен собирать номера документов, ИНН, паспорт, водительское, адрес прописки и фактический, даже отдельная таблица с комментариями СБ могла бы быть.
В данном случае есть лишь пометка рядом с ФИО о том, что клиент умер, даже не в отдельной ячейке, а прямо в ФИО.
У меня такое ощущение, что это либо выгрузка из более сложной базы, которая предназначена для каких-то обзвонщиков, технических служб, тестов, либо это нам специально кинули подачку, но явно не все и не основную рабочую базу, может чтобы мы думали что у нас полная версия и перестали искать?
Вы проводили всю эту работу с оригинальной версией,которую в тг слили? (Там файл был разбит на три части из-за размера и ещё пароль был G5ydUW>f*qbr8S)
Большой текстовый файл содержит в себе данные из 3 маленьких?

Re: Прочие базы данных

Добавлено: 15 янв 2024, 11:08
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 янв 2024, 12:31 Вы проводили всю эту работу с оригинальной версией,которую в тг слили? (Там файл был разбит на три части из-за размера и ещё пароль был G5ydUW>f*qbr8S)
Работал с версией из 3 файлов, да, за день до слива в окончательный паблик обменялся с одним из форумчан, примерно тогда же давний соратник предложил эту базу на разбор без условий, но я уже скачивал к тому времени архивы. Чуть позже увидел версию в одном файле и даже приостановил обработку на время сверки и исследований, однако стало понятно, что версия из трех файлов разбирается удобнее и по материалу не беднее.
Кстати, версия поданная одним файлом своей структурой напомнила мне базу родственных связей, которая мягко говоря не оптимизирована и спустя неделю работы ужимается до 8-11 гигабайт {что-то там в районе 70 миллионов человек, и это не предел}. Жаль не могу поделиться ее обработкой в силу обязательств.
Файл был разбит на части не из-за размера, там разное содержимое по-моему было. Хотя исходники уже удалил, могу путать.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 янв 2024, 14:28 Большой текстовый файл содержит в себе данные из 3 маленьких?
Тесты показали, что да это чья-то версия сборки частей базы, но под мои нужды она не совсем подошла и не считаю ее рациональной, как написал выше, она напомнила родственные связи до обработки, где на каждого человека была отдельная строка с дублями и если в квартире жило пять человек - получалось 5 отдельных строк со всеми жильцами, хотя все это вполне реально уместить в одну строку и не дублировать.

Я когда первую тестовую альфу конвертировал, там тоже получилось на каждую личность все свести в одну строку, а не плодить для каждого телефона и каждой карточки отдельные строки с ФИО, датами рождения. Не говоря уже о том, когда к нескольким картам один и тот же телефон привязан и все это по кругу идет. На выходе получается файлик размером в 10 гигабайт и это при условии, что в базе остаются дапнные о картах и счетах, которые далеко не всем нужны. Без них ощутимо меньше. И это еще тоже не самая тщательная чистка, дубли там есть еще из-за дат рождения и контактов местами указанных, местами нет. Если со временем человек, с которым обменялись базами будет не против, поделюсь конвертом.

Хотя выше Search уже поделился своим вариантом, этому форумчанину и его работе на мой взгляд стоит верить.

Re: Прочие базы данных

Добавлено: 15 янв 2024, 16:55
Tereha
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 янв 2024, 11:08
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 янв 2024, 12:31 Вы проводили всю эту работу с оригинальной версией,которую в тг слили? (Там файл был разбит на три части из-за размера и ещё пароль был G5ydUW>f*qbr8S)
Работал с версией из 3 файлов, да, за день до слива в окончательный паблик обменялся с одним из форумчан, примерно тогда же давний соратник предложил эту базу на разбор без условий, но я уже скачивал к тому времени архивы. Чуть позже увидел версию в одном файле и даже приостановил обработку на время сверки и исследований, однако стало понятно, что версия из трех файлов разбирается удобнее и по материалу не беднее.
Кстати, версия поданная одним файлом своей структурой напомнила мне базу родственных связей, которая мягко говоря не оптимизирована и спустя неделю работы ужимается до 8-11 гигабайт {что-то там в районе 70 миллионов человек, и это не предел}. Жаль не могу поделиться ее обработкой в силу обязательств.
Файл был разбит на части не из-за размера, там разное содержимое по-моему было. Хотя исходники уже удалил, могу путать.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 янв 2024, 14:28 Большой текстовый файл содержит в себе данные из 3 маленьких?
Тесты показали, что да это чья-то версия сборки частей базы, но под мои нужды она не совсем подошла и не считаю ее рациональной, как написал выше, она напомнила родственные связи до обработки, где на каждого человека была отдельная строка с дублями и если в квартире жило пять человек - получалось 5 отдельных строк со всеми жильцами, хотя все это вполне реально уместить в одну строку и не дублировать.

Я когда первую тестовую альфу конвертировал, там тоже получилось на каждую личность все свести в одну строку, а не плодить для каждого телефона и каждой карточки отдельные строки с ФИО, датами рождения. Не говоря уже о том, когда к нескольким картам один и тот же телефон привязан и все это по кругу идет. На выходе получается файлик размером в 10 гигабайт и это при условии, что в базе остаются дапнные о картах и счетах, которые далеко не всем нужны. Без них ощутимо меньше. И это еще тоже не самая тщательная чистка, дубли там есть еще из-за дат рождения и контактов местами указанных, местами нет. Если со временем человек, с которым обменялись базами будет не против, поделюсь конвертом.

Хотя выше Search уже поделился своим вариантом, этому форумчанину и его работе на мой взгляд стоит верить.
А мне версия одним файлом зашла больше. Добавил связь по полю идентификатор и любо дорого пользоваться.

ОСАГО МСК 01/2023

Добавлено: 15 янв 2024, 18:38
ratushka
База ОСАГО Москва январь 2023 г.

Состав: policy, vin, Модель, insurer_name, region, city, osago_start_date, osago_end_date, VIN, Категория, Год выпуска, Двигатель, Мощность лс, Телефон, ФИО, ДР, ГРЗ.

Формат: excel.
7600 строк.

Под конверт в кронос.
Пароль личный только для местных.

[External Link Removed for Guests]

Re: Прочие базы данных

Добавлено: 15 янв 2024, 18:55
HugoBoss
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 янв 2024, 11:08 Тесты показали, что да это чья-то версия сборки частей базы
Это оригинал, а все остальное - версии и доработки.
Именно в таком виде ее выложили хакеры из Киборга, а потом когда сайт лег, переложили в канал.

Re: Прочие базы данных

Добавлено: 15 янв 2024, 19:23
barabas66
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 янв 2024, 18:55
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 янв 2024, 11:08 Тесты показали, что да это чья-то версия сборки частей базы
Это оригинал, а все остальное - версии и доработки.
Именно в таком виде ее выложили хакеры из Киборга, а потом когда сайт лег, переложили в канал.
Именно, первоисточник выкладывался одним файлом, а потом уже, когда сайт лег, посыпались поделия рукожопых анонимов.