Всем доброго дня!
Публикую обновлённую версию зачистки утечек СДЭК 1-2-Контрагент
Сразу хочу выразить благодарность
AKPM, без его подсказки регулярных выражений эту версию сделать бы не удалось ещё долго.
Что изменено по сравнению с прошлой версией?
-В общей сложности удалено около 10 миллионов строчек с дублями и мусором;
-Удалены дубли в рамках одной строки.
Было: 79271234567 Марков Пётр Максимович
Марков Пётр Максимович YKT123
Стало: 79271234567 Марков Пётр Максимович YKT123
Таким образом удалось снизить вес каждого файла и сейчас все три файла весят меньше, чем в прошлой версии один только СДЭК-1.
Конкретно по файлам:
СДЭК-1
Было: размер - 12.4ГБ строк - 194.4М
Стало: размер - 7.82ГБ строк - 186.2М
СДЭК-2
Было: размер - 2.8ГБ строк - 41.5М
Стало: размер - 1.77ГБ строк - 40.34М
СДЭК-Контрагент
Было: размер - 2.03ГБ строк - 26.25М
Стало: размер - 1.58ГБ строк - 26.001М
Что НЕ сделано?
1-Не приведены в порядок номера телефонов, опасаюсь навредить с их изменением {а вот если это сделать правильно - получится удалить ещё много дублей};
2-Не приведён в общий вид регистр строк {знаю как это сделать, но не решил как будет красивее и удобнее};
3-Имена и наименования набранные латиницей не переведены в кириллицу {могут потеряться важные особенности некоторых слов, не совсем понимаю как это делать массово и с каким словарём};
4-Остаётся ещё много мусора и дублей, которые выявились бы после корректировки мусора и ошибок {скорее всего десятки миллионов строк};
5-Файл СДЭК-Контрагент не приведён к четкой структуре в виду некоторой хаотичности записей внутри {плюсы перед большинством номеров оставил умышленно, в будущем позволит проще обрабатывать эту информацию при реструктуризации и чистке}.
Но это ещё не всё!
После всей этой чистки были слиты СДЭК-1 и СДЭК-2, а потом проведена уборка дублей.
В этой версии удалось удалить ещё 9.7М строк.
Этот файл был назван СДЭК-12
Таким образом самый экономичный и лёгкий вариант - использовать слитый в одно СДЭК-12 и плюсом СДЭК-Контрагент.
Получится сэкономить - 400МБ дискового пространства и ускорить поиск за счёт сокращения строк в базе.
ПРОСЬБА
Проверьте целостность баз, ничего не должно было пострадать, но всякое бывает.
ССЫЛКА НА АРХИВЫ:
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Пароль: рекомендованный
Извините, объём работы слишком велик, решил эту обработку перекрыть именно рекомендованным.
Однако оставляю за собой право поделиться этой утечкой под личным паролем с теми пользователями, которые ещё не имеют рекомендованный пароль, но причинили мне здесь добро и помощь.
Новорегам и тем, кого не знаю - по прежнему готов выдать пароль от прошлых версий, если они до сих пор доступны.