Страница 19 из 100
Re: Прочие базы данных
Добавлено: 30 июл 2023, 10:14
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 08:33
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:29
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:11
в открытый доступ попал файл, содержащий данные клиентов предположительно сети клинико-диагностических лабораторий «KDL» (kdl.ru).
Продолжение…
[External Link Removed for Guests]
Cleaned: regexp_extract Patient from data:
[External Link Removed for Guests]
Просто красавчик! Столько времени сэкономили, мог бы десять благодарностей отправить - отправил бы.
Чем извлекали? Вручную или каким-то инструментом?
Re: Прочие базы данных
Добавлено: 30 июл 2023, 13:18
theduck
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 10:14
Просто красавчик! Столько времени сэкономили, мог бы десять благодарностей отправить - отправил бы.
Чем извлекали? Вручную или каким-то инструментом?
SQL:
Код: [Local Link Removed for Guests]
SELECT distinct
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "LastName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) LastName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "FirstName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) FirstName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "MiddleName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) MiddleName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "PhoneNumber[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) PhoneNumber,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "DOB[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) DOB,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "Email[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) Email
FROM
wf_preorder
Re: Прочие базы данных
Добавлено: 30 июл 2023, 16:52
stdrom
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 13:18
SQL:
SELECT distinct
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "LastName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) LastName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "FirstName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) FirstName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "MiddleName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) MiddleName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "PhoneNumber[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) PhoneNumber,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "DOB[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) DOB,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "Email[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) Email
FROM
wf_preorder
Сколько времени заняла обработка? Поди минут 5-10 если там база вроде эта около 1М строк? Просто мы тут с Burg0mister дискутируем за базы и я топлю за преимущество SQL перед Кронос, даже например для обработки.
Re: Прочие базы данных
Добавлено: 30 июл 2023, 19:13
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 16:52
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 13:18
SQL:
SELECT distinct
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "LastName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) LastName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "FirstName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) FirstName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "MiddleName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) MiddleName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "PhoneNumber[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) PhoneNumber,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "DOB[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) DOB,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "Email[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) Email
FROM
wf_preorder
Сколько времени заняла обработка? Поди минут 5-10 если там база вроде эта около 1М строк? Просто мы тут с Burg0mister дискутируем за базы и я топлю за преимущество SQL перед Кронос, даже например для обработки.
Вот же ты неутомимый
Так-то можно регуляркой такое и в EmEditor сделать, или в Питоне каком-нибудь {наверное даже и в Кроносе, но я без понятия как оно там и долго наверное},
Но не спорю, круто и удобно!
theduck благодарю за подсказку!
Re: Прочие базы данных
Добавлено: 30 июл 2023, 19:39
sergeiii
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 08:33
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:29
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:11
в открытый доступ попал файл, содержащий данные клиентов предположительно сети клинико-диагностических лабораторий «KDL» (kdl.ru).
Продолжение…
[External Link Removed for Guests]
Cleaned: regexp_extract Patient from data:
[External Link Removed for Guests]
у меня не открывается...

Re: Прочие базы данных
Добавлено: 30 июл 2023, 20:18
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 19:39
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 08:33
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]29 июл 2023, 16:29
Продолжение…
[External Link Removed for Guests]
Cleaned: regexp_extract Patient from data:
[External Link Removed for Guests]
у меня не открывается...
Скорее всего имя у файла слишком длинное.
Опубликую свой сборник.
В нём:
1-файл обработанный
theduck, но там изменил даты на общепринятый формат {и вроде разделители ещё поменял на вертикальную черту};
2-Папка Order, а в ней куча файликов - это первая слитая таблица KDL, которую здесь опубликовал
sergeiii
Обрабатывал на скорую руку, поэтому оставил только самое важное: ФИО, телефон, почту, местами комментарии, но они где-то обрезаны, где-то потерялись, даты, города, подробности о резюме и опыте работы соискателей тоже не сохранил, уж больно там всё прыгающее.
В оформлении всё стандартно
-дубли и мусор основные убраны
-телефоны и даты подчищены и приведены к одному виду
-кодировка кириллица Win-1251
Разделители только не везде менял на вертикальную черту.
Ссылка:
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Пароль:
Рекомендованный
Постараюсь на днях исправленную версию добросить, с заголовками, разделителями, с меньшим количеством мусора.
Re: Прочие базы данных
Добавлено: 31 июл 2023, 06:45
theduck
kdl.ru order.sql конвертировано в kdl.ru order.sql - tableX.csv
[External Link Removed for Guests]
Re: Прочие базы данных
Добавлено: 31 июл 2023, 07:09
theduck
kdl.ru order.sql - tableX - home-order.csv
-извлечен home-order (phone, fio, region, email_to, request_number, source, date) 84707
-дубли убраны
-телефоны подчищены
-кодировка кириллица Win-1251
[External Link Removed for Guests]
Re: Прочие базы данных
Добавлено: 31 июл 2023, 08:01
theduck
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 16:52
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 13:18
SQL:
SELECT distinct
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "LastName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) LastName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "FirstName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) FirstName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "MiddleName[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) MiddleName,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "PhoneNumber[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) PhoneNumber,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "DOB[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) DOB,
regexp_extract(regexp_extract(data, "Patient.*?[}]", 0), "Email[\"]+;.*?:[\"][\"](.*?)[\"]+;", 1) Email
FROM
wf_preorder
Сколько времени заняла обработка? Поди минут 5-10 если там база вроде эта около 1М строк? Просто мы тут с Burg0mister дискутируем за базы и я топлю за преимущество SQL перед Кронос, даже например для обработки.
1М строк?
Пришлите, я попробую.
Re: Прочие базы данных
Добавлено: 31 июл 2023, 08:57
Lakmus
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]30 июл 2023, 20:18
Вот же ты неутомимый
Так-то можно регуляркой такое и в EmEditor сделать, или в Питоне каком-нибудь {наверное даже и в Кроносе, но я без понятия как оно там и долго наверное},
Но не спорю, круто и удобно!
theduck благодарю за подсказку!
Друзья, подскажите как в SQL дубли можно удалить? У меня есть базы 100М+ на постгресе, но запрос по типу
Delete FROM table
Where id not in
(
select min(id) as MinRowID
FROM table
group by column1, column2, column3, column4, column5
)
пробовал запускать и за три дня так и не дождался ответа от БД, а каждый раз выкачивать и удалять дубли это не лучшая идея как по мне. Хотя тот же EmEditor за несколько секунд всё чистит