Коды качества
Операция приведения данных из слабоструктурированного текстового формата к установленному стандарту всегда содержит некоторую погрешность. ФАКТОР реализует полностью детерминированный процесс, основанный на правилах, и не содержит слабоуправляемых компонентов, таких как нейронные сети, вероятностные модели или нечеткую логику в обычном ее понимании.
В то же время, количество правил, эвристик, объемных справочников сложной структуры и других механизмов, воздействующих на процесс преобразования данных, достаточно велико. Для того, чтобы обеспечить полную управляемость процессом, а также с наименьшими затратами получать результаты, представляющие наибольший практический интерес, была разработана система кодов качества.
Задачи, решаемые с помощью кодов качества
- Возможность организации процесса, близкого к оптимальному, имеющего своим результатом данные 100% исходных данных, обработанные с достоверностью 99,9%. Это принципиальное преимущество технологии кодов качества.
- Быстрое и полностью автоматическое получение подмножества данных, приведенных к показателям качества, близким к ста процентам (на практике около 99,99%, или одна ошибка на 10 тысяч записей). Эта группа обычно составляет порядка 85-95% от исходного объема записей. Здесь и далее процентные соотношения получаемых групп данных усреднены по результатам обработки различных компонентов из 50 миллионов записей из различных источников. Показатели для каждой конкретной базы данных могут отличаться, хотя и незначительно.
- Возможность привязки бизнес-процессов к показателям качества данных. Это позволяет использовать параметры качества, правдоподобия и непротиворечивости данных.
- Возможность классификации данных по параметру их качества и типам содержащихся в них проблем. Это позволяет эффективно организовать процессы сбора, актуализации, ручной доработки данных и их использования. Например, не отправлять письма по городским адресам, не содержащим номер дома.
- Возможность получения количественных характеристик типичных проблем в первичных источниках данных, и на основании статистики оптимизировать процессы получения данных.
Коды проверки и коды качества результата
В зависимости от типа данных (адреса, ФИО, телефоны и т.д.) возможны две степени классификации кодов качества:
Код проверки — является характеристикой процесса преобразования. Отвечает на вопрос о том, насколько результат обработки соответствует исходным данным, какие изменения были произведены, и, если были какие-то сложности с интерпретацией исходных данных, то какие именно.
Код качества результата — является характеристикой полученного результата. Отвечает на вопрос о том, насколько результирующие данные пригодны для целевого использования.
Например, исходный адрес «Москва, ул. Тверская» будет иметь хороший код проверки, поскольку он может быть однозначно распознан, и плохой код качества результата, поскольку по этому адресу нельзя отправить почту. А в случае адреса «Москва Тверская рядом с макдональдсом дом 3 вход в арку», код качества проверки будет плохим, поскольку не все компоненты адреса («рядом с макдональдсом» и «вход в арку») будут распознаны как адресные.
2005-2012 © HFLabs
+7 (495) 928 86 41 (пн.-пт., с 9 до 18)
115054, Россия, г. Москва, Озерковская набережная, д. 50, стр. 1
info@hflabs.ru
Сделано в bogomazov.ru
Компания HFLabs --- ведущий производитель программного обеспечения для нормализации данных, поиска дубликатов (data quality) в контактных данных и создания единых клиентских реестров (CDI, Customer MDM). HFLabs, HumanFactorLabs, ФАКТОР и Единый Клиент являются зарегистрированными знаками ООО «ХФ Лабс».
