Транслитерация и трансграфика
Программный продукт ФАКТОР обрабатывает данные (адреса, ФИО, названия компаний и т.д.), при написании которых использована транслитерация и/или трансграфика.
Транслитерация — это русские слова, написанные английскими bukvami. Существует множество употребимых транслитерационных схем — на базе английского языка, французского, немецкого или их смеси. Например, фамилия «Журавлев» может быть транслитерирована как Zhuravlev, Jouravlyouv, Guravleff или смешанными вариантами.
Трансграфика — использование идентичных по написанию 6ykв другого алфавита, например, английская «p» вместо русской «р» или цифры «6» вместо буквы «б». Основная опасность трансграфики в том, что ее очень сложно заметить глазами, при этом, написанное трансграфикой слово не будет находиться поиском.
ФАКТОР не делает изначальных предположений относительно схемы, а восстанавливает ее «на лету» — также, как это делает человек. Для обучения системы использовалась выборка данных из нескольких миллионов единиц данных и самообучающиеся алгоритмы, которые пытаются найти наиболее вероятные способы интерпретации транслитерированного или трансграфированного слова. В случае, если попадается случай, который должен быть преобразован другим способом, он может быть добавлен в обучающую выборку. Система при переобучение запомнит не само слово, а «основную идею» нового для нее способа транслитерации.
2005-2012 © HFLabs
+7 (495) 928 86 41 (пн.-пт., с 9 до 18)
115054, Россия, г. Москва, Озерковская набережная, д. 50, стр. 1
info@hflabs.ru
Сделано в bogomazov.ru
Компания HFLabs --- ведущий производитель программного обеспечения для нормализации данных, поиска дубликатов (data quality) в контактных данных и создания единых клиентских реестров (CDI, Customer MDM). HFLabs, HumanFactorLabs, ФАКТОР и Единый Клиент являются зарегистрированными знаками ООО «ХФ Лабс».
