Герман Иноземцев: «Пора навести порядок в данных»

erid: 2VfnxvVrGr5

10.02.2026

16:00

Проблема разнородного ввода данных в CRM-системах фармацевтических компаний, создающая информационный «мусор», не нова. О том, как инструменты AI могут очищать, стандартизировать и сопоставлять записи, превращая информационный «мусор» в бизнес-актив, рассказал президент медико-фармацевтического направления проекта PharmGPT Герман Иноземцев.

Фото: ru.123rf.com

Что посеешь…

Еще 25 лет назад, работая над дипломной работой по специализации «Управление проектами в информационных технологиях» Сиднейского университета в Австралии, я обратил внимание на неэффективность многих «идеальных» IT-решений в нашем не идеальном, но реальном мире.

Уже тогда казалось парадоксальным, чтобы получить хоть сколько-нибудь ценный результат на выходе, будь то систематизация информации, облегчение поиска и обработки, приоритизация или планирование коммуникаций внутри и снаружи фармкомпании, требовались колоссальные усилия.

И тогда, и сейчас для IT-систем была актуальна распространенная у специалистов поговорка: Garbage in, garbage out, или «Что посеешь, то и пожнешь». И вот, наконец, в 2021—2026 годах, 20 лет спустя, настала эра искусственного интеллекта, который может упростить очистку вводимых в разнообразные базы и системы данных от намеренного или случайного «сора» и, соответственно, информационно-аналитического «мусора» на выходе из IT-системы.

Прогресс в этой области связан с тем, что сегодня можно достичь заметного эффекта от фарм-CRM-систем без значительных временных, финансовых и интеллектуальных затрат благодаря специализированным ИИ-«инструментам очистки вводимых данных».

В чем была проблема

Системы управления взаимоотношениями с клиентами (CRM) в реалиях российской фармы часто страдают от беспорядочных и несогласованных данных, когда сотрудники вводят информацию вручную. Адреса, названия ЛПУ и контактные имена врачей вводятся в разных форматах с ошибками, сокращениями или пропущенными частями, затрудняя согласование записей. Например, один сотрудник может ввести адрес как «ул. Главная, д. 12, г. Екатеринбург», тогда как другой напишет «Главная улица, дом 12, город Екатеринбург». Врач может фигурировать как «доктор Иван Петрович Сидоров» в одном месте и как «Сидоров И. П.» в другом. Система отмечает эти записи как разные адреса и разных специалистов¹.

Эти несоответствия приводят к тому, что записи, относящиеся к одному объекту, часто не совпадают, разрывая связи между системой CRM и продажами. Результат — низкое качество данных, которое стало широко известной проблемой: согласно исследованию Гарвардского бизнес-обзора, лишь у 3% компаний данные соответствуют базовым стандартам качества². Традиционные методы очистки данных, основанные на жестких правилах и циркулярах могут демонстрировать недостаточно гибкости и требовать более высокие трудозатраты при обработке больших объемов «беспорядочной и сложной» информации².

Поиск решения

Традиционные методы обработки данных полагались на правила и классическое нечеткое сопоставление. К ним относятся алгоритмы подобия строк (метод SoundEx и др.), позволяющие выявлять близкие совпадения несмотря на наличие ошибок или перестановку слов³. Например, система гибкого сопоставления способна определить, что строки «Лютик, ООО» и «ООО Лютик» близки друг другу.

Существуют специализированные инструменты: библиотеки стандартизации адресов и мейлинговые инструменты предоставляют сервисы для анализа и проверки правильности адресов (например, разделение адреса на улицу, город, индекс), возвращая нормализованный формат. Средства управления мастер-данными (Master Data Management, MDM) применяют словари псевдонимов или корпоративные иерархии (дочерних и материнских организаций и инстанций)².

Традиционные методы обычно требуют тщательной настройки (создания правил, поддержания списков эквивалентных значений). Инструмент сравнения строк воспринимает данные как текст, не учитывая, что «С-Петербург» и «Санкт-Петербург» обозначают одно и то же место, а название компании, указанное аббревиатурой, идентично полному названию корпорации³.

Современные технологии искусственного интеллекта, использующие большие языковые модели (Large Language Models, LLM), способны интерпретировать смысл текста. Эти модели используют предварительно накопленные знания и контекст, позволяя распознавать, что «СПб» — сокращение от «Санкт-Петербург», а «главврач» может быть сокращением «главный врач» ².

Ниже мы рассмотрим, каким образом этот ИИ-инструмент на основе LLM решает проблемы сопоставления данных CRM.

Стандартизация и очистка данных

Одним из способов использования LLM является автоматическая чистка и стандартизация данных — преобразование случайных форматов полей в структурированный и последовательный вид. Большие языковые модели позволяют извлекать ключевые компоненты из произвольного ввода и выдавать нормализованный результат. Например, OpenAI GPT-4 применялся для разбора почтовых адресов на структурированные поля (улицу, город, район и т.п.) с высоким уровнем точности⁴. Вместо сложных регулярных выражений или строгих шаблонов формы можно просто передать исходный текст адреса в LLM и попросить вывести очищенный формат. Изначальное понимание русского языка и контекста позволяет LLM PharmGPT справляться с разнообразием форматов, орфографическими ошибками, а также опечатками. Современный интерфейс языковой модели облегчает этот процесс благодаря возможности вызывать функции и получать структуру вывода в заранее заданном формате, что упрощает интеграцию с системами CRM⁵.

Пример использования большого языкового моделирования для очистки и нормализации записи CRM продемонстрирован следующим образом: сырой текст, содержащий контактную информацию (имя, должность, организацию, адрес, телефоны и т.д.), передавался в ChatGPT с инструкциями извлечь конкретные поля. Модель фиксировала структурированный объект с такими полями, как «ФИО», «учреждение» и корректно выделенным полем адреса (улица, город, регион, почтовый код), несмотря на изначально неструктурированную форму⁶. Это показывает, как LLM справляются с задачей преобразования свободно введенных данных в упорядоченную структуру.

Большие языковые модели действуют как ассистенты по качеству данных, исправляя расхождения и назначая значения правильным полям. Так, LLM-модель смогла правильно выявить строки адреса и привести номера телефонов к единому виду⁶. Такая унификация может облегчить последующее сопоставление записей, так как все элементы приобретают единый формат после обработки LLM.

Исследования подтвердили, что GPT-модели способны гибко извлекать структурированные данные из неструктурированных вводов⁴.

Кроме того, большие языковые модели корректно обрабатывают альтернативные написания и аббревиатуры. Хорошо сформулированный запрос (или настроенная модель) сможет распознать, что «пр.» означает «проезд», а «стр.» равносильно «строению». Специалисты отмечают, что основанная на LLM проверка данных «улавливает» суть данных, а не только форму, «понимания», например, что «ЛПУ» и «Лечебно-профилактическое учреждение» означают одно и то же место или что должности «проф» и «профессор» эквивалентны². Устраняя подобные различия, LLM обеспечивает основу для точного сопоставления записей CRM корректно «привязывает» официальные данные продаж.

Семантическое сопоставление сущностей ИИ

Следующим этапом после стандартизации отдельных полей становится задача сопоставления записей — определение соответствия CRM-записи сущности в другом наборе данных (например, связывание свободной текстовой записи имени клиента с официальным списком клиентов). Здесь большие языковые модели предлагают возможности гибкого сопоставления с учетом контекста, они учитывают общие знания и смысловую схожесть между элементами.

Один из подходов заключается в прямом обращении к большой языковой модели с вопросом, представляют ли две записи одну и ту же сущность. Например, задав два слегка отличающихся имени контакта или адреса, можно спросить: «Это одна и та же личность или организация?». Языковые модели часто делают обоснованные выводы, основываясь на своем знании общих синонимов, прозвищ или региональных особенностей нотаций адресов. По моим наблюдениям, современные большие языковые модели способны довольно хорошо обрабатывать такие запросы. Например, модель PharmGPT может распознать, что «Склиф» и «НИИ скорой помощи им. Склифосовского» обозначают одну организацию, основываясь на широких оперативных знаниях.

Особенность больших языковых моделей состоит также в способности обнаруживать менее очевидные взаимосвязи. Пример из финансовой сферы, где команда разработчиков использовала GPT-4 для верификации сведений о трудоустройстве сотрудников. Они обнаружили, что модель могла установить связь между двумя разными наименованиями организаций, определяемыми структурой собственности. Например, изучив платежную ведомость от фирмы PrimePoint LLC и строку работодателя «Город Атлантик-Сити», GPT-4 верно предположил, что PrimePoint выступает поставщиком услуг учета заработной платы для муниципалитета города, что позднее подтвердилось соответствующим пресс-релизом⁵. В другом примере модель установила связь между организацией «Партнеры передовой визуализации» и ее материнской компанией «Раднет», обладая информацией о дочерних компаниях⁵. Подобные случаи демонстрируют, как общий опыт и логические «рассуждения» большой языковой модели помогают разрешать сущности, требуя понимания контекста или внешних фактов, а не простого сходства символов.

Еще одной масштабируемой техникой на основе больших языковых моделей становится использование семантических вложений (embedding) для реализации гибкого сопоставления. Вместо подачи каждой пары элементов для сравнения используется представление данных в форме численных векторов, отражающих смысл текста. Подавая имена компаний или адреса в векторную модель (например, встроенные текстовые представления OpenAI или аналогичные трансформеры), получаем векторы, которые содержат семантическую похожесть: сходные по значению записи оказываются рядом в пространстве векторов. Затем можно применять алгоритм ближайшего соседа для нахождения наиболее близких соответствий среди набора данных⁸.

Этот подход может применяться при сопоставлении записей между различными источниками данных. Например, исследования доктора Лавидепа Саини показали возможности применения GPT-эмбеддинга для выявления совпадений между двумя базами данных: было создано «пространство векторов», где ближайший семантический «сосед» определял наилучшие соответствия и оценки потенциальных совпадений⁸.

Такой подход позволяет лучше учитывать вариативность формулировок, объединяя, скажем, «Московский Университет», «Университет им. Ломоносова» и «МГУ» в группу близко расположенных векторов, увеличивая вероятность обнаружения совпадения. Можно также задать порог уровня близости и помечать соответствующие пары как возможные совпадения. Важно отметить, что этот способ не требует прописывания конкретных правил для каждого случая псевдонима или сокращения: самообучение LLM-модели уже охватывает многие из этих вариантов. Это гибридный подход, сочетающий возможности искусственного интеллекта и классических поисковых методов: получение сравнимого смысла («означает примерно то же самое»), а не просто внешнего сходства («кажется похожим»).

Интеграция решений на основе LLM в рабочие процессы CRM

Практически реализовать решение на основе больших языковых моделей можно несколькими способами, учитывая доступность API большинства платформ CRM для работе с данными. Одна из стратегий предполагает пакетную обработку: записи экспортируются из CRM через API, затем проходят обработку сервисом на основе LLM, к примеру, PharmGPT — для приведения полей к единообразному виду и нахождения соответствий, после чего данные возвращаются в корпоративную CRM очищенными и структурироваными. Многие команды реализовали такую схему путем интеграции сервисов в свои конвейеры обработки данных. Например, аналитики данных использовали скрипты на Python с моделями GPT для парсинга адресных полей и последующего обновления CRM компонентами извлеченного адреса⁶.

Очищенные и стандартизированные данные при возвращении из LLM в родную CRM адаптируются к структурам формата CSV или JSON, совместимым с данной CRM, что способствует автоматизации процессов⁵.

Фармкомпании и другие организации внедряют средства больших языковых моделей непосредственно в рабочие процессы CRM для обеспечения непрерывного контроля качества вводимых данных. Одним из таких примеров можно назвать приложение для улучшения качества данных DataGroomr для CRM Salesforce, которое ввело функцию рекомендаций на основе искусственного интеллекта с применением большой языковой модели для анализа записей в режиме реального времени⁹. Данная модель рассматривает новые или редактируемые записи и интеллектуально рекомендует дальнейшие шаги, такие как объединение дубликатов, проверку деталей или приведение записей к нужному виду, исходя из контекстного понимания данных, а не статичных правил⁹. Когда представитель или региональный менеджер создает в CRM потенциально дублирующий аккаунт с немного другим названием или некорректным адресом, большая языковая модель сразу сигнализирует ему об этом и предлагает объединить или очистить запись. Еще один пример, инструмент Live Dedupe, мгновенно ловит дубликаты на этапе ввода данных⁹. Данный функционал доступен и в инструментарии PharmGPT в России.

Этот модуль может интегрироваться в качестве умного помощника внутри CRM: поступающие данные оцениваются в контексте (например, сравниваются с существующими аккаунтами, проверяется валидность адреса), а затем выдаются рекомендации или автоматизированные действия. К преимуществам такого подхода можно отнести то, что LLM-модель «понимает контекст данных», постоянно приспосабливаясь и учась новым паттернам стандартов или связей при появлении новых уникальных случаев⁹.

Рекомендации и лучшие практики

Несмотря на широкие возможности применения решений на основе больших языковых моделей, при их внедрении важно учитывать ряд практических аспектов, в частности:

Проверку точности

LLM-модели иногда допускают ошибки или неверные предположения. Для критических данных (таких как привязка врача к правильному медицинскому учреждению или слияние клиентских счетов) рекомендуется проверять выводы модели. Хорошей практикой может стать внедрение слоя верификации, например, если LLM предполагает, что два названия компаний совпадают, перекрестно проверьте это внешним поиском или базой данных. Как показала практика в области сопоставления организаций, GPT могут создавать правдоподобные, но перевернутые отношения (например, идентифицировал правильные организации, но спутал родительскую компанию с дочерней)⁵. Решение этой проблемы во внедрении автоматического веб-поиска, подтверждающего факты⁵. Подобный подход общего типа — генерация, дополненная поиском (Retrieval-Augmented Generation, RAG), можно применить повсеместно: пусть LLM предложит сопоставление, а затем используйте проверенные данные (адресные базы, регистры компаний и т.д.) для коррекции результата. Такой подход актуален при работе с чувствительными данными.

Последовательность и форматирование

Незначительные изменения в формулировке запросов могут вызвать изменение ответа или его форматирования⁷. Чтобы избежать этого, используйте структурированные запросы и при наличии возможностей такие функции, как строго определенные схемы ввода/вывода данных. Если вы обрабатываете адреса, всегда инструктируйте LLM-модель выводить все компоненты (даже пустые) в формате JSON с фиксированными ключами. Последовательность важна не только для автоматизации, но и помогает избегать одного из недостатков LLM — незначительных различий в результатах при повторных запусках. Cистема на основе правил выдает одинаковый результат для одного и того же ввода/вывода данных, и наша цель — приблизить поведение системы на основе LLM к этому же уровню надежности⁷. Тестируйте запросы на разнообразных примерах и совершенствуйте их, минимизируя случайные ошибки. Эксперты PharmGPT, например, дополнительно настраивают и обучают свою LLM на небольших реальных выборках для тонкой настройки работы модели.

Производительность и масштабируемость

Большие языковые модели, особенно предоставляемые через API, могут оказаться медленными и дорогими. Каждая обработка записи может занять несколько секунд и потреблять значительное количество токенов (переводимых в стоимость API)⁷. Если у вас миллионы записей CRM, прямой вызов LLM для каждой из них окажется дорогостоящим. Чтобы снизить затраты, рассмотрите технику эмбеддинга и кэширования результатов, а также их обработку пакетами. Например, есть модель которая заранее создает эмбеддинги для всех записей, затем повторно использует их для множества задач сопоставления. Если у вас будет применяться прямое обращение к модели, реализуйте кэш — одинаковые или почти идентичные входные данные не должны многократно отправляться в LLM-модель. Решение вопроса: сохранять результаты выводов модели, чтобы при повторном обнаружении той же пары наименований компаний автоматически использовалось сохраненное значение, экономя время и деньги⁵. Стоит иметь в виду, что вариантом, сберегающим бюджеты и ресурсы, могут быть специализированные инструменты с использованием микромоделей.

Контроль точности

В задаче сопоставления данных иногда важнее высокая точность (без ложных совпадений), а иногда высокий охват (обнаружение всех возможных совпадений). Чистые решения на основе LLM могут стать своего рода черным ящиком в данном аспекте — невозможно легко настроить «порог», как это делается в обычных алгоритмах расчета метрик⁷. Чтобы вернуть контроль над процессом, комбинируйте результаты LLM с эвристиками расчета баллов. Например, можно предложить модели PharmGPT рассчитать показатель сходства или обосновать свое предположение, принимая совпадения только в том случае, если модель уверенно утверждает сходство или превышает установленный порог «проходного балла». Альтернативно можно использовать оценку близости на основе вектора, полученного методом эмбеддинга, фильтруя предложенные LLM совпадения по критерию косинусного расстояния больше 0,8 для баланса точности. Поддерживая прозрачные правила или пороги вокруг предложений LLM, можно адаптировать баланс ложноположительных и ложноотрицательных совпадений к вашим бизнес-задачам⁷.

Стабильность и контролируемость

Когда искусственный интеллект используется для целей контроля качества данных, особенно в регулируемых отраслях (таких как здравоохранение), необходим протокол аудита для «объяснения» причин и логики объединения или сопоставления записей. Использование объяснения «потому что сказал ИИ» может не удовлетворить аудиторов и контролеров ⁷. Поэтому в разработке таких моделей, закладывается возможность предоставления пояснения или обоснование решений, с учетом специфики российского законодательства в деловой сфере и норм, и правил системы российского здравоохранения. В идеале такие объяснения должны сопровождать каждое решение LLM-модулей ⁷. Только в этом случае, при обнаружении ошибки, можно проследить ход рассуждений модели и откорректировать ее логику и интерпретацию закона или правила. Некоторые системы дополнительно хранят конкретные правила или опорные данные, приводящие к соответствующему быстрому решению⁷. Даже если решение принимает сама модель, самоанализ и объяснение причин того или иного решения в понятных человеку терминах способствует доверию и позволяет проводить «ручную» ревизию эффективнее.

Использование больших языковых моделей открывает перспективные пути для слияния и очищения данных CRM. Способность LLM-моделей, таких как PharmGPT, к пониманию языка и контекста позволяет приводить хаотичный ввод к стандартному виду, находить скрытые дубликаты и устанавливать связи между записями, ссылающимися на одну и ту же сущность. Фармкомпании в России и в мире уже применяют эти техники: начиная с анализа адресов и сопоставления наименований организаций ЛПУ, заканчивая развертыванием LLM-модулей для устранения дублирования в системах CRM на лету.

Ключевым моментом здесь становится сочетание сильных сторон LLM (гибкости и осознания контекста) с проверочными механизмами и разумным дизайном процессов для преодоления их слабостей. Через PharmGPT можно интегрировать эти решения, будь то пакетные операции или помощь при непосредственном вводе данных в работающие CRM для повышения эффективности, легкости использования (ввод данных/получение ценной информации на выходе) и снижения затрат на поддержку и чистку систем.

Возможный результат — унифицированный набор данных, где адреса синхронизированы с зонами продаж, названия учреждений связаны с головными организациями, а каждый специалист или лидер мнений однозначно идентифицируется, несмотря на возможные девиации в исходных записях. Это создает основу для экономии времени и ресурсов, способствует повышению точности аналитики продаж и принимаемых деловых решений⁹. В мире, где данные становятся все более разнородными, LLM открывают путь к порядку в хаосе CRM-систем, превращая случайно набранные поля данных в информационные и аналитический ресурс, заслуживающий доверия со стороны бизнеса.

Методология: как ИИ стандартизирует и сопоставляет данные

1. Address & Name matching technique: r/dataengineering
2. Engineering for Data Quality & Validation with LLMs
3. Fuzzy Matching and Semantic Search
4. Structured Data From Unstructured Data: Address Extraction with Graphlit, GPT-4 Turbo | by Graphlit
5. From Hallucination to Validation: Optimizing ChatGPT for Employer Name Matching
6. Using ChatGPT To Parse Unstructured Text — The Data School Down Under
7. Can LLMs be used for Entity Resolution?
8. Fuzzy Data Matching with GPT-based Embeddings and Nearest Neighbors
9. DataGroomr Announces Updates to Its AI-Powered Data Quality App on Salesforce