Прозрение технологической эры 2010-х годов состояло в том, что люди — это потоки данных . Лайки, антипатии, семьи, друзья, хобби, работа — все, что составляет полноценную жизнь, — это просто данные, ожидающие захвата, теперь поддающиеся всевозможным сложным методам, чтобы максимизировать вероятность желаемого действия. В 2024 году редко какая корпорация не прилагает значительных усилий, чтобы неуклонно глубже окунуть свою ложку в реку потребительских данных.
Эта неутолимая жажда данных о клиентах обусловлена фундаментальным убеждением, что больше данных приводит к лучшим моделям данных, которые могут повысить эффективность и доход. Однако это ложно. Больше данных не всегда приводит к лучшим моделям, но и может фактически снизить мощность и объяснимость модели. Рекламная индустрия страдает от перегрузки данными, что делает нас менее эффективными и заставляет нас терять доверие клиентов, которым мы делаем продажи.
Снимок данных
Даже если бы все внешние ограничения были сняты и мы могли бы собирать данные из всех нужных нам источников, умный маркетолог понимает, что нам следует ограничивать себя по более фундаментальной причине: большая часть наших данных сильно коррелирована, что делает их практически бесполезными.
Чтобы понять это, представьте, что вы фотограф, стоящий на расстоянии вытянутой руки от небоскреба. Вы не можете отступить назад, чтобы запечатлеть все здание на одной фотографии; вместо этого вы делаете много снимков с разных позиций и углов вокруг здания, чтобы сшить их вместе и создать составную фотографию всего здания.
В этом примере каждая фотография — это новый источник данных, которые мы добавляем в нашу модель, реконструкцию всего здания. Пока каждый отдельный снимок представляет собой отдельную часть здания, их легко совместить, чтобы получить полный вид. Однако при наличии высококоррелированных данных наши фотографии перекрываются, изображая одну и ту же часть здания несколько раз. В этом случае гораздо, гораздо сложнее быть точным.
Сколько бы снимков вы ни сделали, если информативность каждого нового снимка низкая, ваша модель не сможет улучшиться.
Думайте меньше, стройте умнее
Итак, если мы не можем дождаться расширения нашего набора данных и если сбор всех доступных данных может ухудшить наши результаты, как нам построить точные, объяснимые и этичные модели, чтобы улучшить рекламу для наших клиентов?
Ответ — мыслить мельче. Избегайте соблазна построить «Одну большую модель» и вместо этого постройте несколько меньших специально созданных моделей, которые будут работать вместе.
Поскольку ИИ становится все большей частью стека маркетинговых технологий, а такие термины, как «обучающие данные» и «тонкая настройка», становятся частью лингва-франка, таким же знакомым должен стать «выбор признаков». Выбор признаков находится в этом крайне важном, но часто упускаемом из виду пространстве между сбором всех данных и началом обучения модели с их помощью. Это название для набора инструментов, методов и эвристических принципов, которые используются для лучшего понимания данных и их ценности для модели еще до начала обучения.
Атрибуция конверсии может быть фундаментальной проблемой рекламы. Недостатки атрибуции последнего клика хорошо известны — создание хорошей модели атрибуции с несколькими касаниями по-прежнему является формой искусства, которая требует много времени, знаний и внимания. ИИ может помочь раскрыть полное влияние медиа на продажи или другие нисходящие показатели. Хорошо известно, что для правильной количественной оценки окупаемости инвестиций необходимо учитывать факторы, выходящие за рамки только расходов на рекламу. Общее экономическое состояние, узнаваемость бренда, доход местного домохозяйства и плотность населения — это лишь некоторые из данных, к которым ИИ может получить доступ, чтобы ответить на этот вопрос. На самом деле, опытный маркетолог захочет углубиться еще глубже и рассмотреть историю кредитной карты отдельного потребителя, его интересы, выявленные в интернет-активности, его возраст, пол, расу и т. д. Нет недостатка в возможных факторах, которые могут повлиять на конверсию определенной группы потребителей.
Проектирование признаков помогает нам сортировать эти избыточные данные, выбирая только то, что наиболее важно для поставленной задачи. Хорошо понятные методы, такие как анализ главных компонентов и анализ важности переменных, количественно определят, насколько наши данные могут объяснить наблюдаемые продажи, и ранжируют вклад каждого из источников. Таким образом, вместо того, чтобы требовать от потребителей все эти данные, которые может быть трудно получить и которые влекут за собой накладные расходы, мы строим модель, которая столь же эффективна для выбранных, наиболее влиятельных источников данных, которые определяются в процессе выбора признаков.
Маркетологи должны лучше использовать доступные инструменты выбора признаков, чтобы использовать ИИ этичным и стабильным образом. Потребители становятся более осведомленными о ценности своих данных и требуют заботы и прозрачности в том, как они используются. К счастью, исследования в области выбора признаков за последнее десятилетие или около того создали много сложных инструментов, выходящих за рамки проверки ковариационной матрицы и анализа главных компонентов, для создания более тонких, изящных, более эффективных моделей только с самыми релевантными данными. Так же, как инструменты постмодельной интерпретации могут обеспечить прозрачность для потребителей, выбор признаков демонстрирует заботу, проявленную для ответственного использования собранных данных.
Перегрузка данными может существовать в ее нынешнем виде только относительно короткий период, и гребень волны доступности данных, возможно, уже отступает. Использование блокировщиков рекламы достигло самого высокого уровня в 2024 году, законы о конфиденциальности данных принимаются в каждом штате США, и потребители все меньше и меньше доверяют маркетологам в том, что они используют свои данные ответственно — ошеломляющие 60% потребителей считают, что компании неправильно используют их данные. Таким образом, как никогда важно противостоять тяге к перегрузке данными и разумно использовать методы выбора функций для создания умных, ответственных и эффективных моделей для наших клиентов.