O futuro das notificações push: como a IA generativa do iFood entrega comunicações únicas aos usuários

Como a IA generativa do iFood conecta personalização e comunicação através de padrões rigorosos de engenharia para escalar experiências únicas de usuário

De Campanhas Agrupadas para Decisões Individuais

[16:30, terça-feira] Não almoçou ainda, né? O Risoto de Funghi que você adora tá te esperando 🍄

Não é um desconto genérico, nem uma mensagem disparada para milhões de pessoas ao mesmo tempo. É uma notificação que parece conhecer sua rotina e, inclusive, aquele atraso no almoço que já virou hábito na terça-feira. Em vez de interromper, ela chega na hora certa. Em vez de empurrar uma oferta, faz sentido. Parece escrita pra você. Quando a comunicação soa assim, ela deixa de ser ruído e começa a parecer uma conversa de verdade. E é esse tipo de comunicação que o iFood está construindo.

O modelo tradicional de comunicação por push foi construído para escalar volume, não relevância. Push é barato e o impacto no negócio é imediato. Quanto mais mensagens enviamos, menor a atenção. Quanto menor a atenção, mais nós tentamos compensar com volume. E assim entramos num ciclo vicioso em que a quantidade de pushes cresce e a qualidade de conteúdo despenca.

O Problema Real: De Segmentos para Indivíduos

Por muito tempo, notificações push foram tratadas como mais um canal de CRM (Customer Relationship Management): pega um segmento, escreve um texto padrão simpático, escolhe um horário razoável e dispara. Funciona… até certo ponto. No final, as segmentações comprimem pessoas diferentes no mesmo grupo e o resultado é uma mensagem ok para poucos e irrelevante para muitos.

Ilustração de notificação genérica para grande público.

O que a hiper personalização faz é mudar a unidade de decisão. Em vez de tentar acertar o melhor push para um grupo, você tenta tomar a melhor decisão para um indivíduo. E isso parece um detalhe técnico, mas é uma mudança de produto: duas pessoas no mesmo segmento podem ter rotinas diferentes, gostos diferentes, e tolerâncias diferentes a interrupções. É por isso que, quando dá errado, não é só “baixa performance”; é ruído. Ruído vira ignorar. Ignorar vira opt-out.

A parte interessante é que esse problema não existia por falta de intenção. Sempre foi difícil fazer hiper personalização “de verdade” porque ela exige três coisas ao mesmo tempo: sinais comportamentais ricos, um feedback loop confiável e a capacidade de tomar milhões de micro-decisões diariamente sem virar um caos operacional. Por muito tempo, a saída foi segmentação + regras + templates. Era o que dava. Mas era frágil: genérico demais para parecer útil, específico demais para escalar manualmente.

E aí vem a virada. A tecnologia aqui não é o ponto de partida; é o que viabiliza essa experiência. Hoje, dá para juntar bilhões de dados diários e granulares do aplicativo, sistemas de recomendação e modelos (incluindo Large Language Models (LLM)) e transformar notificações via push em um pequeno motor de decisão: escolher o assunto, escolher o momento e reduzir a fricção. Tudo no nível individual, sem depender de agrupamentos grosseiros.

Três Decisões Críticas: A Nova Arquitetura de Produto

Na prática, isso vira três decisões que compõem simultaneamente um novo produto:

O que falar?

Quando começamos a construir esse produto, ficou claro que não fazia sentido “inventar conteúdo” do zero. A gente já tinha dentro de casa uma das melhores fontes possíveis: as recomendações curadas do iFood. Elas viram um menu de possibilidades para o modelo trabalhar: opções interessantes, com alta qualidade, e ao mesmo tempo específicas para o usuário. A LLM entra para escolher bem, capturar semântica na complexidade do usuário e explicar de um jeito natural, curto, humano, sem cara de template.

Quando falar?

O horário certo não é um horário universal, nem um horário “do segmento”. Ele é pessoal. Tem gente que repete padrões por dia da semana, tem gente que alterna categoria por período do dia, tem gente que só engaja quando já deu uma navegada no app. Entender comportamento aqui é olhar para tendência e rotina: horários típicos de consumo por categoria, repetições semanais, variações por contexto, iterações recentes dentro do app ou até mesmo onde você está. O envio deixa de ser apenas um disparo e vira encaixe perfeito.

Como reduzir a jornada?

Mesmo quando a mensagem está perfeita, muita coisa morre na fricção. Se o usuário abre o push e cai em uma tela genérica, ele volta a ter que procurar, comparar, escolher, e isso reintroduz o viés e a chance de desistir. Por isso deep link não é detalhe: é parte da hiper personalização. Abrir o app direto no item e ver uma imagem deliciosa e interessante do item que você acabou de receber no push, com um botão claro de “adicionar ao carrinho”, transforma interesse em ação com um clique.

Quando essas três coisas funcionam juntas, por exemplo, o assunto certo, hora certa e caminho curto, acontece a parte mais legal: geram pedidos “orgânicos”. Não porque inseriu uma mensagem mais “alta”, ou porque colocou desconto. Mas porque, naquele momento, para aquela pessoa, aquilo era interessante. E quando push vira utilidade, ele deixa de parecer marketing tentando empurrar alguma coisa e começa a soar como boa sugestão. É aí que a notificação vira algo natural e bem-vindo.

“A notificação ideal é quase invisível: ela chega quando a pessoa está receptiva, fala de algo que ela realmente considera e, ao abrir, resolve a jornada com o mínimo de passos.”

LLMs Além do Chatbot

LLMs costumam aparecer em chatbots, mas aqui o papel delas é outro. Em vez de responder perguntas, usamos esse tipo de modelo como parte de um sistema de decisão. Ele ajuda a identificar padrões de gosto, horário e hábitos e a transformar esses sinais em mensagens curtas, enviadas quando fazem mais sentido. A ideia é que a comunicação seja relevante para quem recebe. Engajamento e cliques vêm como consequência.

Fonte: dados de pesquisa qualitativa com FoodLovers em 2025. Valores apresentados como variação em relação ao baseline de pushes tradicionais.

POC (Proof of Concept) Prévia

Antes de pensar em escala, começamos pequeno: fizemos uma POC com funcionários do iFood e conduzimos uma pesquisa qualitativa para entender se esse novo tipo de push realmente fazia diferença. O feedback foi claro para dar o próximo passo. Depois de validar o produto, o custo de operar na escala do iFood (processando bilhões de tokens todos os dias) se tornou o principal desafio de engenharia e sustentabilidade.

Figura 1. Percentual de variação superior (incremento) em relação ao CTR (Click-Through Rate) referência

Depois disso, rodamos um experimento com cerca de 10 mil usuários para validar se o aumento de relevância também se traduzia em métricas de negócio. Funcionou. Mas ainda restava a dúvida mais difícil: esse efeito se sustenta no tempo? Ampliamos o teste para 1 milhão de usuários ao longo de um mês. O resultado foi consistente, com aumento expressivo de engajamento durante todo o período. O valor do produto está claro, mas como tornar isso viável do ponto de vista de custo?

Testamos modelos diferentes, arquiteturas menores e começamos a investir em consecutivos fine tunings de modelos LLM open source usando os exemplos de sucessos. Construímos um fluxo que se retroalimenta: notificações que funcionam melhor ajudam a treinar modelos cada vez mais eficientes, capazes de gerar mensagens mais relevantes usando menos tokens e parâmetros. O Fluxo é ilustrado na Figura 2.

Figura 2. Fluxo alto nível da criação de notificações push hiper personalizadas do iFood

As fontes de dados incluem o histórico de pedidos e recomendações curadas, utilizadas para definir o conteúdo do push, e o Large Commerce Model (LCM) Profile, que descreve os hábitos, preferências e comportamentos do usuário inferidos a partir de cliques, pedidos e interações com o iFood, sendo utilizado para definir o tom e ganchos semânticos da mensagem. Esses dados alimentam o modelo LCM de geração de conteúdo, responsável por gerar o push e definir o melhor horário de envio.

Antes do disparo, as notificações passam por guardrails e blocklists, descritos na seção abaixo, para evitar comunicações indesejadas. Em seguida, todos os pushes passam por um sistema de priorização de negócios, responsável pela entrega de notificações de todas as verticais do iFood por meio de regras de negócio. Por fim, o push é enviado e são coletados os KPIs de sucesso, como pushes clicados e pushes que resultaram em pedidos. Esses KPIs retroalimentam o processo de fine-tuning do modelo, fechando o ciclo de melhoria contínua.

Com esses aprendizados, o projeto deixou de ser apenas um experimento e passou a definir um novo padrão de comunicação no iFood. Hoje, esse sistema já opera em produção para cerca de 25 milhões de usuários, resultando em bilhões de tokens sendo processados diariamente*, e a expectativa é expandir e aprimorar gradualmente essa abordagem para ainda mais cenários e superfícies de comunicação. A cada nova iteração, o modelo fica mais eficiente, mais preciso e mais alinhado ao contexto de cada pessoa. Os pushes tradicionais vão aos poucos sendo substituídos por um sistema vivo, que aprende continuamente e toma decisões individualizadas sobre o que dizer e quando dizer.

*Para mais detalhes técnicos de como fazemos inferência diária de bilhões de tokens utilizando modelos open source

LLMs em Produção: Segurança sem Revisão Humana

Usar LLMs em uma etapa tão crítica da comunicação de uma empresa traz riscos reais. Uma mensagem errada não é apenas um bug técnico. Um erro pode quebrar a confiança do usuário e até gerar implicações jurídicas. Na escala do iFood, revisar notificação por notificação simplesmente não é viável. Ainda assim, entender o que o sistema está produzindo é essencial. Em vez de tentar controlar cada push individualmente, precisamos de mecanismos para observar o comportamento do sistema como um todo, identificar desvios e agir rapidamente quando algo sai do esperado.

Uma das abordagens que usamos para isso é o chamado LLM as a Judge: outra LLM responsável por avaliar as saídas do modelo principal. Definimos claramente qual era o objetivo da mensagem e pedimos que o Judge avalie se ela atende aos critérios esperados. Hoje, nossas métricas principais estão ligadas a riscos reais desse tipo de sistema, como toxicidade e alucinação. Esse processo roda continuamente para um sample da base e nos permite acompanhar qualidade e segurança em escala, sem depender de revisão manual.

Toxicidade: Verifica presença de linguagens, sugestões e atitudes ofensivas, desrespeitosas e que promovam negatividade e competitividade
Alucinação: Verifica se o conteúdo menciona detalhes que não estão presentes nos dados: invenção de itens, merchants e promoções, erros ao citar itens que não existem em um merchant e erros na criação do deeplink da mensagem.

Além disso, combinamos esse monitoramento com guardrails mais tradicionais: blocklists e validações programáticas. Elas impedem, por exemplo, o envio de mensagens com termos potencialmente problemáticos, valores de desconto incorretos, promoções inventadas ou referências erradas a itens e merchants. Cada sistema baseado em LLM exige métricas próprias, alinhadas ao seu contexto de negócio. O objetivo não é eliminar completamente o risco, mas reduzir a probabilidade de conteúdos prejudiciais e, principalmente, detectá-los rapidamente quando algo foge do esperado.

Orquestração em Escala: O Próximo Desafio da Hiper Personalização

O futuro dessa estratégia não é “personalizar mais”, é orquestrar melhor. Quando você está falando de algo como 200 milhões de pushes enviados por dia, o problema deixa de ser a entrega e vira governança: quem tem prioridade, qual mensagem compete com qual, e como garantir que o usuário não vire um campo de batalha entre verticais. E isso fica ainda mais real quando tudo cresce ao mesmo tempo: food delivery, mercado, clube, farmácia e promoções (que, na prática, viram uma “vertical” transversal pressionando todas as outras).

Na prática, cada uma tem motivos legítimos para falar: comida de restaurante é imediata e o core da companhia, clube tem lógica de relacionamento e valor percebido, promoções têm urgência e eficiência de curto prazo. Só que o usuário é um só. Personalização sem coordenação vira um paradoxo: cada time está “certo” localmente, mas o resultado global para a mesma pessoa pode ser barulho. O desafio passa a ser manter a mensagem individualizada sem perder as decisões de negócio, equilibrando objetivos simultâneos, restrições do marketplace e prioridades que mudam diariamente.

E tem um ponto que pouca gente encara de frente: encontrar o momento certo de ficar calado. Em escala, o silêncio vira uma feature do produto. Se o sistema só aprende a falar quando tem algo a ganhar, ele perde o lado mais importante: preservar a atenção do usuário para quando realmente importa. Saber não enviar, especialmente quando várias verticais “querem” espaço, é uma decisão tão sofisticada quanto escolher o conteúdo perfeito.

O Desafio Humano: Mudança de Mentalidade

Por fim, talvez o maior desafio seja humano: a mudança de mentalidade. Marketing está acostumado a controlar campanhas, calendário e mensagem; decisões individualizadas são, por definição, menos “controláveis” na superfície. Isso mexe com processos, aprovações e confiança no sistema. Para dar certo, essa evolução precisa ser conjunta: produto, engenharia, arquitetura, dados, marketing e unidades de negócio alinhados na mesma pergunta: “qual é a melhor decisão para esta pessoa, dadas as prioridades do negócio hoje?” A ideia de que o controle deixa de ser manual e passa a ser um conjunto de critérios de decisão e guardrails: prioridades explícitas, limites de frequência e regras claras para quando as verticais entram em conflito.