Avaliando o prompt

  • Versão de lançamento: Australia
  • Atualizado 31 de jul. de 2025
  • 2 min. de leitura
  • A avaliação do prompt é um processo contínuo que ocorre durante e após o desenvolvimento e a conclusão do prompt.

    Visão geral da avaliação do prompt

    Para determinar a eficácia do prompt, você deve avaliar lotes de dados de teste. Você deve copiar as respostas geradas pelo modelo e executar avaliações fora de Kit de habilidades do Now Assist.

    Durante o desenvolvimento do prompt

    A avaliação contínua e improvisada deve ocorrer juntamente com o desenvolvimento do prompt. Esta avaliação contínua permite que você adapte o prompt com base nas saídas do modelo observado. Pode ser tentador testar uma mudança em um prompt em apenas um ou dois exemplos. No entanto, para evitar reagir ao ruído, você deve analisar lotes maiores e considerar a significância estatística das diferenças de desempenho observadas.

    Gráfico que mostra uma comparação do desempenho do prompt.

    Avaliação de desempenho final

    Antes de implantar uma habilidade, você deve testar o prompt em um lote representativo de dados que foi isolado do processo de desenvolvimento, ou seja, dados de "teste". Você deseja usar dados de teste isolados devido a um fenômeno conhecido como superajuste de prompt. A edição iterativa de um prompt com base nas saídas do modelo geradas nos mesmos dados usados para testes pode levar a estimativas excessivas significativas de desempenho. Esse resultado ocorre porque o prompt pode se tornar superespecializado para os exemplos específicos usados no desenvolvimento. Embora o efeito seja normalmente menos dramático do que o que ocorre ao ajustar parâmetros do modelo de aprendizado de máquina a um conjunto de dados de teste, ele está enraizado nos mesmos princípios subjacentes e deve ser evitado.

    Métricas de avaliação

    Selecionar as métricas certas para avaliação é uma consideração importante. A lista a seguir fornece algumas abordagens, cada uma das quais pode ser mais ou menos apropriada, dependendo do caso de uso.

    • Avaliação baseada em classificação de gerações curtas

      Essa abordagem requer registros rotulados e funciona melhor quando os rótulos são "respostas certas" curtas e bem definidas, por exemplo, verdadeiro ou falso, seleção de múltipla escolha ou de categoria. Nesses casos, as saídas do modelo geralmente podem ser analisadas e formatadas, e métricas como precisão, recall, pontuações F1 e assim por diante podem ser calculadas diretamente.

    • Avaliação de gerações mais longas

      Muitos dos casos de uso de IA generativa mais interessantes exigem gerações de modelos mais longas, e há muitas "respostas certas" possíveis. Nesses casos, a saída pode ser pontuada (por avaliadores humanos) ao longo de vários eixos diferentes, por exemplo:

      • Fidelidade

        O texto gerado é fiel ao contexto fornecido no prompt de habilidade? (O oposto de fidelidade é alucinação, que significa dizer que o modelo injeta informações fora do contexto.)

      • Exatidão

        O texto gerado está correto em relação à instrução de habilidade?

      • Relevante

        O texto gerado é útil em relação à tarefa que a habilidade deseja realizar? (A utilidade é subjetiva, mas é importante tentar medir. Fazer isso corretamente requer uma sólida compreensão das necessidades das pessoas que usarão a habilidade.)

      • Fluência

        O texto gerado está gramaticalmente correto? Há erros de digitação, problemas de coerência e assim por diante?

      Nota:
      É útil pontuar essas propriedades em uma escala, como 1-5, em vez de sim ou não