Guardião do Now Assist

  • Versão de lançamento: Australia
  • Atualizado 31 de jul. de 2025
  • 9 min. de leitura
  • Guardião do Now Assisté criado no ServiceNow Modelo de linguagem pequena (SLM) e monitora interações de IA generativa para detectar conteúdo ofensivo, ataques de injeção de prompt e tópicos confidenciais.

    Guardião do Now Assist Visão geral

    A IA generativa é uma tecnologia emergente. As interações humanas são imprevisíveis, e as saídas geradas pelo modelo de linguagem grande (LLM) são probabilísticas, o que significa que elas são baseadas em probabilidades. Executar a mesma entrada duas vezes pode gerar duas saídas diferentes. A gestão desse risco é uma consideração importante ao implementar a IA generativa em sua instância. Guardião do Now Assist Avalia as solicitações enviadas aos LLMs e suas respostas em tempo real para reduzir esse risco.

    Proteções

    Guardião do Now Assist fornece três proteções. Cada guarda tem um escopo diferente de aplicabilidade:
    Proteção O que ele detecta Escopo
    Detecção de ofentividade Conteúdo ofensivo ou prejudicial em entradas e saídas de IA. Específico Now Assist habilidades e fluxos de trabalho.
    Detecção de injeção de prompt Tentativas de substituir instruções de LLM ou expor informações restritas. Todas as aplicações e recursos de IA generativa.
    Filtros de tópicos confidenciais Assuntos não adequados para respostas de IA, como segurança no local de trabalho ou remuneração do funcionário. Virtual Agent somente habilidades de conversação (disponível para Prestação de serviços de RH e. Customer Service Management).
    Nota:
    O escopo de cada proteção é diferente. A detecção de injeção de prompt se aplica a todas as aplicações e recursos de IA generativa. A detecção de ofensividade se aplica somente aos compatíveis Now Assist habilidades e fluxos de trabalho. Os filtros de tópicos confidenciais se aplicam somente a. Virtual Agent e exigir Prestação de serviços de RH.
    Conteúdo ofensivo
    Devido à natureza probabilística da IA generativa, é possível que um LLM gere conteúdo ofensivo. Se houver conteúdo ofensivo na entrada da solicitação, o conteúdo ofensivo também pode ocorrer na resposta. Exemplos de conteúdo ofensivo incluem linguagem tóxica, difamatória ou fraudulenta.

    Quando conteúdo ofensivo é detectado, Guardião do Now Assist registra o evento. Você também pode configurá-lo para bloquear o conteúdo. Esta proteção se aplica a específico Now Assist habilidades e fluxos de trabalho.

    Injeção de prompt
    A injeção de prompt é um tipo de ataque de segurança em que alguém tenta substituir as instruções normais de um LLM para acessar informações restritas ou causar comportamentos não intencionais. Guardião do Now Assist Detecta tentativas de injeção de prompt usando um LLM treinado em vários tipos de técnicas de injeção de prompt , tais como interpretação de papéis, parafrasear, repetição, instruções para ignorar outras instruções e persuasão.
    Nota:
    Devido à natureza probabilística do modelo e às técnicas de ataque em evolução, Guardião do Now Assist pode não identificar todas as tentativas de injeção de prompt em alguns casos.
    A proteção de injeção de prompt se aplica a todas as aplicações e recursos de IA generativa na sua instância. Não se limita a habilidades ou fluxos de trabalho específicos.
    Assuntos filtrados
    Determinados assuntos, como remuneração do funcionário de segurança no local de trabalho ou bem-estar pessoal, podem não ser mais adequados para respostas de IA generativa. Você pode ativar filtros que detectam esses tipos de objetos em Virtual Agent E redirecione usuários para Detecção de sensibilidade: Fallback Virtual Agent Em vez de gerar uma resposta de IA.
    Nota:
    Os filtros de tópicos confidenciais se aplicam somente a. Virtual Agent habilidades conversacionais. Esses filtros estão disponíveis somente com Prestação de serviços de RH e. Customer Service Management.

    Registro e bloqueio

    Guardião do Now Assist registra eventos detectados para ofensividade e injeção de prompt. Você pode acessar logs de Administrador do Now Assist > Configurações > Guardião do Now Assist. Os dados de log incluem informações sobre a solicitação, a conversa que contém o conteúdo ofensivo e qualquer feedback do usuário.

    Além de registrar em log, você pode configurar Guardião do Now Assist para bloquear conteúdo ofensivo ou tentativas de injeção de prompt. Quando o bloqueio está habilitado e o conteúdo é detectado, você vê uma mensagem de erro padrão em vez da resposta gerada. A mensagem de erro padrão exibe que a solicitação não pôde ser concluída e você não vê o que a IA gerou. Antes de habilitar o bloqueio, revise os logs por um período para entender com que frequência esses problemas ocorrem em seu ambiente.

    Redirecionamento para tópicos filtrados confidenciais

    Depois que um filtro detecta um tópico confidencial, Guardião do Now Assist Redireciona você para o tópico Detecção de sensibilidade: Fallback em Virtual Agent. Este tópico pode redirecioná-lo para um atendente ou ajudar você a criar um RH caso.

    Você pode substituir o redirecionamento selecionando Prosseguir, não confidencial . Você retorna ao tópico original sem iniciar o fluxo de fallback.
    Nota:
    Depois de continuar com o tópico de fallback, por exemplo, iniciando o fluxo para criar um RH caso, Virtual Agent não continua detectando tópicos confidenciais nessa conversa.

    Guardião do Now Assist em tempo de execução

    Todas as habilidades que usam Guardião do Now Assist Remova as informações de identificação pessoal (PII) antes que a solicitação chegue ao LLM. Você pode configurar que tipo de dados são anonimizados. Para obter mais informações, consulte, Configurando o Now Assist para Privacidade de dados .

    Para habilidades conversacionais, a pesquisa semântica processa solicitações para determinar se um filtro foi detectado. Em caso afirmativo, o usuário será redirecionado para um Virtual Agent tópico que pergunta se eles querem fazer um RH ou fale com um atendente.

    Infográfico mostrando Guardião do Now Assistem tempo de execução com proteção do filtro de sensibilidade

    Para geração de itens do catálogo e habilidades do agente, como geração de anotações de resumo e resolução, proteções ofensivas e injeção de prompt são executadas em entradas e saídas de solicitações. Se um for detectado, Guardião do Now Assistregistra a solicitação. Se você optou por bloquear este conteúdo, uma mensagem de erro padrão será exibida e o usuário não verá o resultado da solicitação.

    Infográfico mostrando Guardião do Now Assistem tempo de execução com ofensividade e proteções de segurança

    Segurança c categorias capturado em Guardião do Now Assist logs

    A seguir estão os diferentes tipos de conteúdo que podem ser sinalizados como ofensivos ou representam um risco de segurança. Você pode identificar quais categorias estão sendo capturadas em Guardião do Now Assistlogs para as diferentes proteções.

    Categoria

    ID da Categoria

    Descrição

    Conteúdo tóxico

    O1

    Não deve: Promover discurso de ódio, incitar violência como abuso infantil ou bullying ou envolver-se em ataques pessoais ou assédio.

    Pode: Discutir os impactos e as questões sociais relacionadas ao conteúdo tóxico para fins educacionais.

    Representação distorcida

    O2

    Não deve: Ajudar a perpetuar estereótipos ou incentivar a discriminação ou preconceito.

    Pode: Discutir questões de representação e promover conscientização e inclusão.

    Conteúdo adulto

    O3

    Mostrar material sexualmente explícito ou conteúdo inadequado para menores, incluindo pornografia, bate-papo erótico e atividade sexual.

    Pode: Oferecer discussões educativas sobre tópicos relacionados à sexualidade e consentimento.

    Perda de confiança nas informações públicas

    O4

    Não deve: Espalhar desinformação ou desinformação que comprometa a confiança pública, como aconselhamento médico enganoso, drogas ilegais e aconselhamento.

    Pode: Analisar criticamente as tendências de desinformação e educar sobre a literacia mediática.

    Propagação de conceitos errados/crenças falsas

    O5

    Não deve: Disseminar informações enganosas, não verificadas, teorias da conspiração, negalismo científico, revisionismo histórico, ou conteúdo que pode levar à radicalização.

    Pode: Fornecer análise crítica e desmascarar conceitos errôneos comuns e crenças falsas.

    Práticas financeiras arriscadas

    O6

    Não deve: Promover práticas comerciais antiéticas, como marketing multinível, práticas de empréstimo enganosas ou jogos de azar.

    Pode: Educar sobre riscos associados, empréstimos éticos, jogo responsável, conformidade comercial e práticas comerciais justas.

    Comércio e conformidade

    O7

    Não deve: Envolver questões trabalhistas, envolver-se em assuntos comerciais antiéticos, contribuir para práticas trabalhistas desleais ou promover práticas comerciais fraudulentas.

    Pode: Fornecer informações e informações sobre questões trabalhistas, práticas comerciais éticas, conformidade comercial e conduta comercial justa.

    Disseminação de informações perigosas

    O8

    Não deve: Espalhar notícias falsas, propagar boatos nas redes sociais, revelar segredos do governo ou vazar dados financeiros e outros conteúdos que contribuam para o pânico público ou para a segurança nacional.

    Pode: Educar sobre os perigos dessas informações e promover a segurança.

    Violação de privacidade

    O9

    Não deve: Envolver doxxing, compartilhamento de dados não autorizado ou vigilância, como informações privadas que inferem ou vazam.

    Pode: Discutir a importância dos direitos de privacidade e da segurança digital.

    Ameaças à segurança

    O10

    Não deve: Espalhar malware ou incentivar o terrorismo ou outras ameaças de segurança, como geração de armas, ataques cibernéticos ou danos químicos.

    Pode: Fornecer informações e métodos para identificar e mitigar ameaças à segurança.

    Difamação

    O11

    Não deve: Publicar declarações falsas prejudiciais a indivíduos, grupos ou organizações.

    Pode: Explorar os aspetos jurídicos e éticos da difamação e da liberdade de expressão.

    Fraude ou ação enganosa

    O12

    Não deve: Envolver-se em desonestidade acadêmica, cometer golpes, promover pseudo-farmacêuticos ou disseminar conteúdo online falso. O conteúdo não deve enganar ou fraudar indivíduos.

    Pode: Instruir sobre o reconhecimento e a prevenção de atividades fraudulentas.

    Operações de influência

    O13

    Não deve: Manipular a opinião pública ou interromper a harmonia social para fins políticos ou ideológicos, como vigilância ou campanha.

    Pode: Analisar e educar sobre a natureza e o impacto das operações de influência.

    Atividades ilegais

    O14

    Não deve: Promover ou fornecer orientação sobre o envolvimento em ações ilegais, como crimes ou terrorismo.

    Pode: Educar sobre as consequências e a prevenção de atividades ilegais.

    Persuasão e manipulação

    O15

    Não deve: Envolver técnicas de persuasão ou manipulação que promovam automutilação, manipulação psicológica ou qualquer forma de dano ao bem-estar dos indivíduos.

    Pode: Educar sobre reconhecer e resistir à manipulação, oferecer apoio e recursos para as pessoas afetadas.

    Violação de propriedade pessoal

    O16

    Não deve: Ativar em v iolat . a propriedade pessoal de um indivíduo, imitação maliciosa, plágio, violação de direitos autorais ou identidade falsificação .

    Pode: Promover a conscientização e discussões sobre o respeito à propriedade pessoal e a prevenção de tais violações.

    Habilidades que oferecem suporte à detecção ofensiva

    Tabela 1. Habilidades compatíveis por fluxo de trabalho
    Fluxo de trabalho Aplicação Habilidades compatíveis
    Tecnologia Now Assist for Configuration Management Database (CMDB)
    Tecnologia Now Assist for ITOM
    Tecnologia Now Assist for IT Service Management (ITSM)
    Tecnologia Now Assist for Security Incident Response
    Tecnologia Now Assist for Strategic Portfolio Management (SPM)
    Cliente Now Assist for Customer Service Management (CSM)
    Cliente Now Assist for Field Service Management (FSM)
    Cliente Now Assist for Financial Services Operations (FSO)
    Cliente Now Assist for Public Sector Digital Services (PSDS)
    Funcionário Now Assist for Health and Safety Resumo do incidente
    Funcionário Now Assist for HR Service Delivery (HRSD)
    Funcionário Now Assist for Legal Service Delivery (LSD) Resumo da solicitação jurídica
    Funcionário Now Assist in Contract Management
    Criador Geração de itens do catálogo
    Finanças e cadeia de suprimentos Now Assist for Accounts Payable Operations (APO) Resumo do registro
    Finanças e cadeia de suprimentos Now Assist for Supplier Lifecycle Operations (SLO) Resumo do caso do fornecedor
    Finanças e cadeia de suprimentos Now Assist for Sourcing and Procurement Operations (SPO) Resumo do registro