Guardião do Now Assist

Segurança da plataforma da Austrália

Release

australia

ft:locale

pt-BR

ft:publication_title

Segurança da plataforma da Austrália

ft:clusterId

psec

bundleId

psec

workflow

Platform

Guardião do Now Assist

Versão de lançamento: Australia

Atualizado 31 de jul. de 2025

9 min. de leitura

Guardião do Now Assisté criado no ServiceNow Modelo de linguagem pequena (SLM) e monitora interações de IA generativa para detectar conteúdo ofensivo, ataques de injeção de prompt e tópicos confidenciais.

Guardião do Now Assist Visão geral

A IA generativa é uma tecnologia emergente. As interações humanas são imprevisíveis, e as saídas geradas pelo modelo de linguagem grande (LLM) são probabilísticas, o que significa que elas são baseadas em probabilidades. Executar a mesma entrada duas vezes pode gerar duas saídas diferentes. A gestão desse risco é uma consideração importante ao implementar a IA generativa em sua instância. Guardião do Now Assist Avalia as solicitações enviadas aos LLMs e suas respostas em tempo real para reduzir esse risco.

Proteções

Guardião do Now Assist fornece três proteções. Cada guarda tem um escopo diferente de aplicabilidade:


Proteção	O que ele detecta	Escopo
Detecção de ofentividade	Conteúdo ofensivo ou prejudicial em entradas e saídas de IA.	Específico Now Assist habilidades e fluxos de trabalho.
Detecção de injeção de prompt	Tentativas de substituir instruções de LLM ou expor informações restritas.	Todas as aplicações e recursos de IA generativa.
Filtros de tópicos confidenciais	Assuntos não adequados para respostas de IA, como segurança no local de trabalho ou remuneração do funcionário.	Virtual Agent somente habilidades de conversação (disponível para Prestação de serviços de RH e. Customer Service Management).

Nota:

O escopo de cada proteção é diferente. A detecção de injeção de prompt se aplica a todas as aplicações e recursos de IA generativa. A detecção de ofensividade se aplica somente aos compatíveis Now Assist habilidades e fluxos de trabalho. Os filtros de tópicos confidenciais se aplicam somente a. Virtual Agent e exigir Prestação de serviços de RH.

Conteúdo ofensivo: Devido à natureza probabilística da IA generativa, é possível que um LLM gere conteúdo ofensivo. Se houver conteúdo ofensivo na entrada da solicitação, o conteúdo ofensivo também pode ocorrer na resposta. Exemplos de conteúdo ofensivo incluem linguagem tóxica, difamatória ou fraudulenta.
Quando conteúdo ofensivo é detectado, Guardião do Now Assist registra o evento. Você também pode configurá-lo para bloquear o conteúdo. Esta proteção se aplica a específico Now Assist habilidades e fluxos de trabalho.
Injeção de prompt: A injeção de prompt é um tipo de ataque de segurança em que alguém tenta substituir as instruções normais de um LLM para acessar informações restritas ou causar comportamentos não intencionais. Guardião do Now Assist Detecta tentativas de injeção de prompt usando um LLM treinado em vários tipos de técnicas de injeção de prompt , tais como interpretação de papéis, parafrasear, repetição, instruções para ignorar outras instruções e persuasão.
Nota:
Devido à natureza probabilística do modelo e às técnicas de ataque em evolução, Guardião do Now Assist pode não identificar todas as tentativas de injeção de prompt em alguns casos.
A proteção de injeção de prompt se aplica a todas as aplicações e recursos de IA generativa na sua instância. Não se limita a habilidades ou fluxos de trabalho específicos.
Assuntos filtrados: Determinados assuntos, como remuneração do funcionário de segurança no local de trabalho ou bem-estar pessoal, podem não ser mais adequados para respostas de IA generativa. Você pode ativar filtros que detectam esses tipos de objetos em Virtual Agent E redirecione usuários para Detecção de sensibilidade: Fallback Virtual Agent Em vez de gerar uma resposta de IA.
Nota:
Os filtros de tópicos confidenciais se aplicam somente a. Virtual Agent habilidades conversacionais. Esses filtros estão disponíveis somente com Prestação de serviços de RH e. Customer Service Management.

Registro e bloqueio

Guardião do Now Assist registra eventos detectados para ofensividade e injeção de prompt. Você pode acessar logs de Administrador do Now Assist > Configurações > Guardião do Now Assist. Os dados de log incluem informações sobre a solicitação, a conversa que contém o conteúdo ofensivo e qualquer feedback do usuário.

Além de registrar em log, você pode configurar Guardião do Now Assist para bloquear conteúdo ofensivo ou tentativas de injeção de prompt. Quando o bloqueio está habilitado e o conteúdo é detectado, você vê uma mensagem de erro padrão em vez da resposta gerada. A mensagem de erro padrão exibe que a solicitação não pôde ser concluída e você não vê o que a IA gerou. Antes de habilitar o bloqueio, revise os logs por um período para entender com que frequência esses problemas ocorrem em seu ambiente.

Redirecionamento para tópicos filtrados confidenciais

Depois que um filtro detecta um tópico confidencial, Guardião do Now Assist Redireciona você para o tópico Detecção de sensibilidade: Fallback em Virtual Agent. Este tópico pode redirecioná-lo para um atendente ou ajudar você a criar um RH caso.

Você pode substituir o redirecionamento selecionando Prosseguir, não confidencial . Você retorna ao tópico original sem iniciar o fluxo de fallback.

Nota:

Depois de continuar com o tópico de fallback, por exemplo, iniciando o fluxo para criar um RH caso, Virtual Agent não continua detectando tópicos confidenciais nessa conversa.

Guardião do Now Assist em tempo de execução

Todas as habilidades que usam Guardião do Now Assist Remova as informações de identificação pessoal (PII) antes que a solicitação chegue ao LLM. Você pode configurar que tipo de dados são anonimizados. Para obter mais informações, consulte, Configurando o Now Assist para Privacidade de dados .

Para habilidades conversacionais, a pesquisa semântica processa solicitações para determinar se um filtro foi detectado. Em caso afirmativo, o usuário será redirecionado para um Virtual Agent tópico que pergunta se eles querem fazer um RH ou fale com um atendente.

Infográfico mostrando Guardião do Now Assistem tempo de execução com proteção do filtro de sensibilidade

Para geração de itens do catálogo e habilidades do agente, como geração de anotações de resumo e resolução, proteções ofensivas e injeção de prompt são executadas em entradas e saídas de solicitações. Se um for detectado, Guardião do Now Assistregistra a solicitação. Se você optou por bloquear este conteúdo, uma mensagem de erro padrão será exibida e o usuário não verá o resultado da solicitação.

Infográfico mostrando Guardião do Now Assistem tempo de execução com ofensividade e proteções de segurança

Segurança c categorias capturado em Guardião do Now Assist logs

A seguir estão os diferentes tipos de conteúdo que podem ser sinalizados como ofensivos ou representam um risco de segurança. Você pode identificar quais categorias estão sendo capturadas em Guardião do Now Assistlogs para as diferentes proteções.
Categoria	ID da Categoria	Descrição
Conteúdo tóxico	O1	Não deve: Promover discurso de ódio, incitar violência como abuso infantil ou bullying ou envolver-se em ataques pessoais ou assédio. Pode: Discutir os impactos e as questões sociais relacionadas ao conteúdo tóxico para fins educacionais.
Representação distorcida	O2	Não deve: Ajudar a perpetuar estereótipos ou incentivar a discriminação ou preconceito. Pode: Discutir questões de representação e promover conscientização e inclusão.
Conteúdo adulto	O3	Mostrar material sexualmente explícito ou conteúdo inadequado para menores, incluindo pornografia, bate-papo erótico e atividade sexual. Pode: Oferecer discussões educativas sobre tópicos relacionados à sexualidade e consentimento.
Perda de confiança nas informações públicas	O4	Não deve: Espalhar desinformação ou desinformação que comprometa a confiança pública, como aconselhamento médico enganoso, drogas ilegais e aconselhamento. Pode: Analisar criticamente as tendências de desinformação e educar sobre a literacia mediática.
Propagação de conceitos errados/crenças falsas	O5	Não deve: Disseminar informações enganosas, não verificadas, teorias da conspiração, negalismo científico, revisionismo histórico, ou conteúdo que pode levar à radicalização. Pode: Fornecer análise crítica e desmascarar conceitos errôneos comuns e crenças falsas.
Práticas financeiras arriscadas	O6	Não deve: Promover práticas comerciais antiéticas, como marketing multinível, práticas de empréstimo enganosas ou jogos de azar. Pode: Educar sobre riscos associados, empréstimos éticos, jogo responsável, conformidade comercial e práticas comerciais justas.
Comércio e conformidade	O7	Não deve: Envolver questões trabalhistas, envolver-se em assuntos comerciais antiéticos, contribuir para práticas trabalhistas desleais ou promover práticas comerciais fraudulentas. Pode: Fornecer informações e informações sobre questões trabalhistas, práticas comerciais éticas, conformidade comercial e conduta comercial justa.
Disseminação de informações perigosas	O8	Não deve: Espalhar notícias falsas, propagar boatos nas redes sociais, revelar segredos do governo ou vazar dados financeiros e outros conteúdos que contribuam para o pânico público ou para a segurança nacional. Pode: Educar sobre os perigos dessas informações e promover a segurança.
Violação de privacidade	O9	Não deve: Envolver doxxing, compartilhamento de dados não autorizado ou vigilância, como informações privadas que inferem ou vazam. Pode: Discutir a importância dos direitos de privacidade e da segurança digital.
Ameaças à segurança	O10	Não deve: Espalhar malware ou incentivar o terrorismo ou outras ameaças de segurança, como geração de armas, ataques cibernéticos ou danos químicos. Pode: Fornecer informações e métodos para identificar e mitigar ameaças à segurança.
Difamação	O11	Não deve: Publicar declarações falsas prejudiciais a indivíduos, grupos ou organizações. Pode: Explorar os aspetos jurídicos e éticos da difamação e da liberdade de expressão.
Fraude ou ação enganosa	O12	Não deve: Envolver-se em desonestidade acadêmica, cometer golpes, promover pseudo-farmacêuticos ou disseminar conteúdo online falso. O conteúdo não deve enganar ou fraudar indivíduos. Pode: Instruir sobre o reconhecimento e a prevenção de atividades fraudulentas.
Operações de influência	O13	Não deve: Manipular a opinião pública ou interromper a harmonia social para fins políticos ou ideológicos, como vigilância ou campanha. Pode: Analisar e educar sobre a natureza e o impacto das operações de influência.
Atividades ilegais	O14	Não deve: Promover ou fornecer orientação sobre o envolvimento em ações ilegais, como crimes ou terrorismo. Pode: Educar sobre as consequências e a prevenção de atividades ilegais.
Persuasão e manipulação	O15	Não deve: Envolver técnicas de persuasão ou manipulação que promovam automutilação, manipulação psicológica ou qualquer forma de dano ao bem-estar dos indivíduos. Pode: Educar sobre reconhecer e resistir à manipulação, oferecer apoio e recursos para as pessoas afetadas.
Violação de propriedade pessoal	O16	Não deve: Ativar em v iolat . a propriedade pessoal de um indivíduo, imitação maliciosa, plágio, violação de direitos autorais ou identidade falsificação . Pode: Promover a conscientização e discussões sobre o respeito à propriedade pessoal e a prevenção de tais violações.

Habilidades que oferecem suporte à detecção ofensiva

Tabela 1. Habilidades compatíveis por fluxo de trabalho
Fluxo de trabalho	Aplicação	Habilidades compatíveis
Tecnologia	Now Assist for Configuration Management Database (CMDB)	Resumo do item de configuração (IC) Gerenciar ICs duplicados Diagnóstico do Conector do Service Graph
Tecnologia	Now Assist for ITOM	Análise de alerta Investigação de alertas
Tecnologia	Now Assist for IT Service Management (ITSM)	Explicação do risco da solicitação de mudança Resumo da solicitação de mudança Recomendação de resposta na conversa Resumo de bate-papo Assistência a incidentes Resumo do incidente Geração da base de conhecimento Geração de anotações de resolução Resumo da discussão da barra lateral
Tecnologia	Now Assist for Security Incident Response	Análise pós-incidente Geração de anotações de resolução Ações recomendadas de incidente de segurança Resumo do incidente de segurança
Tecnologia	Now Assist for Strategic Portfolio Management (SPM)	Resumo de feedback múltiplo Resumo do documento do item de planejamento Resumo do documento do projeto E-mails de resumo do projeto Geração de história Item de planejamento de gravação
Cliente	Now Assist for Customer Service Management (CSM)	Resumo do caso Recomendação de bate-papo Resumo de bate-papo Recomendação de e-mail Geração da base de conhecimento Geração de anotações de resolução Resumo da barra lateral
Cliente	Now Assist for Field Service Management (FSM)	Geração da base de conhecimento Resumo da barra lateral Resumo da tarefa de ordem de serviço
Cliente	Now Assist for Financial Services Operations (FSO)	Resumo do caso Entrada de disputas via Virtual Agent
Cliente	Now Assist for Public Sector Digital Services (PSDS)	Resumo de casos governamentais Resumo de bate-papo
Funcionário	Now Assist for Health and Safety	Resumo do incidente
Funcionário	Now Assist for HR Service Delivery (HRSD)	Resumo do caso Resumo de bate-papo Geração da base de conhecimento Geração de anotações de resolução
Funcionário	Now Assist for Legal Service Delivery (LSD)	Resumo da solicitação jurídica
Funcionário	Now Assist in Contract Management	Análise de contrato Extração de metadados do contrato
Criador		Geração de itens do catálogo
Finanças e cadeia de suprimentos	Now Assist for Accounts Payable Operations (APO)	Resumo do registro
Finanças e cadeia de suprimentos	Now Assist for Supplier Lifecycle Operations (SLO)	Resumo do caso do fornecedor
Finanças e cadeia de suprimentos	Now Assist for Sourcing and Procurement Operations (SPO)	Resumo do registro