Guardião do Now Assist
Guardião do Now Assisté criado no ServiceNow Modelo de linguagem pequena (SLM) e monitora interações de IA generativa para detectar conteúdo ofensivo, ataques de injeção de prompt e tópicos confidenciais.
Guardião do Now Assist Visão geral
A IA generativa é uma tecnologia emergente. As interações humanas são imprevisíveis, e as saídas geradas pelo modelo de linguagem grande (LLM) são probabilísticas, o que significa que elas são baseadas em probabilidades. Executar a mesma entrada duas vezes pode gerar duas saídas diferentes. A gestão desse risco é uma consideração importante ao implementar a IA generativa em sua instância. Guardião do Now Assist Avalia as solicitações enviadas aos LLMs e suas respostas em tempo real para reduzir esse risco.
Proteções
| Proteção | O que ele detecta | Escopo |
|---|---|---|
| Detecção de ofentividade | Conteúdo ofensivo ou prejudicial em entradas e saídas de IA. | Específico Now Assist habilidades e fluxos de trabalho. |
| Detecção de injeção de prompt | Tentativas de substituir instruções de LLM ou expor informações restritas. | Todas as aplicações e recursos de IA generativa. |
| Filtros de tópicos confidenciais | Assuntos não adequados para respostas de IA, como segurança no local de trabalho ou remuneração do funcionário. | Virtual Agent somente habilidades de conversação (disponível para Prestação de serviços de RH e. Customer Service Management). |
- Conteúdo ofensivo
- Devido à natureza probabilística da IA generativa, é possível que um LLM gere conteúdo ofensivo. Se houver conteúdo ofensivo na entrada da solicitação, o conteúdo ofensivo também pode ocorrer na resposta. Exemplos de conteúdo ofensivo incluem linguagem tóxica, difamatória ou fraudulenta.
Quando conteúdo ofensivo é detectado, Guardião do Now Assist registra o evento. Você também pode configurá-lo para bloquear o conteúdo. Esta proteção se aplica a específico Now Assist habilidades e fluxos de trabalho.
- Injeção de prompt
- A injeção de prompt é um tipo de ataque de segurança em que alguém tenta substituir as instruções normais de um LLM para acessar informações restritas ou causar comportamentos não intencionais. Guardião do Now Assist Detecta tentativas de injeção de prompt usando um LLM treinado em vários tipos de técnicas de injeção de prompt , tais como interpretação de papéis, parafrasear, repetição, instruções para ignorar outras instruções e persuasão. Nota:A proteção de injeção de prompt se aplica a todas as aplicações e recursos de IA generativa na sua instância. Não se limita a habilidades ou fluxos de trabalho específicos.Devido à natureza probabilística do modelo e às técnicas de ataque em evolução, Guardião do Now Assist pode não identificar todas as tentativas de injeção de prompt em alguns casos.
- Assuntos filtrados
- Determinados assuntos, como remuneração do funcionário de segurança no local de trabalho ou bem-estar pessoal, podem não ser mais adequados para respostas de IA generativa. Você pode ativar filtros que detectam esses tipos de objetos em Virtual Agent E redirecione usuários para Detecção de sensibilidade: Fallback Virtual Agent Em vez de gerar uma resposta de IA.Nota:Os filtros de tópicos confidenciais se aplicam somente a. Virtual Agent habilidades conversacionais. Esses filtros estão disponíveis somente com Prestação de serviços de RH e. Customer Service Management.
Registro e bloqueio
Guardião do Now Assist registra eventos detectados para ofensividade e injeção de prompt. Você pode acessar logs de . Os dados de log incluem informações sobre a solicitação, a conversa que contém o conteúdo ofensivo e qualquer feedback do usuário.
Além de registrar em log, você pode configurar Guardião do Now Assist para bloquear conteúdo ofensivo ou tentativas de injeção de prompt. Quando o bloqueio está habilitado e o conteúdo é detectado, você vê uma mensagem de erro padrão em vez da resposta gerada. A mensagem de erro padrão exibe que a solicitação não pôde ser concluída e você não vê o que a IA gerou. Antes de habilitar o bloqueio, revise os logs por um período para entender com que frequência esses problemas ocorrem em seu ambiente.
Redirecionamento para tópicos filtrados confidenciais
Depois que um filtro detecta um tópico confidencial, Guardião do Now Assist Redireciona você para o tópico Detecção de sensibilidade: Fallback em Virtual Agent. Este tópico pode redirecioná-lo para um atendente ou ajudar você a criar um RH caso.
Guardião do Now Assist em tempo de execução
Todas as habilidades que usam Guardião do Now Assist Remova as informações de identificação pessoal (PII) antes que a solicitação chegue ao LLM. Você pode configurar que tipo de dados são anonimizados. Para obter mais informações, consulte, Configurando o Now Assist para Privacidade de dados .
Para habilidades conversacionais, a pesquisa semântica processa solicitações para determinar se um filtro foi detectado. Em caso afirmativo, o usuário será redirecionado para um Virtual Agent tópico que pergunta se eles querem fazer um RH ou fale com um atendente.
Para geração de itens do catálogo e habilidades do agente, como geração de anotações de resumo e resolução, proteções ofensivas e injeção de prompt são executadas em entradas e saídas de solicitações. Se um for detectado, Guardião do Now Assistregistra a solicitação. Se você optou por bloquear este conteúdo, uma mensagem de erro padrão será exibida e o usuário não verá o resultado da solicitação.
Segurança c categorias capturado em Guardião do Now Assist logs
|
Categoria |
ID da Categoria |
Descrição |
|---|---|---|
|
Conteúdo tóxico |
O1 |
Não deve: Promover discurso de ódio, incitar violência como abuso infantil ou bullying ou envolver-se em ataques pessoais ou assédio. Pode: Discutir os impactos e as questões sociais relacionadas ao conteúdo tóxico para fins educacionais. |
|
Representação distorcida |
O2 |
Não deve: Ajudar a perpetuar estereótipos ou incentivar a discriminação ou preconceito. Pode: Discutir questões de representação e promover conscientização e inclusão. |
|
Conteúdo adulto |
O3 |
Mostrar material sexualmente explícito ou conteúdo inadequado para menores, incluindo pornografia, bate-papo erótico e atividade sexual. Pode: Oferecer discussões educativas sobre tópicos relacionados à sexualidade e consentimento. |
|
Perda de confiança nas informações públicas |
O4 |
Não deve: Espalhar desinformação ou desinformação que comprometa a confiança pública, como aconselhamento médico enganoso, drogas ilegais e aconselhamento. Pode: Analisar criticamente as tendências de desinformação e educar sobre a literacia mediática. |
|
Propagação de conceitos errados/crenças falsas |
O5 |
Não deve: Disseminar informações enganosas, não verificadas, teorias da conspiração, negalismo científico, revisionismo histórico, ou conteúdo que pode levar à radicalização. Pode: Fornecer análise crítica e desmascarar conceitos errôneos comuns e crenças falsas. |
|
Práticas financeiras arriscadas |
O6 |
Não deve: Promover práticas comerciais antiéticas, como marketing multinível, práticas de empréstimo enganosas ou jogos de azar. Pode: Educar sobre riscos associados, empréstimos éticos, jogo responsável, conformidade comercial e práticas comerciais justas. |
|
Comércio e conformidade |
O7 |
Não deve: Envolver questões trabalhistas, envolver-se em assuntos comerciais antiéticos, contribuir para práticas trabalhistas desleais ou promover práticas comerciais fraudulentas. Pode: Fornecer informações e informações sobre questões trabalhistas, práticas comerciais éticas, conformidade comercial e conduta comercial justa. |
|
Disseminação de informações perigosas |
O8 |
Não deve: Espalhar notícias falsas, propagar boatos nas redes sociais, revelar segredos do governo ou vazar dados financeiros e outros conteúdos que contribuam para o pânico público ou para a segurança nacional. Pode: Educar sobre os perigos dessas informações e promover a segurança. |
|
Violação de privacidade |
O9 |
Não deve: Envolver doxxing, compartilhamento de dados não autorizado ou vigilância, como informações privadas que inferem ou vazam. Pode: Discutir a importância dos direitos de privacidade e da segurança digital. |
|
Ameaças à segurança |
O10 |
Não deve: Espalhar malware ou incentivar o terrorismo ou outras ameaças de segurança, como geração de armas, ataques cibernéticos ou danos químicos. Pode: Fornecer informações e métodos para identificar e mitigar ameaças à segurança. |
|
Difamação |
O11 |
Não deve: Publicar declarações falsas prejudiciais a indivíduos, grupos ou organizações. Pode: Explorar os aspetos jurídicos e éticos da difamação e da liberdade de expressão. |
|
Fraude ou ação enganosa |
O12 |
Não deve: Envolver-se em desonestidade acadêmica, cometer golpes, promover pseudo-farmacêuticos ou disseminar conteúdo online falso. O conteúdo não deve enganar ou fraudar indivíduos. Pode: Instruir sobre o reconhecimento e a prevenção de atividades fraudulentas. |
|
Operações de influência |
O13 |
Não deve: Manipular a opinião pública ou interromper a harmonia social para fins políticos ou ideológicos, como vigilância ou campanha. Pode: Analisar e educar sobre a natureza e o impacto das operações de influência. |
|
Atividades ilegais |
O14 |
Não deve: Promover ou fornecer orientação sobre o envolvimento em ações ilegais, como crimes ou terrorismo. Pode: Educar sobre as consequências e a prevenção de atividades ilegais. |
|
Persuasão e manipulação |
O15 |
Não deve: Envolver técnicas de persuasão ou manipulação que promovam automutilação, manipulação psicológica ou qualquer forma de dano ao bem-estar dos indivíduos. Pode: Educar sobre reconhecer e resistir à manipulação, oferecer apoio e recursos para as pessoas afetadas. |
|
Violação de propriedade pessoal |
O16 |
Não deve: Ativar em v iolat . a propriedade pessoal de um indivíduo, imitação maliciosa, plágio, violação de direitos autorais ou identidade falsificação . Pode: Promover a conscientização e discussões sobre o respeito à propriedade pessoal e a prevenção de tais violações. |