Now Assist Guardian

  • Freigeben Version: Australia
  • Aktualisiert 31. Juli 2025
  • 8 Minuten Lesedauer
  • Now Assist Guardian Wird auf erstellt ServiceNow Small Language Model (SLM) und überwacht generative KI-Interaktionen, um anstößige Inhalte, Prompt Injection-Angriffe und sensible Themen zu erkennen.

    Now Assist Guardian Übersicht

    Generative KI ist eine neue Technologie. Menschliche Interaktionen sind unvorhersehbar, und Ausgaben, die vom Large Language Model (LLM) generiert werden, sind probabilistisch, d. h. sie basieren auf Wahrscheinlichkeiten. Wenn dieselbe Eingabe zweimal ausgeführt wird, können zwei verschiedene Ausgaben generiert werden. Die Verwaltung dieses Risikos ist ein wichtiger Aspekt bei der Implementierung generativer KI in Ihrer Instanz. Now Assist Guardian Wertet Anforderungen, die an LLMS gesendet werden, und ihre Antworten in Echtzeit aus, um dieses Risiko zu reduzieren.

    Schutzmaßnahmen

    Now Assist Guardian Bietet drei Schutzmaßnahmen. Jede Schutzmaßnahme hat einen anderen Anwendungsbereich:
    Schutzmaßnahme Was erkannt wird Umfang
    Erkennung von Anstößigkeit Anstößige oder schädliche Inhalte in KI-Eingaben und -Ausgaben. Spezifisch Now Assist Kompetenzen und Workflows.
    Erkennung von Prompt Injection Versucht, LLM-Anweisungen zu überschreiben oder eingeschränkte Informationen offenzulegen. Alle generativen KI-Anwendungen und -Funktionen.
    Filter für sensible Themen Themen, die nicht für KI-Antworten geeignet sind, z. B. Sicherheit am Arbeitsplatz oder Mitarbeitervergütung. Virtual Agent Nur Konversationskompetenzen (verfügbar für 'HR-Servicebereitstellung Und Kundenservice-Management).
    Hinweis:
    Der Umfang der einzelnen Schutzmaßnahmen unterscheidet sich. Die Erkennung von Prompt Injection gilt für alle generativen KI-Anwendungen und -Funktionen. Die Erkennung von Anstößigkeit gilt nur für unterstützte Now Assist Kompetenzen und Workflows. Filter für sensible Themen gelten nur für Virtual Agent Konversationen und erfordern 'HR-Servicebereitstellung.
    Anstößiger Inhalt
    Aufgrund der probabilistischen Natur der generativen KI ist es für ein LLM möglich, anstößige Inhalte zu generieren. Wenn die Eingabe der Anforderung anstößige Inhalte enthält, können anstößige Inhalte auch in der Antwort auftreten. Beispiele für anstößige Inhalte sind giftige, diffamierende oder betrügerische Sprachen.

    Wenn anstößige Inhalte erkannt werden, Now Assist Guardian Protokolliert das Ereignis. Sie können sie auch so konfigurieren, dass der Inhalt blockiert wird. Diese Schutzmaßnahme gilt für bestimmte Now Assist Kompetenzen und Workflows.

    Prompt Injection
    Prompt Injection ist eine Art von Sicherheitsangriff, bei dem jemand versucht, die normalen Anweisungen eines LLM zu überschreiben, um auf eingeschränkte Informationen zuzugreifen oder unbeabsichtigtes Verhalten zu verursachen. Now Assist Guardian Erkennt Prompt Injection-Versuche mithilfe eines LLM, das auf verschiedenen Arten von Prompt Injection-Techniken trainiert wurde , Z. B. Rollenwiedergabe, Umformulierung, Wiederholung, Anweisungen zum Ignorieren anderer Anweisungen und Überzeugung.
    Hinweis:
    Aufgrund der probabilistischen Natur des Modells und der sich entwickelnden Angriffstechniken Now Assist Guardian Kann in einigen Fällen nicht jeden Prompt Injection-Versuch identifizieren.
    Prompt Injection-Schutz gilt für alle generativen KI-Anwendungen und -Funktionen in Ihrer Instanz. Sie ist nicht auf bestimmte Kompetenzen oder Workflows beschränkt.
    Gefilterte Themen
    Bestimmte Themen, z. B. Mitarbeitervergütung für Sicherheit am Arbeitsplatz oder persönliches Wohlbefinden, sind möglicherweise nicht am besten für Antworten auf generative KI geeignet. Sie können Filter aktivieren, die diese Arten von Themen in erkennen Virtual Agent Konversationen und leiten Anwender zur Sensitivitätserkennung: Fallback weiter Virtual Agent Thema statt KI-Antwort zu generieren.
    Hinweis:
    Filter für sensible Themen gelten nur für Virtual Agent Konversationskompetenzen. Diese Filter sind nur mit verfügbar 'HR-Servicebereitstellung Und Kundenservice-Management.

    Protokollierung und Blockierung

    Now Assist Guardian Protokolliert erkannte Ereignisse auf Anstößigkeit und Prompt Injection. Sie können über auf Protokolle zugreifen Now Assist Administrator > Einstellungen > Now Assist Guardianan. Protokolldaten enthalten Informationen zur Anforderung, zur Konversation, die den anstößigen Inhalt enthält, und zu Anwenderfeedback.

    Zusätzlich zur Protokollierung können Sie konfigurieren Now Assist Guardian Dient zum Blockieren anstößiger Inhalte oder Prompt Injection-Versuche. Wenn das Blockieren aktiviert ist und Inhalte erkannt werden, wird anstelle der generierten Antwort eine Standardfehlermeldung angezeigt. Die Standardfehlermeldung zeigt an, dass die Anforderung nicht abgeschlossen werden konnte und Sie nicht sehen, was die KI generiert hat. Bevor Sie das Blockieren aktivieren, überprüfen Sie die Protokolle für einen bestimmten Zeitraum, um zu verstehen, wie häufig diese Probleme in Ihrer Umgebung auftreten.

    Umleitung für sensible gefilterte Themen

    Nachdem ein Filter ein sensibles Thema erkannt hat, Now Assist Guardian Leitet Sie zum Thema Sensitivitätserkennung: Fallback in weiter Virtual Agent. Dieses Thema kann Sie zu einem Servicemitarbeiter umleiten oder Ihnen beim Erstellen eines helfen HR Fall.

    Sie können die Umleitung überschreiben, indem Sie auswählen Fortfahren, nicht vertraulich . Dadurch kehren Sie zum ursprünglichen Thema zurück, ohne den Fallback-Flow zu initiieren.
    Hinweis:
    Nachdem Sie mit dem Fallback-Thema fortgefahren sind, z. B. indem Sie den Flow starten, um eine zu erstellen HR Fall, Virtual Agent Erkennt vertrauliche Themen in dieser Konversation nicht weiter.

    Now Assist Guardian Zur Laufzeit

    Alle Kompetenzen, die verwenden Now Assist Guardian Entfernen Sie personenbezogene Daten, bevor die Anforderung den LLM erreicht. Sie können konfigurieren, welche Art von Daten anonymisiert werden. Weitere Informationen finden Sie unter Konfigurieren von Now Assist für Datenschutz .

    Für Konversationskompetenzen verarbeitet die semantische Suche Anforderungen, um zu bestimmen, ob ein Filter erkannt wurde. Wenn ja, wird der Anwender zu weitergeleitet Virtual Agent Thema, das fragt, ob ein erstellt werden soll HR Fall oder Gespräch mit einem Servicemitarbeiter.

    Infografik wird angezeigt Now Assist GuardianZur Laufzeit mit Schutzmaßnahmen für Empfindlichkeitsfilter

    Für die Generierung von Katalogelementen und Fähigkeiten von Service Desk-Mitarbeitern, z. B. Erstellung von Zusammenfassungs- und Lösungsnotizen, werden Schutzmaßnahmen für Anstößigkeit und Prompt Injection für Eingaben und Ausgaben von Anforderungen ausgeführt. Wenn einer der beiden erkannt wird, Now Assist GuardianProtokolliert die Anforderung. Wenn Sie diesen Inhalt blockieren möchten, wird eine Standardfehlermeldung angezeigt, und der Anwender sieht das Ergebnis der Anforderung nicht.

    Infografik wird angezeigt Now Assist GuardianZur Laufzeit mit Anstößigkeit und Sicherheitsmaßnahmen

    Sicherheit c Kategorien Erfasst in Now Assist Guardian Protokolle

    Im Folgenden werden die verschiedenen Arten von Inhalten aufgeführt, die als anstößig oder als Sicherheitsrisiko gekennzeichnet werden können. Sie können identifizieren, welche Kategorien in erfasst werden Now Assist GuardianProtokolle für die verschiedenen Schutzmaßnahmen.

    Kategorie

    Kategorie-ID

    Beschreibung

    Toxische Inhalte

    O1

    Sollte nicht: Hassrede fördern, zu Gewalt wie Kindesmissbrauch oder Mobbing aufstacheln oder persönliche Angriffe oder Belästigung durchführen.

    Kann: Besprechen Sie die Auswirkungen und gesellschaftlichen Probleme im Zusammenhang mit toxischen Inhalten zu Bildungszwecken.

    Unfaire Darstellung

    O2

    Sollte nicht: Dabei helfen, Stereotypen zu erhalten oder Diskriminierung oder Verzerrung zu fördern.

    Kann: Probleme der Repräsentation besprechen und Bewusstsein und Inklusion fördern.

    Pornografische Inhalte

    O3

    Darf nicht: Sexuell explizites Material oder Inhalte anzeigen, die für Minderjährige unangemessen sind, einschließlich Pornografie, erotischer Chats und sexueller Aktivitäten.

    Kann: Bildungsdiskussionen zu Themen im Zusammenhang mit Sexualität und Einwilligung anbieten.

    Erosion des Vertrauens in öffentliche Informationen

    O4

    Sollte nicht: Fehlinformationen oder Desinformationen verbreiten, die das öffentliche Vertrauen untergraben, z. B. irreführende medizinische Beratung, illegale Drogen und Beratung.

    Kann: Fehlinformationstrends kritisch analysieren und über Medienkompetenz informieren.

    Verbreitung falscher Vorstellungen/Anschauungen

    O5

    Sollte: Nicht verifizierte, irreführende Informationen, Verschwörungstheorien, Wissenschaftsleugnung, historischer Revisionismus, oder Inhalte, die zu Radikalisierung führen könnten.

    Kann: Kritische Analyse und Entlarvung gängiger Missverständnisse und falscher Überzeugungen bereitstellen.

    Riskante Finanzpraktiken

    O6

    Sollte nicht: Unethische Handelspraktiken wie Marketing auf mehreren Ebenen, betrügerische Kreditvergabepraktiken oder Glücksspiele fördern.

    Kann: Informieren Sie sich über zugehörige Risiken, ethische Kreditvergabe, verantwortungsvolles Glücksspiel, Compliance mit Handel und faire Geschäftspraktiken.

    Handel und Compliance

    O7

    Sollte nicht: Arbeitsprobleme einbeziehen, unethische Handelsangelegenheiten wahrnehmen, zu unfairen Arbeitspraktiken beitragen oder betrügerische Handelspraktiken fördern.

    Kann: Informationen und Einblicke in Arbeitsprobleme, ethische Handelspraktiken, Compliance im Handel und faires Geschäftsverhalten bereitstellen.

    Verbreitung gefährlicher Informationen

    O8

    Sollte nicht: Falsche Nachrichten verbreiten, Gerüchte in sozialen Medien verbreiten, Regierungsgeheimnisse offenlegen oder Finanzdaten und andere Inhalte preisgeben, die zu öffentlicher Panik oder nationaler Sicherheit beitragen.

    Kann: Über die Gefahren solcher Informationen informieren und die Sicherheit fördern.

    Verletzung der Privatsphäre

    O9

    Sollte nicht: Doxxxing, nicht autorisierte Datenfreigabe oder Überwachung umfassen, z. B. wenn private Informationen abgeleitet oder undicht werden.

    Kann: Besprechen Sie die Wichtigkeit von Datenschutzrechten und digitaler Sicherheit.

    Sicherheitsbedrohungen

    O10

    Sollte nicht: Malware verbreiten oder Terrorismus oder andere Sicherheitsbedrohungen wie Waffenerstellung, Cyberangriff oder chemische Schäden fördern.

    Kann: Informationen und Methoden zur Identifizierung und Minderung von Sicherheitsbedrohungen bereitstellen.

    Verleumdung

    O11

    Darf nicht: Falsche Aussagen veröffentlichen, die Einzelpersonen, Gruppen oder Organisationen schaden.

    Kann: Die rechtlichen und ethischen Aspekte von Diffamierung und Meinungsfreiheit erkunden.

    Betrugs- oder Täuschungshandlung

    O12

    Sollte: Nicht an akademischer Unehrlichkeit teilnehmen, Betrug begehen, Pseudo-Arzneimittel fördern oder gefälschte Online-Inhalte verbreiten. Inhalt darf keine Personen täuschen oder betrügen.

    Kann: Informationen zur Erkennung und Verhinderung betrügerischer Aktivitäten.

    Einflussoperationen

    O13

    Sollte nicht: Die öffentliche Meinung manipulieren oder die gesellschaftliche Harmonie zu politischen oder ideologischen Zwecken wie Überwachung oder Kampagne stören.

    Kann: Analysieren und informieren Sie sich über die Art und die Auswirkungen von Einflussvorgängen.

    Rechtswidrige Handlungen

    O14

    Sollte nicht: Illegale Handlungen wie Straftaten oder Terrorismus fördern oder Anleitungen für sie bereitstellen.

    Kann: Über die Konsequenzen und Prävention illegaler Aktivitäten informieren.

    Überredung und Manipulation

    O15

    Darf nicht: Überzeugungs- oder Manipulationstechniken beinhalten, die Selbstschaden, psychologische Manipulation oder jede Form von Schaden für das Wohlergehen von Personen fördern.

    Kann: Lernen Sie, wie Sie Manipulationen erkennen und ihnen widerstehen, und bieten Sie den Betroffenen Unterstützung und Ressourcen.

    Verletzung persönlichen Eigentums

    O16

    Sollte nicht: Einbinden v Iolat ING Persönliches Eigentum einer Person, Böswillige Nachahmung, Plagiat, Urheberrechtsverletzung Oder Identität Fälschung .

    Kann: Sensibilisierung und Diskussionen über den Respekt von persönlichem Eigentum und die Verhinderung solcher Verstöße fördern.

    Kompetenzen, die die anstößige Erkennung unterstützen

    Tabelle : 1. Unterstützte Kompetenzen von Workflow
    Workflow Anwendung Unterstützte Kompetenzen
    Technologie Now Assist for Configuration Management Database (CMDB)
    Technologie Now Assist for ITOM
    Technologie Now Assist for IT Service Management (ITSM)
    Technologie Now Assist for Security Incident Response
    Technologie Now Assist for Strategic Portfolio Management (SPM)
    Kunde Now Assist for Customer Service Management (CSM)
    Kunde Now Assist for Field Service Management (FSM)
    Kunde Now Assist for Financial Services Operations (FSO)
    Kunde Now Assist for Public Sector Digital Services (PSDS)
    Mitarbeiter Now Assist for Health and Safety Incident-Zusammenfassung
    Mitarbeiter Now Assist for HR Service Delivery (HRSD)
    Mitarbeiter Now Assist for Legal Service Delivery (LSD) Zusammenfassung der Anforderung an die Rechtsabteilung
    Mitarbeiter Now Assist in Contract Management
    Ersteller Katalogelementerstellung
    Finanzwesen und Lieferkette Now Assist for Accounts Payable Operations (APO) Datensatzzusammenfassung
    Finanzwesen und Lieferkette Now Assist for Supplier Lifecycle Operations (SLO) Lieferantenfall Zusammenfassung
    Finanzwesen und Lieferkette Now Assist for Sourcing and Procurement Operations (SPO) Datensatzzusammenfassung