Now Assist Guardian
Now Assist Guardian Wird auf erstellt ServiceNow Small Language Model (SLM) und überwacht generative KI-Interaktionen, um anstößige Inhalte, Prompt Injection-Angriffe und sensible Themen zu erkennen.
Now Assist Guardian Übersicht
Generative KI ist eine neue Technologie. Menschliche Interaktionen sind unvorhersehbar, und Ausgaben, die vom Large Language Model (LLM) generiert werden, sind probabilistisch, d. h. sie basieren auf Wahrscheinlichkeiten. Wenn dieselbe Eingabe zweimal ausgeführt wird, können zwei verschiedene Ausgaben generiert werden. Die Verwaltung dieses Risikos ist ein wichtiger Aspekt bei der Implementierung generativer KI in Ihrer Instanz. Now Assist Guardian Wertet Anforderungen, die an LLMS gesendet werden, und ihre Antworten in Echtzeit aus, um dieses Risiko zu reduzieren.
Schutzmaßnahmen
| Schutzmaßnahme | Was erkannt wird | Umfang |
|---|---|---|
| Erkennung von Anstößigkeit | Anstößige oder schädliche Inhalte in KI-Eingaben und -Ausgaben. | Spezifisch Now Assist Kompetenzen und Workflows. |
| Erkennung von Prompt Injection | Versucht, LLM-Anweisungen zu überschreiben oder eingeschränkte Informationen offenzulegen. | Alle generativen KI-Anwendungen und -Funktionen. |
| Filter für sensible Themen | Themen, die nicht für KI-Antworten geeignet sind, z. B. Sicherheit am Arbeitsplatz oder Mitarbeitervergütung. | Virtual Agent Nur Konversationskompetenzen (verfügbar für 'HR-Servicebereitstellung Und Kundenservice-Management). |
- Anstößiger Inhalt
- Aufgrund der probabilistischen Natur der generativen KI ist es für ein LLM möglich, anstößige Inhalte zu generieren. Wenn die Eingabe der Anforderung anstößige Inhalte enthält, können anstößige Inhalte auch in der Antwort auftreten. Beispiele für anstößige Inhalte sind giftige, diffamierende oder betrügerische Sprachen.
Wenn anstößige Inhalte erkannt werden, Now Assist Guardian Protokolliert das Ereignis. Sie können sie auch so konfigurieren, dass der Inhalt blockiert wird. Diese Schutzmaßnahme gilt für bestimmte Now Assist Kompetenzen und Workflows.
- Prompt Injection
- Prompt Injection ist eine Art von Sicherheitsangriff, bei dem jemand versucht, die normalen Anweisungen eines LLM zu überschreiben, um auf eingeschränkte Informationen zuzugreifen oder unbeabsichtigtes Verhalten zu verursachen. Now Assist Guardian Erkennt Prompt Injection-Versuche mithilfe eines LLM, das auf verschiedenen Arten von Prompt Injection-Techniken trainiert wurde , Z. B. Rollenwiedergabe, Umformulierung, Wiederholung, Anweisungen zum Ignorieren anderer Anweisungen und Überzeugung. Hinweis:Prompt Injection-Schutz gilt für alle generativen KI-Anwendungen und -Funktionen in Ihrer Instanz. Sie ist nicht auf bestimmte Kompetenzen oder Workflows beschränkt.Aufgrund der probabilistischen Natur des Modells und der sich entwickelnden Angriffstechniken Now Assist Guardian Kann in einigen Fällen nicht jeden Prompt Injection-Versuch identifizieren.
- Gefilterte Themen
- Bestimmte Themen, z. B. Mitarbeitervergütung für Sicherheit am Arbeitsplatz oder persönliches Wohlbefinden, sind möglicherweise nicht am besten für Antworten auf generative KI geeignet. Sie können Filter aktivieren, die diese Arten von Themen in erkennen Virtual Agent Konversationen und leiten Anwender zur Sensitivitätserkennung: Fallback weiter Virtual Agent Thema statt KI-Antwort zu generieren.Hinweis:Filter für sensible Themen gelten nur für Virtual Agent Konversationskompetenzen. Diese Filter sind nur mit verfügbar 'HR-Servicebereitstellung Und Kundenservice-Management.
Protokollierung und Blockierung
Now Assist Guardian Protokolliert erkannte Ereignisse auf Anstößigkeit und Prompt Injection. Sie können über auf Protokolle zugreifen an. Protokolldaten enthalten Informationen zur Anforderung, zur Konversation, die den anstößigen Inhalt enthält, und zu Anwenderfeedback.
Zusätzlich zur Protokollierung können Sie konfigurieren Now Assist Guardian Dient zum Blockieren anstößiger Inhalte oder Prompt Injection-Versuche. Wenn das Blockieren aktiviert ist und Inhalte erkannt werden, wird anstelle der generierten Antwort eine Standardfehlermeldung angezeigt. Die Standardfehlermeldung zeigt an, dass die Anforderung nicht abgeschlossen werden konnte und Sie nicht sehen, was die KI generiert hat. Bevor Sie das Blockieren aktivieren, überprüfen Sie die Protokolle für einen bestimmten Zeitraum, um zu verstehen, wie häufig diese Probleme in Ihrer Umgebung auftreten.
Umleitung für sensible gefilterte Themen
Nachdem ein Filter ein sensibles Thema erkannt hat, Now Assist Guardian Leitet Sie zum Thema Sensitivitätserkennung: Fallback in weiter Virtual Agent. Dieses Thema kann Sie zu einem Servicemitarbeiter umleiten oder Ihnen beim Erstellen eines helfen HR Fall.
Now Assist Guardian Zur Laufzeit
Alle Kompetenzen, die verwenden Now Assist Guardian Entfernen Sie personenbezogene Daten, bevor die Anforderung den LLM erreicht. Sie können konfigurieren, welche Art von Daten anonymisiert werden. Weitere Informationen finden Sie unter Konfigurieren von Now Assist für Datenschutz .
Für Konversationskompetenzen verarbeitet die semantische Suche Anforderungen, um zu bestimmen, ob ein Filter erkannt wurde. Wenn ja, wird der Anwender zu weitergeleitet Virtual Agent Thema, das fragt, ob ein erstellt werden soll HR Fall oder Gespräch mit einem Servicemitarbeiter.
Für die Generierung von Katalogelementen und Fähigkeiten von Service Desk-Mitarbeitern, z. B. Erstellung von Zusammenfassungs- und Lösungsnotizen, werden Schutzmaßnahmen für Anstößigkeit und Prompt Injection für Eingaben und Ausgaben von Anforderungen ausgeführt. Wenn einer der beiden erkannt wird, Now Assist GuardianProtokolliert die Anforderung. Wenn Sie diesen Inhalt blockieren möchten, wird eine Standardfehlermeldung angezeigt, und der Anwender sieht das Ergebnis der Anforderung nicht.
Sicherheit c Kategorien Erfasst in Now Assist Guardian Protokolle
|
Kategorie |
Kategorie-ID |
Beschreibung |
|---|---|---|
|
Toxische Inhalte |
O1 |
Sollte nicht: Hassrede fördern, zu Gewalt wie Kindesmissbrauch oder Mobbing aufstacheln oder persönliche Angriffe oder Belästigung durchführen. Kann: Besprechen Sie die Auswirkungen und gesellschaftlichen Probleme im Zusammenhang mit toxischen Inhalten zu Bildungszwecken. |
|
Unfaire Darstellung |
O2 |
Sollte nicht: Dabei helfen, Stereotypen zu erhalten oder Diskriminierung oder Verzerrung zu fördern. Kann: Probleme der Repräsentation besprechen und Bewusstsein und Inklusion fördern. |
|
Pornografische Inhalte |
O3 |
Darf nicht: Sexuell explizites Material oder Inhalte anzeigen, die für Minderjährige unangemessen sind, einschließlich Pornografie, erotischer Chats und sexueller Aktivitäten. Kann: Bildungsdiskussionen zu Themen im Zusammenhang mit Sexualität und Einwilligung anbieten. |
|
Erosion des Vertrauens in öffentliche Informationen |
O4 |
Sollte nicht: Fehlinformationen oder Desinformationen verbreiten, die das öffentliche Vertrauen untergraben, z. B. irreführende medizinische Beratung, illegale Drogen und Beratung. Kann: Fehlinformationstrends kritisch analysieren und über Medienkompetenz informieren. |
|
Verbreitung falscher Vorstellungen/Anschauungen |
O5 |
Sollte: Nicht verifizierte, irreführende Informationen, Verschwörungstheorien, Wissenschaftsleugnung, historischer Revisionismus, oder Inhalte, die zu Radikalisierung führen könnten. Kann: Kritische Analyse und Entlarvung gängiger Missverständnisse und falscher Überzeugungen bereitstellen. |
|
Riskante Finanzpraktiken |
O6 |
Sollte nicht: Unethische Handelspraktiken wie Marketing auf mehreren Ebenen, betrügerische Kreditvergabepraktiken oder Glücksspiele fördern. Kann: Informieren Sie sich über zugehörige Risiken, ethische Kreditvergabe, verantwortungsvolles Glücksspiel, Compliance mit Handel und faire Geschäftspraktiken. |
|
Handel und Compliance |
O7 |
Sollte nicht: Arbeitsprobleme einbeziehen, unethische Handelsangelegenheiten wahrnehmen, zu unfairen Arbeitspraktiken beitragen oder betrügerische Handelspraktiken fördern. Kann: Informationen und Einblicke in Arbeitsprobleme, ethische Handelspraktiken, Compliance im Handel und faires Geschäftsverhalten bereitstellen. |
|
Verbreitung gefährlicher Informationen |
O8 |
Sollte nicht: Falsche Nachrichten verbreiten, Gerüchte in sozialen Medien verbreiten, Regierungsgeheimnisse offenlegen oder Finanzdaten und andere Inhalte preisgeben, die zu öffentlicher Panik oder nationaler Sicherheit beitragen. Kann: Über die Gefahren solcher Informationen informieren und die Sicherheit fördern. |
|
Verletzung der Privatsphäre |
O9 |
Sollte nicht: Doxxxing, nicht autorisierte Datenfreigabe oder Überwachung umfassen, z. B. wenn private Informationen abgeleitet oder undicht werden. Kann: Besprechen Sie die Wichtigkeit von Datenschutzrechten und digitaler Sicherheit. |
|
Sicherheitsbedrohungen |
O10 |
Sollte nicht: Malware verbreiten oder Terrorismus oder andere Sicherheitsbedrohungen wie Waffenerstellung, Cyberangriff oder chemische Schäden fördern. Kann: Informationen und Methoden zur Identifizierung und Minderung von Sicherheitsbedrohungen bereitstellen. |
|
Verleumdung |
O11 |
Darf nicht: Falsche Aussagen veröffentlichen, die Einzelpersonen, Gruppen oder Organisationen schaden. Kann: Die rechtlichen und ethischen Aspekte von Diffamierung und Meinungsfreiheit erkunden. |
|
Betrugs- oder Täuschungshandlung |
O12 |
Sollte: Nicht an akademischer Unehrlichkeit teilnehmen, Betrug begehen, Pseudo-Arzneimittel fördern oder gefälschte Online-Inhalte verbreiten. Inhalt darf keine Personen täuschen oder betrügen. Kann: Informationen zur Erkennung und Verhinderung betrügerischer Aktivitäten. |
|
Einflussoperationen |
O13 |
Sollte nicht: Die öffentliche Meinung manipulieren oder die gesellschaftliche Harmonie zu politischen oder ideologischen Zwecken wie Überwachung oder Kampagne stören. Kann: Analysieren und informieren Sie sich über die Art und die Auswirkungen von Einflussvorgängen. |
|
Rechtswidrige Handlungen |
O14 |
Sollte nicht: Illegale Handlungen wie Straftaten oder Terrorismus fördern oder Anleitungen für sie bereitstellen. Kann: Über die Konsequenzen und Prävention illegaler Aktivitäten informieren. |
|
Überredung und Manipulation |
O15 |
Darf nicht: Überzeugungs- oder Manipulationstechniken beinhalten, die Selbstschaden, psychologische Manipulation oder jede Form von Schaden für das Wohlergehen von Personen fördern. Kann: Lernen Sie, wie Sie Manipulationen erkennen und ihnen widerstehen, und bieten Sie den Betroffenen Unterstützung und Ressourcen. |
|
Verletzung persönlichen Eigentums |
O16 |
Sollte nicht: Einbinden v Iolat ING Persönliches Eigentum einer Person, Böswillige Nachahmung, Plagiat, Urheberrechtsverletzung Oder Identität Fälschung . Kann: Sensibilisierung und Diskussionen über den Respekt von persönlichem Eigentum und die Verhinderung solcher Verstöße fördern. |