トランスフォーマーモデルとは?
トランスフォーマーモデルは、自己注意と呼ばれるメカニズムを通じてデータの関係を追跡することで、コンテキストと意味を学習するニューラルネットワークモデルです。微妙なつながりを特定して入力シーケンスを取得し、それを使用して適切な出力を生成することができます。トランスフォーマーは、大規模言語モデル、翻訳、複雑な推論にわたって、自然言語処理、コンピュータービジョン、生成 AI のパフォーマンスを飛躍的に向上させ、AI に革命をもたらしました。
AI のデモ
トランスフォーマーモデルについて知っておくべきこと
トランスフォーマーモデルの起源 トランスフォーマーモデルのさまざまな種類 トランスフォーマーと他のニューラルネットワークとの違い トランスフォーマーが重要な理由 トランスフォーマーの主なコンポーネント トランスフォーマーの仕組み トランスフォーマーのユースケース ServiceNow プラットフォームのトランスフォーマーモデル
人工知能では、人間の言語を正確に理解して処理することが常に大きな課題です。従来のモデルでは、複雑さやニュアンスを把握することが難しく、コンテキストを理解する必要があるタスクでは十分な性能を発揮できないことがよくありました。このような、より洗練された言語モデルを求めるというニーズは、リアルタイム翻訳やインテリジェントな仮想アシスタントなどのアプリケーションが日常生活に溶け込むにつれて高まりました。しかし根底では、問題は言語を超えて AI の他の側面にまで広がっていました。それは、複雑なデータセットの中でデータポイント間の関係を特定して理解することの困難さです。
 
トランスフォーマーモデルは、この問題に対処するために生み出されました。トランスフォーマーモデルは、高度な技術を活用して、データ内のコンテキストと結びつきを理解します。詳細な数学モデルを適用することで、AI システムが混沌とした入力を整理し、意図された意味を理解できるようにします。
すべて展開 すべて折りたたみ トランスフォーマーモデルの起源
トランスフォーマーモデルの起源は、「Attention Is All You Need (注意こそすべて)」と題された 2017 年の画期的な研究論文にあり、そこでは自己注意と呼ばれるメカニズムを活用してデータのシーケンス内のコンテキストを処理し理解する新しいニューラルネットワークアーキテクチャが紹介されました。トランスフォーマーの基礎となる「注意」の概念自体は、2014 年に Dzmitry Bahdanau によって紹介されました。Bahdanau は、ServiceNow Research のリサーチサイエンティストです。「トランスフォーマー」という名称は、入力表現をより意味のある出力表現に変換するモデルの能力を反映して選ばれました。
 
最初のトランスフォーマーモデルの開発は、AI の機能に大きな飛躍をもたらしました。このモデルのトレーニング時間は 4 日足らずで、長いトレーニング時間と大量のリソースを必要とした以前のモデルから大幅に改善されました。これは、モデルの性能が機械翻訳の精度でも新たな記録を打ち立てたことと相まって、トランスフォーマーの可能性を浮き彫りにしました。
 
トランスフォーマーは自然言語処理 (NLP) の新たな進歩につながり、新しい生成 AI (GenAI) ソリューションなど、将来の大規模言語モデルの基盤を築きました。トランスフォーマーの登場により、言語処理の精度と効率が向上しただけでなく、より汎用性の高い AI アプリケーション創出への道が開かれ、トランスフォーマーは最新の AI に不可欠な要素としてその役割を確立しました。
Now Intelligence のご紹介 ServiceNow がどのように AI とアナリティクスをラボから引き出し、組織の働き方を変革して、デジタルトランスフォーメーションを加速させているかをご覧ください。 ダウンロード
トランスフォーマーモデルのさまざまな種類
トランスフォーマーモデルは拡大し続け、AI 研究者やコンピューターサイエンティストのニーズを満たすとともに、専門化も進んでいます。特定のニーズに応えるために、さまざまなカテゴリやタイプのトランスフォーマーが進化しています。最新のトランスフォーマーに見られるアーキテクチャをいくつか以下にご紹介します。
 
 

BERT

Bidirectional Encoder Representations from Transformers (BERT) モデルは、文中の単語のコンテキストを、その前後にある単語に基づいて理解するように設計されています。BERT はテキストを双方向処理し、以前のモデルよりも効果的にニュアンスや単語間の関係を捉えます。質問への回答や言語推論などのタスクに広く使用されています。

 

GPT

Generative Pre-trained Transformers (GPT) は自己回帰型モデルで、シーケンス内の次の単語を予測することでテキストを生成します。人気の ChatGPT 系を含む GPT モデルは、人間が書いたようなテキストを生成する能力で知られており、プロフェッショナル用と個人用の両方のアプリケーションに多く使用されています。

 

BART

Bidirectional and Auto-Regressive Transformers (BART) は、BERT の双方向コンテキスト理解と GPT の自己回帰型テキスト生成を組み合わせたものです。テキスト生成、要約、翻訳のタスクに効果を発揮し、一貫性のあるテキスト出力を処理し作成するための汎用機能を提供します。

 

マルチモーダル

マルチモーダルトランスフォーマーは、テキストと画像データを統合し、AI システムがさまざまなタイプのメディアにまたがるコンテンツを理解したり生成したりできるようにします。このモデルは、視覚的な質問回答や画像のキャプション付けなど、テキストと映像の同時解釈を必要とするタスクの基盤となります。

 

ViT

Vision Transformer (ViT) は、画像をパッチのシーケンスとして扱うことで、トランスフォーマーのアーキテクチャを画像処理に適応させます。各パッチはテキスト内の単語の処理と同じ方法で処理され、モデルが画像内のコンテキスト関係を捉えることができるようにします。ViT は、画像分類、物体検出、その他のコンピュータビジョンタスクで使用されています。
トランスフォーマーと他のニューラルネットワークとの違い
トランスフォーマーは深層学習モデルと見なされており、ニューラルネットワークのカテゴリに分類されます。しかし、それはその技術の他の例と同じものであるという意味ではありません。具体的には、トランスフォーマーモデルは回帰型ニューラルネットワーク (RNN)や畳み込みニューラルネットワーク (CNN) とは異なります。
 

トランスフォーマーと RNN の違い

回帰型ニューラルネットワークはデータを順次処理します。つまり、各トークンは順番に処理され、長いシーケンスでは情報が失われる可能性があるため、長期的な依存関係の処理が難しくなる場合があります。一方、トランスフォーマーは、自己注意メカニズムを使用し、シーケンス内のすべてのトークンを同時に考慮することができます。トランスフォーマーは、この並列処理により、RNN よりも効果的に長期的な依存関係を捉え、より迅速にトレーニングすることができます。

 

トランスフォーマーと CNN の違い

畳み込みニューラルネットワークは、局所的なパターンを検出することで、グリッド状のデータ (画像など) を処理することに優れています。ただし、CNN はデータ内のグローバルな関係を捉えることにはあまり効果を発揮しません。トランスフォーマーは、自己注意を使用し、入力データのさまざまな部分の重要度を、全体の一部として評価することでこれを克服しています。CNN は主に画像認識などのタスクに使用されますが、トランスフォーマーはテキストと画像の両方の処理に適応しており、より汎用性の高いソリューションセットを提供します。

 

トランスフォーマーが重要な理由
前述したように、トランスフォーマーはまさに AI の分野にとっての変革的な導入で、主要な制約に対処し、大きなイノベーションへの扉を開きました。このテクノロジーが実現するメリットは数多くさまざまですが、最も大きなベネフィットには次のようなものがあります。
 
AI モデルの拡張
トランスフォーマーはモジュール式のアーキテクチャを持ち、レイヤーとアテンションヘッドを非常に簡単に拡張できます。このことにより、大規模モデルを作成して膨大なデータシーケンスを効率的に処理できます。トランスフォーマーは長いシーケンスを並列処理することで、トレーニングと処理の時間を大幅に短縮できます。この効率性により、数十億のパラメーターにわたって複雑な言語表現をキャプチャできる高度なモデル (BERT や GPT など) の開発が可能になります。
 
モデルの効率的なカスタマイズ
転移学習や検索拡張生成 (RAG) などの技術は、より迅速で効果的なカスタマイズを促進します。大規模なデータセットで事前トレーニングされたこのモデルは、より小さな特定のデータセットで微調整できるので、大規模な投資を必要とせずに、さまざまな業界向けにカスタマイズされたアプリケーションを実現し、高度な AI の利用を実質的に民主化しています。
 
マルチモーダル機能の統合
トランスフォーマーは、テキストの記述から画像を作成するなど、さまざまなデータタイプからコンテンツを解釈して生成できるマルチモーダル AI システムの開発をサポートします。トランスフォーマーは自然言語処理とコンピュータービジョンを組み合わせることで、より包括的で人間のような理解力と創造性を実現します。
 
AI の研究とイノベーションの促進
トランスフォーマーは、位置エンコーディングや自己注意メカニズムなど、AI 研究と業界イノベーションにおける大幅な進歩を促進します。位置エンコーディングは、モデルがシーケンス内の単語の位置を追跡するのに役立ち、自己注意により、モデルがさまざまな単語の重要度をコンテキスト全体との関連性に基づいて評価できます。これらのイノベーションにより、AI の新たなアーキテクチャとアプリケーションの開発が加速しました。
トランスフォーマーの主なコンポーネント
トランスフォーマーモデルは、受け取る入力と同様に複雑に入り組んでおり、連携して動作する複数のソフトウェアレイヤー上に構築されて適切でインテリジェントな出力を創出します。このプロセスには、次の各コンポーネントが不可欠です。

 

  • 入力埋め込み
  • 入力埋め込みは、入力シーケンスを AI モデルが処理できる数学的ベクトルに変換します。トークン (単語など) は、トレーニング中に学習された意味情報と構文情報を持つベクトルに変換されます。

  • 位置エンコーディング
  • 位置エンコーディングは、各トークンの埋め込みに一意のシグナルを追加して、シーケンス内の位置を示します。これにより、モデルがトークンの順序を維持してシーケンス内でのそれらのコンテキストを理解できるようになります。

  • トランスフォーマーブロック
  • 各トランスフォーマーブロックは、マルチヘッド自己注意メカニズムとフィードフォワードニューラルネットワークで構成されています。自己注意はさまざまなトークンの重要度を評価し、フィードフォワードネットワークはその情報を処理します。

  • リニアブロック/ソフトマックスブロック
  • リニアブロックは、複雑な内部表現を元の入力ドメインにマッピングします。次にソフトマックス関数が出力を確率分布に変換し、可能性のある各予測におけるモデルの信頼度を示します。

 

トランスフォーマーの仕組み
複雑な入力シーケンスを適切な出力に変換するのは簡単な作業ではなく、上記で特定した主要コンポーネントを組み込んだ複数の重要なステップに依存しています。これらのソフトウェアレイヤーは、人間の脳の機能を再現しようとしており、連携して作動し、困難な問題を解決するために必要な処理能力をシステムに与えます。これらのニューラルネットワークは、データの各部分を順を追って一斉に処理します。その際、データは以下のステップを通過します。

 

  1. 入力シーケンスが埋め込みと呼ばれる数値表現に変換され、トークンの意味論的意味を捉えます。

  2. 位置エンコーディングが、各トークンの埋め込みに一意のシグナルを追加して、シーケンス内のトークンの順序を維持します。

  3. マルチヘッド注意メカニズムが、それらの埋め込みを処理して、トークン間のさまざまな関係をキャプチャします。

  4. レイヤー正規化と残差接続により、トレーニングプロセスを安定させ、加速します。

  5. 自己注意レイヤーからの出力がフィードフォワードニューラルネットワークを通過して非線形変換向けに処理されます。

  6. 複数のトランスフォーマーブロックが積み重ねられ、それぞれが前のレイヤーの出力を改良します。

  7. 翻訳などのタスクでは、別のデコーダーモジュールが出力シーケンスを生成します。

  8. モデルは教師あり学習を使用してトレーニングされ、予測とグラウンドトゥルースの差を最小化します。

  9. 推論中、トレーニング済みのモデルは新しい入力シーケンスを処理して予測や表現を生成します。
トランスフォーマーモデルのユースケース
トランスフォーマーは、ビジネスにほぼ無限のアプリケーションがあり、複雑なデータ処理タスクを自動化したり、顧客とのやり取りを強化したり、医療、ファイナンス、クリエイティブ業界などの分野でイノベーションを推進したりできます。トランスフォーマーモデルの代表的な用途には、次のようなものがあります。

 

  • 自然言語処理
  • トランスフォーマーにより、機械が人間の言語をより正確に理解、解釈、生成できるようになります。これは、正確な言語把握に依存するドキュメント要約や仮想アシスタントなどのアプリケーションをサポートします。

  • 機械翻訳
  • 言語間のリアルタイムで正確な翻訳も可能になります。トランスフォーマーは、長期的な依存関係とコンテキストを処理できるため、特に以前の検索/置換ソリューションと比較して、翻訳の精度が大幅に向上します。

  • 音声認識
  • 音声言語を正確に文字起こししてテキスト化することで音声テキスト変換アプリケーションを強化できます。これは、音声制御アプリケーションの開発や、聴覚障がい者のアクセシビリティの向上に特に有益です。

  • 画像生成
  • 画像生成モデルはトランスフォーマーを使用して、自然言語処理とコンピュータービジョンを結合し、テキストの記述から視覚メディアを作成します。この機能は、クリエイティブ系アプリケーションやマーケティングなどで使用されています。

  • DNA 配列の解析
  • DNA 配列をテキストと同様に扱うことで、遺伝子変異を予測したり、遺伝子パターンを理解したり、疾患に関連する領域を特定したりできるようにトランスフォーマーをトレーニングできます。

  • タンパク質構造の解析
  • トランスフォーマーはタンパク質中のアミノ酸の連続的な性質をモデル化し、その三次元構造を予測することができます。この理解は、創薬や生物学的プロセスの理解に非常に重要です。

ServiceNow の価格設定 ServiceNow では、お客様の組織のビジネスの成長とニーズの変化に合わせて拡張可能な、競争力のある製品パッケージをご用意しています。 見積もりを依頼
ServiceNow プラットフォームのトランスフォーマーモデル
トランスフォーマーは高度な自然言語処理、機械翻訳、音声認識などを実現することで、ビジネスにおける AI の活用方法を恒久的に変え、さまざまな業界や市場にわたってオペレーションを強化しています。とはいえ、すべての AI アプローチがトランスフォーメーションテクノロジーを最大限に活用しているわけではありません。
 
ServiceNow は、AI を適切に活用してビジネスを最適化する上で不可欠なパートナーとなります。AI を活用した Now Platform® を基盤として構築された ServiceNow の広範なアプリケーションには AI とトランスフォーマーモデルが組み込まれており、言語理解、予測分析、自動ワークフローなどを簡単に利用できます。これらのツールによって、組織はこれまでにないほどオペレーションを簡素化したり、顧客とのやり取りを強化したり、明確なインサイトを得たり、複雑なデータを真の競争優位性に変えたりすることができます。
 
トランスフォーマーで組織をより良い方向に変革する方法をご紹介します。今すぐ ServiceNow のデモをご覧ください。

 

AI ワークフローの詳細 ServiceNow プラットフォームがビジネスのあらゆる面で実用的な AI をどのように実現するかをご覧ください。 生成 AI の詳細を見る お問い合わせ
リソース 記事 AI とは?  生成 AI とは? アナリストレポート IDC InfoBrief:デジタルプラットフォームで AI の価値を最大化 IT 運用における生成 AI 通信業界における生成 AI の実装 データシート AI 検索 ServiceNow® Predictive AIOps による機能停止の予測と防止 リソース管理 電子書籍 AI による IT サービスと IT オペレーションの最新化 生成 AI:本当にそれほど重要なのか? 生成 AI で組織の生産性を向上 ホワイトペーパー エンタープライズ AI 成熟度インデックス 通信事業者向け生成 AI