ディープラーニング、大規模言語モデルなど、AI関連のニュースや記事を理解するために必要となる基本的な用語をわかりやすく解説しています。
基礎用語
Neural Network:ニューラルネットワーク
人間の脳細胞(ニューロン)の働きとその繋がりをモデル化したもの、および電子回路として再現したもの。電子回路としては、ニューロンに見立てたノードを連結して複数の階層(入力層 → 中間層または隠れ層 → 出力層)を構成して再現しています。
電気信号は入力層から中間層を経て出力層に向けて伝わっていきますが、各層を構成するノードは入力された信号を、特定の条件で重み付けして出力し、次の階層に伝えていきます。AIにおける学習とは、この重み付けを調整し最適化することを指します。
perceptron:パーセプトロン
人工ニューラルネットワークの一種で、複数の入力を受け取り、1つの出力を生成するアルゴリズム。パーセプトロンは、入力に対して重みを割り当て、それらの重み付き和を計算し、しきい値と比較して出力を生成します。
GPU(Graphics Processing Unit):グラフィック・プロセッシング・ユニット
コンピュータに搭載される半導体チップの一種で、画面表示や画像処理に特化した演算装置。GPUは多数のコアを持っており並列処理に向いているため、3Dグラフィックスなどの画像描写を行う際に必要となる行列計算を高速に行うことができます。
ニューラルネットワークの学習(ディープラーニング)には、大量の行列演算が必要となるため、これを得意とするGPUが利用されるようになりました。
TPU(Tensor processing unit):テンソル・プロセッシング・ユニット
Googleが開発した機械学習に特化した特定用途向け集積回路(ASIC)。TensorFlowを含むディープラーニングタスクに適しています。TPUは、GPUと比較して、ワットあたりのIOPS(1秒あたりの入出力操作数)をより高くするために、意図的に計算精度を犠牲に(8ビットの精度)した設計となっています。
TensorFlow:テンソルフロー
Googleが開発した、機械学習に用いるためのソフトウェアライブラリ。機械学習や数値解析、ニューラルネットワークに対応しており、Google、DeepMindの各種サービスで活用されています。
LLM(Large Language Models):大規模言語モデル
大量のテキストデータを使ってトレーニングされた自然言語処理のモデル。テキスト生成、テキスト分類、情報抽出、文章要約、質問応答、感情分析などの自然言語処理が可能です。
DNN(Deep neural network):ディープニューラルネットワーク
ディープラーニングに対応させて4層以上に層を深くしたニューラルネットワーク。
CNN(Convolutional neural network):畳み込みニューラルネットワーク
層間を共通重みの局所結合で繋いだニューラルネットワーク。画像や動画認識に広く使われています。入力された画像などのデータを「畳み込み層」に送り、畳み込み層で読み込みに最適な2次元データに変換します。
RNN(Recurrent neural network):リカレントニューラルネットワーク
時系列データを扱うためのニューラルネットワーク。時系列データとは、時間的な変化を持つデータのことで、音声や動画、テキストなどが挙げられます。リカレントニューラルネットワークは、過去の情報を保持しながら、現在の入力に対して出力を行うことができます。そのため、音声認識や自然言語処理などのタスクに利用されています。
Transformer:トランスフォーマー
自然言語処理において高い精度を出すことができるニューラルネットワークの一種。2017年に発表された論文で提案されたもので、従来のリカレントニューラルネットワーク(RNN)よりも長文の文脈を考慮することができるようになっています。RNNでは、過去の情報を保持するために、隠れ層の出力を次のステップの入力として使用することで実現していましたが、Transformerでは、過去の情報を保持するために、Self-Attentionという仕組みを用いています。Self-Attentionは、ある単語の重要度を計算することで、その単語が文中でどのような役割を担っているかを考慮しながら、過去の情報を保持しています。
Attention:アテンション
文中の単語の意味を理解するのにどの単語に注目すればいいのかを表すスコアおよびその機構。入力されたデータに重み付けをして重要度を考慮したベクトル量として出力します。
Self-Attention:セルフアテンション(自己注意機構)
文章中の単語の重要度を算出する際、自分自身の算出途中の計算結果に注目し、そこから読み込む機構。
AIGC(AI Generated Contents)
AIが生成したコンテンツの総称。AIGCはPGC (Professionally Generated Content)、UGC (User Generated Content)に続く、コンテンツ生成手法の次の段階との見方もあります。なお、PGCはイラストレーターやライターなどの専門家によって生成されるコンテンツ、UGCはエンドユーザーによって作成され、ソーシャルメディアにアップされるコンテンツを指します。
corpus:コーパス
自然言語の文章や会話の内容などを大量に収集、構造化して、コンピュータで検索できるようにしたデータベース。
prompt:プロンプト
生成AIに対して指示を与える文字列のこと。呪文と呼ばれることもあります。
prompt engineering:プロンプトエンジニアリング
生成AI に対して適切な質問や指示を与えることで、より望ましい結果を引き出す技術。
System prompt
企業などで生成AIを用いる際に、守らせたいルールや回答のテンプレートなどをプロンプトとして用意したもの。ユーザのプロンプトに自動的に付与するなどして用いられます。
Role propmpting
プロンプト内で、役割や性格、演じて欲しい設定を示すこと。これだけで回答の精度が変わります。
Few-shot Learning
文章生成AIに対するプロンプト中に回答例をいくつか提示し、回答形式や振る舞いを学ばせる手法。
CoT(Chain of Thought)
文章生成AIに段階的に考える工程を与えて、難しい問題を解決させる手法。
Self Consistency
文章生成AI自身でより精度の高い回答を導きだせるように、複数の文脈(仮説)を挙げさせる手法。
RCI(Recursively Criticizes and Improves)
文章生成AIの出力を自身に吟味させて修正させる手法。プログラムコードを動作可能なものとするために用いられることが多いです。
ReAct(Reasoning and Acting)
文章生成AIに対し、プロンプトから必要となるタスクを認識させて、検索や計算など外部APIを利用した情報を取得、その情報を付与して回答を作成させる手法。
chunk:チャンク
大きなデータを分割して制御情報を付加したひとまとまりの断片。
Retriever
生成AIの入力として一度に渡せる情報には上限があるため、大きな情報を渡したい場合、チャンクに分割して、質問からチャンク化された文章を検索できるようにします。これを可能とする仕組みをRetrieverといいます。
データ分析関連
特徴量
分析対象データの中の、予測の手掛かりとなる変数のこと。つまり、データを分析する際に、どのような変数が重要であるかを表す指標のことです。人間の場合は、身長や体重、年齢、性別などが特徴量にあたります。
Feature Vector:特徴ベクトル/ベクトルデータ
機械学習やディープラーニングの分野において、文章や画像などの特徴量を表す数値の配列のこと。
ベクトル埋め込み
ベクトルデータ(特徴ベクトル)を作成すること。具体的には、特徴量エンジニアリングを自分の手で行うか、またはモデルの出力を使用する方法があります。テキストデータであれば、LLMを用いてベクトル表現に変換することができます。
特徴量エンジニアリング
機械学習において、手持ちのデータからドメイン知識などを駆使し、新たな特徴量を生成する取り組みのこと。
単語埋め込み
自然言語処理におけるベクトル埋め込みのこと。単語をベクトル空間に埋め込む手法のことで、単語を数値化し、コンピュータが理解できるようにします。 LLMなどのニューラルネットワーク、単語共起行列の次元削減、確率モデルなどを使用する方法があります。
この手法は、テキスト分類、機械翻訳、質問応答など、自然言語処理の分野で広く使用されています。
単語共起行列
自然言語処理において、単語の意味を表現するために使われる手法の一つ。文章中で同じ文脈で出現する単語をカウントし、行列に表現します。この行列を分解することで、単語の意味をベクトル空間上に表現することができます。
Vector Database:ベクトルDB
ベクトルDBとは、ベクトルデータを高速に検索するためのデータベースです。ベクトルデータは、例えば、文章や画像などの特徴量を表す数値の配列です。ベクトルDBは、このようなベクトルデータを保存し、検索を可能とします。
vector search:ベクトル検索
ベクトルの類似度を用いて検索する方法。一般的なキーワード検索とは異なり、検索クエリと文書の類似度を計算することで、意味的に近いものが検索上位となります。
ベクトル空間モデルを用いた情報検索の手法の一つで、セマンティック検索とも呼ばれます。
Vector Space Model:ベクトル空間モデル
文書を単語の出現頻度によって表現し、各単語を次元としたベクトル空間上に配置することで、文書間の類似度を計算する手法。
AIの種類
DSS(Decision support system):意思決定支援システム
意思決定プロセスを支援するために設計されたコンピューターシステム。データ収集、分析、およびモデリングを使用して、意思決定者に情報を提供します。意思決定支援システムは1960年代に開発され、ビジネス、医療、政府などの分野で使用されました。
エキスパートシステム
専門家の知識をコンピュータに組み込んで、問題解決を支援するためのコンピュータプログラム。エキスパートシステムは、人工知能の一種であり、専門家の知識を再現することによって、問題解決を支援します。エキスパートシステムは1970年代に開発され、医療、ビジネス、製造業などの分野で使用されました。
AGI(Artificial general intelligence):汎用人工知能
人間が実現可能なあらゆる知的作業を理解・学習・実行することができる知的エージェント。人工知能研究における最終目標であり、2023年時点では実現していません。
strong AI and weak AI:強いAI・弱いAI
強いAIとは、人間と同じように自己意識を持ち、自己決定を行うことができる人工知能のことです。一方、弱いAIは、特定のタスクを実行するためにプログラムされた人工知能のことです。弱いAIは、自己意識を持たず、自己決定を行うことができません。
強いAI・弱いAIは、哲学者ジョン・サールが1984年に発表した論文「Minds, Brains and Science(心・ 脳・科学)」で提唱した概念です。サール自身は「中国語の部屋」という思考実験を用いて、強いAI、すなわち意識を持つAIの存在を否定しています。
特化型AI
特定の問題に特化した能力を有しているAI。 人間があらかじめ設定した通りに動作して、期待した通りの成果を上げることができます。 弱いAIとも呼ばれます。
Generative AI:生成AI
自らの判断に基づいて新しいデータを生成することができるAI。文章や画像、音声などを自動生成することができます。Generative AIは、ディープラーニングの一種であるGAN(Generative Adversarial Network)やVAE(Variational Autoencoder)などがあります。GANは、2つのニューラルネットワークを競わせることで、新しいデータを生成することができます。VAEは、潜在変数と呼ばれる特徴量を学習し、その特徴量から新しいデータを生成することができます。
Multimodal AI:マルチモーダルAI
数値、画像、テキスト、音声など複数種類のデータ(Modality:モダリティー)を組み合わせて処理できるAIモデル。
AIの学習方法
machine learning:機械学習
人工知能の一分野で、コンピュータにデータから自動的に学習する能力を与える技術。機械学習には、教師あり学習、教師なし学習、強化学習の3つの種類があります。
教師あり学習
機械学習の一種で、入力データと正解データを与えて、コンピュータが正解を導き出すように学習する方法。
教師なし学習
機械学習の一種で、入力データのみを与えて、コンピュータがデータの構造や特徴を自動的に抽出する方法。
強化学習
機械学習の一種で、正解データはなく、目的として設定された「報酬(スコア)」を最大化するように行動を選択することで、コンピュータが自己学習する方法。
SSL(Self-Supervised Learning):自己教師あり学習
機械学習の一種で、ラベルのないデータを使用して、下流の学習タスクに有用な表現を得るための手法。第一段階で教師信号(ラベルは自動的に生成される)を学習し、それを第二段階以降で何らかの教師あり学習タスクに利用する構成となっています。
AutoML(Automated Machine Learning):自動機械学習
機械学習を用いた分析で行われる、学習モデルの設計や構築などのさまざまなタスクを自動化する技術。
Deep Learning:深層学習
対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法。多層のニューラルネットワークを用いて、大量のデータをもとに自動で特徴量を抽出し、学習していくAI技術です。画像認識や音声認識、翻訳などさまざまな分野で大きな成果を生み出しています。
Fine-Tuning:ファインチューニング
事前にトレーニングされたニューラルネットワークを、新しいデータセットに適応させるための方法。トレーニング済みのモデルを新しいタスクに適用するために、最後の層を除いて、モデルの一部を再トレーニングします。ファインチューニングは、画像分類、自然言語処理、音声認識などのタスクで使用されます。
RLHF(Reinforcement Learning from Human Feedback)
強化学習の一種で、言語モデルを人間のフィードバックでファインチューニングする手法。
RLTF(Reinforcement Learning with Task Frames)
強化学習の一種で、タスクフレームを用いて、エージェントが環境から報酬を得ることで学習する手法。
Task Frames:タスクフレーム
タスクフレームとは、タスクを定義するためのフレームワーク。エージェントが行うべきタスクを定義し、そのタスクを達成するための報酬関数を設計することができます。
GAN(Generative Adversarial Network):敵対的生成ネットワーク
2つのニューラルネットワークを戦わせながらAIのデータ学習を進めていく考え方。生成器と識別器と呼ばれる二つの人工知能を互いに競わせるようにすることで、画像や小説、音楽などのデータ分布を模倣するディープラーニングモデルです。2014年にイアン・グッドフェローらが「Generative Adversarial Nets」という論文で発表しました。
転移学習
既存の学習済みモデルのデータはそのままに、新たに追加したモデルのデータのみ学習する手法。解いた問題の知識を別の問題に応用することができます。
Backpropagation:バックプロパゲーション
日本語では誤差逆伝播法と呼ばれる、ニューラルネットワークの学習アルゴリズム。ニューラルネットワークの層の数に関わらず、重み付けを更新できる(学習できる)仕組みです。
In-Context Learning:コンテキスト内学習
特定のタスクにおいてパラメーターを更新する(fine-tuningする)ことなく、タスクをその説明や入出力例を見る中で学習すること。
Multimodal Learning:マルチモーダル学習
数値、画像、テキスト、音声など複数種類のデータ(Modality:モダリティー)から学習すること。
AIの機能
Automated Reasoning:自動推論
コンピュータが自律的に様々な情報を組み合わせて、新たな結論を導くこと。
Automated planning and scheduling:自動計画
コンピュータが自律的に、戦略や行動順序を具体化すること。
NLP(Natural Language Processing):自然言語処理
人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術。
パターン認識
自然情報処理の一種で、画像や音声などのデータから一定の特徴や規則性のパターンを識別して取り出す処理。 「顔認識」「音声認識」「文字認識」などが扱われています。
センチメント分析(感情分析)
Web上に存在する口コミやブログの書き込み、SNSの投稿といったテキスト情報から個人が抱いている感情を分析する手法。特定の商品やイベント、ブランドの印象、サービスの質などに対して抱いている感情を読み取り、数値では見えてこなかった顧客の声を可視化することができます。
進化的計算
生物の進化の過程を模した 最適化アルゴリズム。 システムの構造や設計データなど解きたい問題の解を生物の個体とみなし、様々な種類の個体を表現、それらを交叉や突然変異 などで変化させ一定の基準で評価、次世代の個体を選択する手法です。
企業/組織
OpenAI:オープンエーアイ
営利法人OpenAI LPとその親会社である非営利法人OpenAI Inc. からなる米サンフランシスコのAI開発企業。人類全体に利益をもたらす汎用人工知能(AGI)を普及・発展させることを目標として2015年に設立されました。
DeepMind Technologies:ディープマインド・テクノロジーズ
AIの研究・開発を手掛けるイギリスの企業。2010年に起業、2014年にGoogleによって買収されたのち、2015年にGoogleの親会社Alphabetの完全子会社となりました。ロンドンを拠点とし、カナダ、フランス、米国にも研究センターがあります。
Stability AI:スタビリティエーアイ
AIの民主化をミッションに、オープンソースの生成AIを開発する会社。2022年8月に共同開発した画像生成モデル「Stable Diffusion」をリリースし、生成AIの利用を世界中に爆発的に増やしました。日本特化モデルなどの開発を図り、日本支社を2023年1月に設立しています。
Runway Research:ランウェイリサーチ
アメリカの動画関連スタートアップ。2022年4月に画像合成モデル「Latent Diffusion」を公開、8月には同モデルをベースにStability AIなどと共同開発した画像生成AI「Stable Diffusion」を公開しています。
さらに、2023年2月には動画生成AI「Gen-1」、3月には「Gen-2」を公開しました。
Hugging Face:ハギングフェイス
機械学習アプリケーション開発用ツールを提供しているアメリカの企業。2016年設立。同社が提供する主要なツール、プラットフォームは以下の通りです。
- Transformersライブラリ:Transformer のオープンソースPythonパッケージ。PyTorch、TensorFlow、JAX ライブラリと互換性があり、BERT や GPTモデルの実装も含まれる。
- Diffusersライブラリ:画像や音声の拡散モデルを扱うためのオープンソースPythonパッケージ。Stable Diffusion等の画像生成モデルの学習や推論の実装も含まれる。
- Hugging Face Hub:ユーザーが事前学習済みモデルやデータセット、機械学習プロジェクトのデモなどを共有できるプラットフォーム。
コメント