主要な生成AI および 関連するサービスを一覧で紹介、解説します。
文章生成AI
GPT(Generative Pre-trained Transformer)
OpenAIが開発した言語モデルのシリーズ名称。Transformerアーキテクチャに基づいて構築されています。
GPT-1
初期パラメータを設定する教師なしの「事前訓練」、ターゲットとするタスクに合わせた教師ありの「ファインチューニング」の2段階で構成される「半教師あり」アプローチを採用したLLM。パラメータ数 1億1,700万。2018年6月11日リリース。
GPT-2
GPT-1のスケールアップ版として構築され、パラメータ数と訓練用データセットがともに10倍に増加しています。パラメータ数 15億。2019年2月14日リリース。
GPT-3
パラメータ数 1,750億。2020年6月11日リリース。
ChatGPT
GPT3.5をベースに、教師あり学習とRLHFでファインチューニングされたチャットボット。2022年11月30日リリース。
GPT-4
テキスト予測とRLHFの両方で訓練されたマルチモーダルLLM。パラメータ数非公開。2023年3月14日リリース。
Whisper
OpenAIが開発した音声認識モデル。音声から高精度で文字起こし(テキスト生成)が可能です。
Bard
Googleが開発した自然言語処理AIおよびチャットサービス。大規模言語モデル LaMDA(Language Model for Dialogue Applications)を使用しています。
2023年2月に発表され、先行しているOpenAIのChatGPTに対抗する形となりました。
LaMDA(Language Model for Dialogue Applications)
Googleが2021年に発表したLLM。Transformerアーキテクチャに基づいて構築されています。
翌2022年には第2世代が発表されました。
PaLM(Scaling Language Modeling with Pathways)
グーグルの研究機関Google Researchが2022年4月に発表したLLM。ニューラルネットワークの規模は最大5,400億パラメータと発表されています。
LLaMA(Large Language Model Meta AI)
Metaが発表したLLM。ニューラルネットワークの規模は最大650億パラメータと公表されています。パラメータ数を減らすことによって単体GPUでも動作することをメリットとしています。
StableLM
Stability AIが2023年4月に発表したオープンソースの大規模言語モデル。「The pile」というオープンソースのデータセット(800GB)でトレーニングされています。現時点のアルファ版は30億パラメータと70億パラメータの2モデルがあり、今後、150億モデル、650億モデルがリリース予定となっています。
Bing Chat
マイクロソフトがBing検索エンジンをベースに、GPT-4を強化したPrometheusモデルを採用して開発したチャットボット。複数のWeb検索結果を組み合わせることで、ChatGPT単体では不可能な最新情報を付与した回答文を生成することができます。回答文に合わせて引用元サイトも表示します。
コード生成AI
Amazon Code Whisperer
Amazonの提供するコーディング用AIツール。個人ユーザーは無料で利用できます。
GitHub Copilot
GitHubとOpenAIが開発したコーディング支援ツール。GPT-3をベースに、大量のプログラムコードを読み込ませたCodexモデルを採用しています。
プログラムの自動補完によって、Visual Studio Code、Visual Studio、Neovim、JetBrainsの各統合開発環境のユーザーを支援します。言語としては、特に Python、JavaScript、TypeScript、Ruby、Go、C#、C++ に最適化されています。
画像生成AI
DALL-E
OpenAIが開発し、2021年1月に発表した画像生成AI。GPT-3を画像生成用に変更したたバージョンを使用しています。
DALL-E 2
OpenAIが開発し、2022年4月に発表した画像生成AI。DALL-Eの後継モデルで、コンセプト、アトリビュート、スタイルを組み合わせ、より高い解像度でよりリアルな画像を生成するように設計されています。
NVIDIA Canvas
NVIDIAが開発し2021年7月に公開した画像生成AI。手描きの簡単な落書きを高精細な風景画に変換します。
Stable Diffusion
ミュンヘン大学のCompVisグループ、Runway、Stability AIの3者が共同開発し、2022年に公開した画像生成AI。オープンソースであり、8GB以上のVRAMを持つGPUを搭載したほとんどのハードウェアで実行可能です。
Imagen
Googleが開発し、2022年5月に公開した画像生成AI。突飛なテキストからでも自然に高解像度な画像を生成することができます。
Midjourney:ミッドジャーニー
独立系の研究所Midjourneyが開発し、2022年7月13日に公開した画像生成AI。利用者は、DiscordのBotコマンドを使用してアートワークを生成することができます。
Make-A-Scene
MetaのAI研究所「Meta AI」が開発し、2022年7月に公開した画像生成AI。テキストおよび簡単なスケッチから画像を生成します。
NovelAI:ノベルエーアイ
米デラウェア州のAnlatan社が開発し、2022年10月に公開された画像生成AI。有料サブスクリプションサービスで、日本のアニメキャラに近い画像を得意としています。
動画生成AI
Make A Video
MetaのAI研究所「Meta AI」が開発し、2022年9月に公開した動画生成AI。テキストから動画を生成します。
Phenaki
匿名の研究者が2022年9月に公開した動画生成AI。複数のプロンプトを与えて、連続的にシーンが切り替わる動画を生成できます。また、静止画にプロンプトを与えてショート動画にすることも可能です。
Imagen Video
Googleが開発し、2022年10月に公開した動画生成AI。1,280×768ピクセルの解像度で毎秒24フレームの動画を128フレーム分(約5.3秒)生成します。
Runway Research Gen-1
Runway Researchが開発し、2023年2月に公開した動画生成AI。既存の動画から新しい動画を合成できます。
Runway Research Gen-2
Runway Researchが開発し、2023年3月20日に公開した動画生成AI。テキストから動画を生成できます。
Animai
Stability AIが、画像コレクションサービスを展開するRevel.xyzと共同開発し、2023年3月に公開した動画生成AI。1枚の絵からアニメーションを生成できます。
VideoLDM(Video Latent Diffusion Model)
NVIDIAが、米コーネル大学と共同で開発し2023年4月に公開した動画生成AIモデル。入力したテキストの内容に基づき、最大2,048×1,280ピクセルの解像度、24fpsの動画を最長4.7秒生成することができます。
周辺サービス
LlamaIndex
ChatGPTで独自データを利用できるようにするためのPython製ライブラリ。以下のインデックス構造を扱うことができます。
- List Index
- Vector Store Index
- Tree Index
- Keyword Table Index
Lang Chain
AIアプリケーション開発用ライブラリ。自然言語処理に特化しており、テキストの分類、要約、翻訳などのタスクを実行できます。以下のモジュールがあり、これらを組みわあせてアプリケーションを開発できます。
- Prompt
- Chain
- Model
- Memory
- Agent
- Evaluation
Python版、Typescript版があります。
Semantic Kernel
マイクロソフトがOSSとして公開したC#およびPythonのライブラリ。従来のプログラム言語とAIのプロンプトを組み合わせることができ、ReActのような動的なパイプラインを生成可能です。
ChatGPT Retrieval Plugin
OpenAI公式ののRetrieverフレームワーク。Python製ライブラリです。
Pinecone
ベクトル検索エンジンおよびデータベース。APIとして提供されています。イスラエルのスタートアップPinecone社によって開発されました。
Faiss
Facebook Research(現Meta Research)が開発したベクトル検索ライブラリ。類似したテキストや画像を検索するためのインデックス(埋め込み)を作成します。C++で記述されていますが、Pythonラッパーを用いることでPythonからも利用可能です。
Redis
連想配列(キー・バリュー)、リスト、セットなどのデータ構造を扱えるNoSQLデータベース。インメモリで動作するため、ミリ秒未満の高速応答が可能です。Redis Labsがスポンサーとなり、オープンソースソフトウェアとして開発されています。
MakerSuite
PaLMにプロンプトの反復、合成データによるデータセットの増強、カスタムモデルのチューニングといった特定のタスクを実行させるためのプロトタイピングツール。
Vertex AI
Google CloudでPaLMを利用できるようにするために、機械学習モデルやAIアプリを構築・デプロイ可能なAI開発プラットフォーム。
Generative AI App Builder
Googleが提供する、企業や研究者が独自のデータを使い、生成AIを搭載したチャットインターフェイスやデジタルアシスタントを構築するためのサービス。
Titan Text
プロンプトからテキストを生成できるAmazonのサービス。
Text Embeddings
テキストを翻訳や検索などで使用可能な数学的表現で生成するAmazonのサービス。
Hugging Face Hub
ユーザーが事前学習済みモデルやデータセット、機械学習プロジェクトのデモなどを共有できるプラットフォーム。プロジェクトに関するディスカッションやリクエスト、コードの共有やコラボレーションなどの機能があります。また、Gradio や Streamlit、Docker を利用した Web ベースでの機械学習アプリケーションのデモを公開できるホスティングサービス Hugging Face Spaces を提供しています。
Gradio
機械学習モデルのデモを行うWebアプリケーションを簡単に作ることができるPythonのライブラリー。Gradioで作成したWebアプリケーションは、HuggingFaceのSpacesで公開することができます。
Streamlit
Streamlit社が開発したWebアプリケーションのフレームワーク。 データ分析やAI処理などのPythonコードを、HTMLを書くことなく簡単にWebアプリケーション化できます。Streamlitで作成したWebアプリケーションは、HuggingFaceのSpacesで公開することが可能です。
コメント