Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語
Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語

MyScale の解読:AWS パワード SQL ベクトルデータベース

MyScale は高性能な SQL 対応ベクトルデータベースで、完全に AWS 上でホストされています。MyScale の強みは、標準の SQL 構文を完全にサポートし、専門のベクトルデータベースと同等またはそれ以上のパフォーマンスを提供することです。

この記事の目的は、MyScale が AWS インフラストラクチャスタックを活用して堅牢で安定した効率的なクラウドデータベースを構築する方法を探ることです。

# ベクトルデータベースと埋め込み

しかし、まずはじめに、ベクトルデータベース、ベクトル埋め込み、および専門のベクトルデータベースがベクトル埋め込みやドキュメントなどのオブジェクトの数学的表現を格納する方法について説明しましょう。

# ベクトルデータベース

ベクトルデータベースは大まかに 2 つの主要なタイプに分類されます。

  • ベクトルを格納するために特別に設計された Pinecone、Weaviate、Qdrant などの専門のベクトルデータベース
  • ベクトルインデックスと検索をサポートする一般的な SQL または NoSQL データベース製品。PostgreSQL のような人気のある SQL データベースは、pgvectorなどのプラグインを使用してベクトルインデックスと検索をサポートしています。

注意:

ClickHouse、Redis、Elasticsearch、Cassandra などの複数のオープンソースデータベースは、最近ベクトルインデックスのネイティブサポートを追加しました。

専門のベクトルデータベースは、しばしばより優れた検索パフォーマンスを提供するとされていますが、ベクトル検索をサポートする汎用データベースは、より包括的なデータ管理と構造化データクエリの機能を提供します。しかし、MyScale はオープンソースの OLAP データベースである ClickHouse をベースにしており、ベクトル検索と構造化データクエリの両方の機能を 1 つのソリューションに統合しています。

MyScale チームは、Multi-Scale Tree Graph(MSTG)と呼ばれる高度なベクトルインデックスアルゴリズムを開発しました。このアルゴリズムにより、高速な検索パフォーマンス、高いデータ密度、および高速な挿入速度が実現されます。ClickHouse が提供するカラムストアと高速な構造化データ分析との組み合わせにより、MyScale は専門のベクトルデータベースと比較して大幅にコスト効果が高いです。これらの利点は、以下のグラフで明確に示されています。

5M データの 100 QPS ごとの月間コスト

出典: MyScale で専門のベクトルデータベースを上回る

# ベクトル埋め込み

ベクトル埋め込みは広範であり、検索エンジンからインテリジェントアシスタントまで、さまざまな機械学習やディープラーニングのアルゴリズムの基盤となっています。機械学習やディープラーニングの技術は通常、テキスト、画像、音声、ビデオなどの非構造化データをベクトル埋め込みに変換します。これらの埋め込みは、ベクトルの類似性検索技術を使用して意味的な関連性を持つものとして検索することができます。

# MyScale のアーキテクチャ概要

MyScale は、以下の AWS 製品を含む AWS クラウドプラットフォームを最大限に活用するデータベースサービスです。

  • EC2 - クラウド仮想サーバー
  • EKS - コンテナオーケストレーション
  • S3 - オブジェクトストレージ
  • NLB - ロードバランシング

AWS が提供する堅牢な基盤を活用することで、MyScale のクラウドサービスの提供を迅速に行っています。

MyScale で使用される AWS サービス

MyScale のクラウドサービスアーキテクチャは、次の 3 つのレイヤーで構成されています。

  • グローバルコントロールプレーン
  • リージョナルコントロールプレーン
  • リージョナルデータプレーン

次の図に示すように、グローバルコントロールプレーンには、組織、ユーザー管理、全体の使用統計に責任を持つクラウドサービスのビジネスシステムがあります。

MyScale クラウドアーキテクチャ

MyScale のすべてのサーバーは、AWS の管理型 Kubernetes サービスである EKS に展開されており、安全で高可用性かつスケーラブルな Kubernetes 環境を提供しています。その結果、MyScale は、サービスディスカバリ、ロードバランシング、自動スケーリング、セキュリティの分離など、Kubernetes の機能をフルに活用することができます。

さらに、MyScale はデータプレーンで Kubernetes のネームスペース機能を活用し、ユーザークラスターの分離を確保しています。各 MyScale データベースクラスターは、固有の Kubernetes ネームスペースに対応しており、クラスター同士の影響を最小限に抑え、各クラスターにはデータベースノード、ロードバランシングサービス、およびメタデータストレージサービスが含まれる専用のネームスペースがあります。

Boost Your AI App Efficiency now
Sign up for free to benefit from 150+ QPS with 5,000,000 vectors
Free Trial
Explore our product

# AWS サービスの活用

MyScale データベースを展開するために、ローカルの NVMe ベースの SSD ディスクを搭載した EC2 インスタンスを使用しています。ほとんどのベクトルデータベースが純粋なインメモリ HNSW ベクトルインデックスアルゴリズムを採用するのに対し、MyScale の MSTG アルゴリズムはベクトルデータをローカルの NVMe SSD ディスクにキャッシュすることができ、高性能なベクトル検索を提供しながらメモリ使用量を大幅に節約します。

さらに、MyScale は Crossplane を使用して、AWS EC2 および EKS でホストされる MyScale クラウドサービスを展開および管理しています。Crossplane を使用することで、クラウドリソースを宣言的で統一的かつ自動化された方法で構成することができ、正確性と生産性が大幅に向上します。

Join Our Newsletter

# Teleport によるデータセキュリティ

MyScale は、データセキュリティのための高度なリモートアクセス管理システムである Teleport を使用しています。Teleport は、Kubernetes クラスターへの安全な接続を提供し、システムのセキュリティと運用の容易さを促進します。また、セキュリティ分析やコンプライアンス要件に役立つ、すべてのセッションとイベントの詳細なログ記録を提供します。

# 結論

AWS 上でホストされるベクトルデータベースである MyScale は、構造化および非構造化データの取り扱いに強力なツールです。ClickHouse をベースにし、独自の Multi-Scale Tree Graph(MSTG)ベクトルインデックスアルゴリズムを統合した MyScale は、堅牢なデータ管理と構造化データクエリの機能を提供します。コスト効果が高く、画像検索、ビデオ分析、自然言語理解などの AI 駆動のシナリオに非常に適しています。

Keep Reading
images
RAG vs. 大規模コンテキストLLMs: RAGは残ります

生成AI(GenAI)の反復速度は指数関数的に成長しています。その結果、大規模言語モデル(LLM)が一度に使用できるトークンの数であるコンテキストウィンドウも急速に拡大しています。 2024年2月にリリースされたGoogle Gemini 1.5 Proは、最長のコンテキストウィンドウの記録を樹立しました。これは100万トークンで、1時間のビデオまたは70万語に相当します。Geminiの長いコン ...

images
MyScale との組み合わせでのフィルタリング:SQL WHERE とベクトル検索の融合

ベクトルデータベースは、数十億のレコードの中に格納された類似したオブジェクトの高速な検索を提供します。しかし、特定の条件に一致する関連オブジェクトを検索することにも興味があるかもしれません。これをフィルタリングされたベクトル検索と呼びます。MyScaleの助けを借りれば、フィルタリングされたベクトル検索を新たなレベルに引き上げることができます。 ほ ...

images
マイスケールを使用したマルチモーダル画像検索アプリケーションの構築

機械学習の世界では、かつてはモデルには1つのデータタイプしか処理できない制限がありました。しかし、機械学習の究極の目標は、さまざまなデータモダリティを同時に容易に理解する人間の知的能力に匹敵することです。GPT-4Vなどのモデルによって示される最近のブレークスルーにより、複数のデータモダリティを同時に処理する驚異的な能力が実証されました。これにより、開発者はさまざまなタイプのデータをシームレスに管 ...

Start building your Al projects with MyScale today

Free Trial
Contact Us