Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語
Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語

MyScale の解読:AWS パワード SQL ベクトルデータベース

MyScale は高性能な SQL 対応ベクトルデータベースで、完全に AWS 上でホストされています。MyScale の強みは、標準の SQL 構文を完全にサポートし、専門のベクトルデータベースと同等またはそれ以上のパフォーマンスを提供することです。

この記事の目的は、MyScale が AWS インフラストラクチャスタックを活用して堅牢で安定した効率的なクラウドデータベースを構築する方法を探ることです。

# ベクトルデータベースと埋め込み

しかし、まずはじめに、ベクトルデータベース、ベクトル埋め込み、および専門のベクトルデータベースがベクトル埋め込みやドキュメントなどのオブジェクトの数学的表現を格納する方法について説明しましょう。

# ベクトルデータベース

ベクトルデータベースは大まかに 2 つの主要なタイプに分類されます。

  • ベクトルを格納するために特別に設計された Pinecone、Weaviate、Qdrant などの専門のベクトルデータベース
  • ベクトルインデックスと検索をサポートする一般的な SQL または NoSQL データベース製品。PostgreSQL のような人気のある SQL データベースは、pgvectorなどのプラグインを使用してベクトルインデックスと検索をサポートしています。

注意:

ClickHouse、Redis、Elasticsearch、Cassandra などの複数のオープンソースデータベースは、最近ベクトルインデックスのネイティブサポートを追加しました。

専門のベクトルデータベースは、しばしばより優れた検索パフォーマンスを提供するとされていますが、ベクトル検索をサポートする汎用データベースは、より包括的なデータ管理と構造化データクエリの機能を提供します。しかし、MyScale はオープンソースの OLAP データベースである ClickHouse をベースにしており、ベクトル検索と構造化データクエリの両方の機能を 1 つのソリューションに統合しています。

MyScale チームは、Multi-Scale Tree Graph(MSTG)と呼ばれる高度なベクトルインデックスアルゴリズムを開発しました。このアルゴリズムにより、高速な検索パフォーマンス、高いデータ密度、および高速な挿入速度が実現されます。ClickHouse が提供するカラムストアと高速な構造化データ分析との組み合わせにより、MyScale は専門のベクトルデータベースと比較して大幅にコスト効果が高いです。これらの利点は、以下のグラフで明確に示されています。

5M データの 100 QPS ごとの月間コスト

出典: MyScale で専門のベクトルデータベースを上回る

# ベクトル埋め込み

ベクトル埋め込みは広範であり、検索エンジンからインテリジェントアシスタントまで、さまざまな機械学習やディープラーニングのアルゴリズムの基盤となっています。機械学習やディープラーニングの技術は通常、テキスト、画像、音声、ビデオなどの非構造化データをベクトル埋め込みに変換します。これらの埋め込みは、ベクトルの類似性検索技術を使用して意味的な関連性を持つものとして検索することができます。

# MyScale のアーキテクチャ概要

MyScale は、以下の AWS 製品を含む AWS クラウドプラットフォームを最大限に活用するデータベースサービスです。

  • EC2 - クラウド仮想サーバー
  • EKS - コンテナオーケストレーション
  • S3 - オブジェクトストレージ
  • NLB - ロードバランシング

AWS が提供する堅牢な基盤を活用することで、MyScale のクラウドサービスの提供を迅速に行っています。

MyScale で使用される AWS サービス

MyScale のクラウドサービスアーキテクチャは、次の 3 つのレイヤーで構成されています。

  • グローバルコントロールプレーン
  • リージョナルコントロールプレーン
  • リージョナルデータプレーン

次の図に示すように、グローバルコントロールプレーンには、組織、ユーザー管理、全体の使用統計に責任を持つクラウドサービスのビジネスシステムがあります。

MyScale クラウドアーキテクチャ

MyScale のすべてのサーバーは、AWS の管理型 Kubernetes サービスである EKS に展開されており、安全で高可用性かつスケーラブルな Kubernetes 環境を提供しています。その結果、MyScale は、サービスディスカバリ、ロードバランシング、自動スケーリング、セキュリティの分離など、Kubernetes の機能をフルに活用することができます。

さらに、MyScale はデータプレーンで Kubernetes のネームスペース機能を活用し、ユーザークラスターの分離を確保しています。各 MyScale データベースクラスターは、固有の Kubernetes ネームスペースに対応しており、クラスター同士の影響を最小限に抑え、各クラスターにはデータベースノード、ロードバランシングサービス、およびメタデータストレージサービスが含まれる専用のネームスペースがあります。

Boost Your AI App Efficiency now
Sign up for free to benefit from 150+ QPS with 5,000,000 vectors
Free Trial
Explore our product

# AWS サービスの活用

MyScale データベースを展開するために、ローカルの NVMe ベースの SSD ディスクを搭載した EC2 インスタンスを使用しています。ほとんどのベクトルデータベースが純粋なインメモリ HNSW ベクトルインデックスアルゴリズムを採用するのに対し、MyScale の MSTG アルゴリズムはベクトルデータをローカルの NVMe SSD ディスクにキャッシュすることができ、高性能なベクトル検索を提供しながらメモリ使用量を大幅に節約します。

さらに、MyScale は Crossplane を使用して、AWS EC2 および EKS でホストされる MyScale クラウドサービスを展開および管理しています。Crossplane を使用することで、クラウドリソースを宣言的で統一的かつ自動化された方法で構成することができ、正確性と生産性が大幅に向上します。

Join Our Newsletter

# Teleport によるデータセキュリティ

MyScale は、データセキュリティのための高度なリモートアクセス管理システムである Teleport を使用しています。Teleport は、Kubernetes クラスターへの安全な接続を提供し、システムのセキュリティと運用の容易さを促進します。また、セキュリティ分析やコンプライアンス要件に役立つ、すべてのセッションとイベントの詳細なログ記録を提供します。

# 結論

AWS 上でホストされるベクトルデータベースである MyScale は、構造化および非構造化データの取り扱いに強力なツールです。ClickHouse をベースにし、独自の Multi-Scale Tree Graph(MSTG)ベクトルインデックスアルゴリズムを統合した MyScale は、堅牢なデータ管理と構造化データクエリの機能を提供します。コスト効果が高く、画像検索、ビデオ分析、自然言語理解などの AI 駆動のシナリオに非常に適しています。

Keep Reading
images
Jina AI の Reranker API を使用して MyScale で検索結果を強化する

前回のブログ記事では、ベクトル検索と再順位付けの組み合わせが、テキストからベクトルへの変換中に情報の損失が生じるなど、ベクトル検索の固有の制限に対処する方法として探求されました。この統合により、複雑なクエリ意図に対する堅牢 ...

images
マイスケールを使用したRAG対応のチャットボットの構築

大規模言語モデル(LLM)は、知識ベースからの検索結果を取り入れることで、真実の回答においてより信頼性が高まることがあります。これをRetrieval Augmented Generation(RAG)と呼びます。以前のブログ記事では、RAGのパフォーマンス向上と ...

Start building your Al projects with MyScale today

Free Trial
Contact Us