Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語
Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語

MyScale & Jina AI: Das volle Potenzial für Ihre KI-Anwendungen entfesseln

MyScale (opens new window) hat in der neuesten Version der integrierten SQL-Vektordatenbank die EmbedText-Funktion (opens new window) eingeführt. Diese leistungsstarke Funktion vereint die Effizienz von SQL-Abfragen mit modernster KI-gesteuerter Texteinbettungstechnologie, sodass Sie mit der vertrauten SQL-Syntax präzise Textübereinstimmungen und effiziente semantische Ähnlichkeitsberechnungen durchführen können.

Durch die vollständige Integration der Jina Embeddings v2 (opens new window) Modelle ermöglicht MyScale EmbedText Benutzern die Nutzung der Fähigkeiten von Jina AI innerhalb von MyScale zur Verarbeitung von Texten mit einer Eingabelänge von bis zu 8K mithilfe der standardmäßigen SQL-Syntax. Dadurch wird es möglich, viel längere Texte zu verstehen und zu verarbeiten als je zuvor. Egal, ob komplexe mehrsprachige Daten verarbeitet werden sollen oder fortschrittliche KI-Anwendungen erstellt werden sollen, Entwickler können jederzeit von den erstklassigen Einbettungsmodellen von Jina AI durch MyScale profitieren.

# Was ist MyScale

MyScale ist eine cloud-native SQL-Vektordatenbank, die es Entwicklern ermöglicht, mit SQL vertraute generative KI-Anwendungen in Produktqualität zu erstellen. Aufbauend auf ClickHouse (opens new window) integriert MyScale Vektorsuche und -speicherung mit einer skalierbaren relationalen Datenbank, bietet effiziente Speicherung und Verarbeitung strukturierter und unstrukturierter Daten und vereinfacht komplexe Datenbanktechnik, während die höchste Zuverlässigkeit und Leistung für KI-Anwendungen gewährleistet wird.

Die EmbedText-Funktion von MyScale nutzt die vertraute Syntax von SQL, um die Generierung von Texteinbettungsvektoren zu vereinfachen und Benutzern die Verwendung beliebter KI-Modelle für ihre Projekte zu ermöglichen. Mit der automatisierten Stapelverarbeitung von EmbedText können Entwickler die Leistung bei der Verarbeitung großer Datenmengen erheblich verbessern, ohne auf externe Tools angewiesen zu sein oder komplexe Programmierung durchführen zu müssen.

# Was sind Jina Embeddings

Jina Embeddings v2 ist das weltweit erste und bisher einzige Open-Source-Texteinbettungsmodell, das Eingabegrößen von 8192 Token unterstützt. Es ist in drei Versionen verfügbar: nur Englisch (opens new window), zweisprachig Chinesisch-Englisch (opens new window) und zweisprachig Deutsch-Englisch (opens new window).

Funktionen:

  • Branchenführende Leistung, vergleichbar mit OpenAIs Closed-Source-Modell Ada 2.
  • Unterstützung für Texte mit über 8.000 Token, Durchbrechen der Barrieren für lange Textvektorrepräsentationen und ermöglichen Entwicklern, die Semantik von Texten in mehreren Maßstäben vollständig darzustellen.
  • Mehrsprachige Unterstützung mit einem Modell, das Chinesisch und Englisch in einem Einbettungsraum repräsentiert, und einem anderen Modell, das dasselbe für Deutsch und Englisch tut, mit weiteren Sprachen in Arbeit. Jina Embeddings ermöglichen den Einsatz von sprachübergreifenden Anwendungen unter Verwendung von Modellen, die auf diese spezifischen Sprachen spezialisiert sind, anstatt eines massiven, ineffizienten KI-Modells mit ungleicher und unklarer Leistung für eine große Anzahl verschiedener Sprachen.
  • LlamaIndex zufolge (opens new window) zählt es zu den besten Einbettungsmodellen der Welt für RAG (Retrieval-Augmented Generation) Anwendungen.
Boost Your AI App Efficiency now
Sign up for free to benefit from 150+ QPS with 5,000,000 vectors
Free Trial
Explore our product

# Verwendung von Jina Embeddings v2 in MyScale

Entwickler können Jina Embeddings mit der EmbedText-Funktion in MyScale für zwei Operationen verwenden: Dateninsertion und einbettungsbasierte Abfrage. In diesem Abschnitt werden beide Details erläutert.

# Erstellen einer vereinfachten Funktion

Eine praktische Strategie besteht darin, eine SQL-Benutzerdefinierte Funktion (UDF) zu deklarieren, die Texteinbettungen erstellt und den relevanten Modellnamen, Anbieter und API-Schlüssel enthält, sodass diese Informationen nicht wiederholt werden müssen und bei Bedarf leicht geändert werden können.

Die folgende SQL-Anweisung deklariert die Funktion JinaAIEmbedText zu diesem Zweck. Fügen Sie Ihren eigenen API-Schlüssel an der entsprechenden Stelle ein.

CREATE FUNCTION JinaAIEmbedText ON CLUSTER '{cluster}'
AS (x) -> EmbedText(x, 'Jina', '', 'YOUR_API_KEY', '{"model":"jina-embeddings-v2-base-en"}')

Nun müssen Sie nur noch JinaAIEmbedText aufrufen, um eine Einbettung für einen Text zu erhalten:

SELECT JinaAIEmbedText('YOUR_TEXT')

# Optimierung von Vektorsuchen mit Jina Embeddings

Nachdem Sie die vereinfachte Funktion erstellt haben, können Sie Jina Embeddings in MyScale verwenden, um die Vektorsuche zu optimieren. Die Abfrage mit Einbettungen folgt den Standard-SQL-Methoden. Mit JinaAIEmbedText ist dies sehr einfach:

SELECT id, distance(vector_column_name, JinaAIEmbedText('YOUR_QUERY_TEXT')) AS dist
FROM table_name ORDER BY dist LIMIT 10

Dadurch wird eine Tabelle mit den zehn Datensätzen erstellt, die Ihrer Abfrage entsprechend den Einbettungsvektoren am besten entsprechen.

# Dateninsertion

Sie können eine SQL-Tabelle erstellen, die Textdaten in Vektoren umwandelt, indem Sie die oben genannte JinaAIEmbedText-Funktion verwenden. Zum Beispiel:

CREATE TABLE jina_embedding
(
  id UInt32,
  paragraph String,
  vector Array(Float32) DEFAULT JinaAIEmbedText(paragraph),
  CONSTRAINT check_length CHECK length(vector) = 768
)
ENGINE = MergeTree
ORDER BY id

Fügen Sie dann Daten in diese Tabelle ein, um Einbettungen automatisch zu generieren:

INSERT INTO jina_embedding (id, paragraph)
VALUES (1, 'YOUR_TEXT_1'), (2, 'YOUR_TEXT_2')
Join Our Newsletter

# Vorteile für KI-Entwickler

Die Integration von Jina Embeddings v2-Modellen in MyScale bietet Entwicklern ein robustes Framework für den Aufbau von datenbankgesteuerten generativen KI-Anwendungen und spart Zeit, Aufwand und Kosten bei der Markteinführung neuer Anwendungen.

Die spezifischen Vorteile umfassen:

  1. Reduzierte Rechenkosten: MyScale bietet eine überlegene Datenbankleistung bei bemerkenswerter Reduzierung des Speicherverbrauchs im Vergleich zu Mitbewerbern, was es zu einer äußerst kosteneffektiven Wahl für eine KI-Anwendung macht. Jina Embeddings bietet Entwicklern durch die Wahl zwischen verschiedenen Modellgrößen und Einbettungsvektorgrößen Tools zur Verwaltung ihrer Rechen- und Speicherkosten.
  2. Erhöhte Flexibilität: Die Synergie zwischen MyScale und Jina Embeddings bietet Entwicklern eine erhöhte Flexibilität, insbesondere in anspruchsvollen Anwendungsszenarien wie langen Dokumenten und großen Dokumentsammlungen.
  3. Genauere Suche: MyScale ermöglicht eine leistungsstarke, metadatengefilterte Suche durch seinen einzigartigen MSTG-Algorithmus (opens new window), während Jina Embeddings präzisere Repräsentationen der Textsemantik liefert und die Genauigkeit bei der Informationssuche verbessert. Dies führt zu fundierteren Entscheidungen und überlegener Anwendungsleistung, insbesondere zur Verbesserung der Genauigkeit von RAG-Anwendungen. Die Kombination dieser beiden Technologien hebt die Suche auf ein neues Niveau.

Die Kombination von MyScale mit Jina Embeddings eröffnet praktische Anwendungen, insbesondere für RAG-gesteigerte Chatbots. MyScale, ergänzt durch Jina Embeddings, kann als einzige Datenquelle für Ihren Chatbot fungieren und so Daten sicherheit, Konsistenz und Integrität gewährleisten. MyScale reduziert auch die Datenredundanz durch Speicherung von Verweisen auf Datensätze, verbessert die Zugänglichkeit und bietet erweiterte Zugriffskontrolle.

Die Fähigkeit von Jina Embeddings v2, lange Texte zu verarbeiten, macht es ideal für die Verwaltung von Eingaben für Dialogsysteme. Mit Jina Embeddings erstellte Chatbots haben ein besseres Verständnis des Gesprächskontexts, was die Leistung in langen Chats und komplexen Szenarien dramatisch verbessert.

# Blick in die Zukunft

Die tiefe Integration von MyScale und Jina Embeddings v2 ermöglicht Entwicklern, KI in ihre Projekte einzubinden. Dies umfasst die Erstellung intelligenter Kundendienstroboter, die Entwicklung genauerer sprachübergreifender Suchanwendungen sowie die Optimierung von Prozessen zur Analyse und Verwaltung von Rechts- und Geschäftsdokumenten. Entwickler können mit MyScale und Jina Embeddings eine breitere Palette von Anwendungsszenarien erkunden und innovativere und praktischere KI-Anwendungen entwickeln, die den Benutzern einen größeren Mehrwert bieten.

Wenn Sie Ideen zum Aufbau einer KI-Anwendung mit der Integration von MyScale und Jina AI haben, teilen Sie diese gerne mit uns im MyScale Discord (opens new window) oder auf Twitter (opens new window).

Keep Reading

Start building your Al projects with MyScale today

Free Trial
Contact Us