Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語
Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語

Science Navigator - Millisekunden-genauer Abruf von Milliarden von Vektoren und strukturierten Daten mit MyScale

Das exponentielle Wachstum des wissenschaftlichen Literaturkorpus ist zu einem erschreckenden Hindernis für Forscher geworden und beeinträchtigt ihre Fähigkeit, Wissen effizient zu erschließen. Laut der US-amerikanischen National Science Foundation verbringen Forscher 51% ihrer Forschungszeit damit, Forschungsmaterialien zu finden und zu verarbeiten.

Science Navigator (opens new window), entwickelt vom AI for Science Institute in Peking (AISI), begegnet dieser Herausforderung, indem es eine KI-gesteuerte Plattform für effiziente und präzise Literaturrecherchen bereitstellt. Dieser Artikel untersucht die spezifischen Anforderungen von Science Navigator, die Gründe für die Auswahl von MyScale (opens new window) als Grundlage für die Datenbank und die konkreten Vorteile, die es der Plattform bietet.

# Science Navigator: Ein Paradigmenwechsel in der wissenschaftlichen Literaturrecherche

In der wissenschaftlichen Forschung ist die Literaturrecherche ein entscheidender Schritt. Während das Durchsuchen und die Suche nach Stichwörtern immer noch gängige Methoden sind, nutzen immer mehr Forscher aufgrund der schnellen Entwicklung großer Sprachmodelle (LLMs) KI-Methoden für die Literaturrecherche. Als innovatives Projekt innerhalb der AI for Science-Infrastruktur dient Science Navigator 1.0 als Alternative zu Literaturdatenbanken und Wissensbasen. Science Navigator verbessert nicht nur signifikant die Effizienz der Forscher, sondern ebnet auch einen neuen Weg für wissenschaftliche Erkundungen.

Science Navigator Einführung (opens new window)

Basierend auf den praktischen Bedürfnissen der wissenschaftlichen Forschung haben wir festgestellt, dass viele Anforderungen noch nicht erfüllt sind. Beispielsweise ist interdisziplinäre Forschung zur Norm geworden, wodurch der Bedarf an inhaltsübergreifender Suche dringender geworden ist. Im Gegensatz zu früheren stichwortbasierten Suchmethoden sind unsere Anforderungen an die inhaltsübergreifende Suche höher.

Die heutigen LLMs können die inhaltsübergreifende Natur der Suche effektiv verbessern, haben jedoch auch Probleme wie Halluzinationen und irrelevante Antworten. Angesichts der Strenge der wissenschaftlichen Forschung wird unser Bedarf an Inhaltsrückverfolgbarkeit immer stärker. Daher benötigt Science Navigator eine leistungsstarke Datenbank, die über 100 Millionen Forschungsarbeiten effektiv verwalten, verschiedene Arten von Daten effizient speichern und indizieren und die Genauigkeit von Abfragen gewährleisten kann. Nach der Bewertung verschiedener Lösungen wurden die Vorteile von MyScale deutlich. Tauchen wir in diese Vorteile ein.

# Anforderungen an Vektordatenbanken

Science Navigator ist ein Retrieval-Augmented Generation (RAG) (opens new window)-gestütztes Wissensbasis-F&A-System für Forscher, das über 200 Millionen Forschungsarbeiten abdeckt und effiziente Dienste zur Wissensaneignung in verschiedenen Bereichen wie Wissenschaft, Materialwissenschaft, Chemieingenieurwesen und Biomedizin bietet und die Forschungseffizienz signifikant verbessert.

Um dieses Ziel zu erreichen, haben wir folgende Anforderungen an die Vektordatenbank:

# Datenverwaltung

Science Navigator umfasst eine Vielzahl wissenschaftlicher Literatur mit komplexen und vielfältigen Datentypen. Neben Text umfasst wissenschaftliche Literatur auch einzigartige wissenschaftliche Darstellungen wie Molekülformeln, mathematische Gleichungen und Diagramme, die reichhaltige menschliche Weisheit verkörpern. Die effektive Speicherung dieser verschiedenen Arten und Formate von Daten und gleichzeitig die Gewährleistung ihrer Rückverfolgbarkeit ist eine Herausforderung für die Vektordatenbank.

# Genauigkeit der Datenabfrage

Bei der Bedienung von Forschern in Unternehmen und Forschungseinrichtungen muss Science Navigator die Genauigkeit der Abfrageergebnisse sicherstellen, um die Strenge der wissenschaftlichen Forschung zu wahren. Gleichzeitig muss das System unter hoher Parallelität eine leistungsstarke Abfrage ermöglichen, damit Forscher jederzeit und überall auf Informationen zugreifen können und so die Forschungseffizienz verbessern können. Dies stellt hohe Anforderungen an die Genauigkeit und Leistung der Abfragen des Systems.

# Mehrmandantenfähigkeit

Schließlich ist Science Navigator darauf ausgelegt, Benutzergruppen aus verschiedenen Branchen und Fachbereichen zu unterstützen. Es muss sichergestellt werden, dass die Daten und Dienste jedes Benutzers unabhängig (oder gekapselt) sind und sich nicht gegenseitig beeinträchtigen, um den individuellen Bedürfnissen von Forschern aus verschiedenen akademischen Hintergründen besser gerecht zu werden. Hierfür muss die zugrunde liegende Datenbank über flexible Mehrmandantenverwaltungsfunktionen verfügen.

# Warum MyScale wählen

Das Ziel von Science Navigator ist es, Forschern dabei zu helfen, schnell genaue Forschungsliteratur zu erhalten, wobei die natürliche Sprachabfrage eine wesentliche Funktion darstellt. Um natürliche Sprachabfragen zu unterstützen, verlassen wir uns auf Technologien wie Text2SQL (opens new window) und SelfQuery. MyScale, das auf ClickHouse aufbaut, unterstützt die vollständige SQL-Syntax und bietet den SelfQueryRetriever (opens new window) basierend auf LangChain, der strukturierte und unstrukturierte Abfragen kombiniert und damit unsere Anforderungen perfekt erfüllt.

Darüber hinaus kann MyScale strukturierte Daten wie eine herkömmliche relationale Datenbank verarbeiten, sodass Entwickler komplexe SQL-Abfragen, Aggregationen und Analysen durchführen können. Benutzer können auch natürlichsprachliche Fragen stellen, was die Benutzerfreundlichkeit des Systems verbessert, insbesondere für diejenigen, die nicht mit SQL vertraut sind, und die Nutzungsschwelle senkt.

Um die Genauigkeit und Relevanz von Abfragen sicherzustellen, sind neben eigenständigen Vektorsuchen auch gemeinsame Suchen von Vektoren und strukturierten Daten unerlässlich. Die Architektur von MyScale kann sowohl strukturierte als auch unstrukturierte Daten speichern und nahtlos die Vektorsuche mit Abfragen strukturierter Daten integrieren. Die kombinierte Suchfunktion kann unstrukturierte Daten und zugehörige Metadaten verarbeiten, das Verständnis der Abfrage-Semantik verbessern und reichhaltigere Suchfunktionen bieten, um die Relevanz von Suchen zu verbessern.

Darüber hinaus unterstützt die Mehrmandantenverwaltungsfunktion (opens new window) von MyScale verschiedene Strategien wie mandantenbasierte Tabellen und metadatenbasierte Verwaltungsstrategien, um unseren flexiblen Anforderungen gerecht zu werden.

Zusammenfassend lässt sich sagen, dass nach der Untersuchung spezialisierter Vektordatenbanken und traditioneller Datenbanken mit hinzugefügten Vektor-Plugins nur MyScale alle Anforderungen für Science Navigator erfüllt und daher als zugrunde liegende Datenbank ausgewählt wurde.

Boost Your AI App Efficiency now
Sign up for free to benefit from 150+ QPS with 5,000,000 vectors
Free Trial
Explore our product

# Die Lösung

Science Navigator ist eine innovative Plattform für die Suche nach wissenschaftlichen Artikeln und Konversationsagenten. Einer ihrer Hauptvorteile ist die vollständige Nutzung der leistungsstarken Funktionen der MyScale KI-Datenbank. MyScale unterstützt nicht nur effiziente Vektorsuche und BM25-Stichwortsuche, sondern bietet auch umfassende SQL-Unterstützung, eine Funktion, die der Datenverwaltung von Science Navigator große Flexibilität und Effizienz verleiht.

# Datenverwaltung

Die Datenbasis der Plattform umfasst Metadaten für 200 Millionen Artikel und Volltextinhalte für 3 Millionen ArXiv-Artikel. Durch ein speziell entwickeltes PDF-Analysetool kann Science Navigator Texte, Bilder, Tabellen und mathematische Formeln genau aus den Artikeln extrahieren. Diese strukturierten und unstrukturierten Daten werden alle in MyScale gespeichert, wobei das ursprüngliche Format beibehalten und in Vektorform umgewandelt wird, um eine effiziente Suche zu unterstützen.

Wissensbasis-Tabelle

# Datenverwaltung und -abfrage

Mit der robusten SQL-Unterstützung von MyScale kann Science Navigator verschiedene komplexe Artikel-Metadaten in einem einzigen Datenbanksystem speichern. Dazu gehören die Zitationsbeziehungen zwischen Artikeln, detaillierte Informationen über wissenschaftliche Zeitschriften und Verbindungen zwischen Autoren und Artikeln. Dieser zentralisierte Ansatz zur Datenverwaltung vereinfacht den Prozess der Datenverwaltung erheblich und verbessert die Abfrageeffizienz.

Wie im obigen Bild gezeigt, speichert Science Navigator relevante Artikeldaten in mehreren relationalen Tabellen in MyScale:

  • Die Tabelle "paper_table" speichert die Artikel-Metadaten;
  • Die Tabelle "text_table" speichert die aus dem PDF analysierten Volltextdaten;
  • Es werden umgekehrte Stichwortindizes und Vektorindizes für den Text und seine Vektorrepräsentationen erstellt;
  • Für die aus den PDFs analysierten Bilder: Ihre Einbettungen werden in der Tabelle "image_table" gespeichert und Vektorindizes werden erstellt;
  • Für Autoren-Metadaten in der Tabelle "author_table" werden nur umgekehrte Stichwortindizes für Autorennamen erstellt; und
  • Zitationsbeziehungen zwischen Artikeln werden direkt in der relationalen Tabelle "citation_table" gespeichert.

Die Suchfunktion von Science Navigator nutzt die hybriden Suchfunktionen (opens new window) von MyScale voll aus. Benutzer können sowohl die Vektorsuche als auch die Stichwortsuche in Kombination mit SQL-Abfragen verwenden, um die akademischen Ressourcen, die sie benötigen, präzise zu finden. Beispielsweise können sie komplexe Abfragen basierend auf Faktoren wie Inhaltsähnlichkeit von Artikeln, Veröffentlichungsjahr und Zitierhäufigkeit leicht umsetzen.

Für die Konversationsfunktion ermöglicht die SQL-Unterstützung von MyScale Science Navigator das schnelle Abrufen und Kombinieren verschiedener relevanter Informationen, um den Benutzern umfassende und genaue Antworten zu liefern. Das System kann Artikelinhalte, Autoreninformationen, Zitationsnetzwerke und andere Daten problemlos in Beziehung setzen, um fundierte akademische Erkenntnisse zu generieren.

# Systemoptimierung und Wartung

Um die Leistung kontinuierlich zu optimieren, nutzt Science Navigator MyScale zur Speicherung und Analyse von Benutzerinteraktionsdaten. Chat-Verläufe, Traces großer Modelle und andere Informationen werden alle in MyScale aufgezeichnet. Durch Abfragen und Analysieren dieser Daten mithilfe von SQL kann die Plattform Einblicke in Benutzerverhaltensmuster gewinnen und die Suchalgorithmen und Dialogmodelle optimieren.

Die robuste SQL-Unterstützung von MyScale stattet Science Navigator auch mit leistungsstarken Datenverwaltungs- und Analysefunktionen aus. Plattformadministratoren können die vertraute SQL-Syntax verwenden, um komplexe Datenoperationen und Analysen durchzuführen, wie z.B. das Verfolgen beliebter Forschungsthemen, die Analyse von Autoren-Kollaborationsnetzwerken und die Bewertung von Zeitschriften-Impaktfaktoren.

Zusammenfassend lässt sich sagen, dass die umfassende SQL-Unterstützung von MyScale in Kombination mit seinen Stärken in der Vektorsuche und Stichwortsuche Science Navigator zu einem leistungsstarken, flexiblen und effizienten Assistenten für die wissenschaftliche Forschung gemacht hat. Es bietet nicht nur erweiterte Such- und Dialogfunktionen, sondern unterstützt auch die Datenverwaltung und -analyse des gesamten akademischen Ökosystems.

# Schlüsselvorteile von MyScale für Science Navigator

Durch die Integration von MyScale nutzt Science Navigator mehrere fortschrittliche Funktionen, die seine Leistung und Benutzerfreundlichkeit erheblich verbessern. Zu den wichtigsten Vorteilen gehören:

  • Speicherung großer multimodaler Datenmengen

Science Navigator ist das erste System zur Abruf von Artikeln, das semantische Suche auf Metadaten von 200 Millionen Artikeln und dem Volltextinhalt von 3 Millionen ArXiv-Artikeln mit eingebetteten Vektoren durchführen kann.

  • Präziser Abruf großer Datenmengen

Die leistungsstarken natürlichsprachlichen Konversationsabruffunktionen von Science Navigator können die genauen Informationen, die Forscher benötigen, schnell lokalisieren und die Literaturrecherche einfacher und schneller als je zuvor machen. Dies ist auf die Integration der MyScale KI-Datenbank in die Plattform zurückzuführen, die in Kombination mit den Vorteilen großer Sprachmodelle eine Wirkung erzielt, die mit Modellen mit 3-6-facher Parameteranzahl vergleichbar ist und die Trainings- und Inferenzkosten erheblich reduziert.

MyScale bietet einen effektiven Speicherträger für große Modelle, der die Anforderungen an dynamische und schnelle Aktualisierungen der Forschungsliteratur-Wissensbasis sowie die Notwendigkeit genauer Ausgaberesultate erfüllt. Dies ermöglicht eine kostengünstige und effiziente Speicherung von Informationen, ohne den Modellraum zu beanspruchen. Mit Hilfe von MyScale erreicht Science Navigator millisekunden-genauen Abruf von Milliarden von Vektoren und massiven strukturierten Daten, reduziert die durchschnittliche Literatursuchzeit von Forschern um über 90% und erreicht eine Frage-Antwort-Genauigkeit von über 95% für komplexe domänenspezifische Probleme.

  • Kosteneffizienz

Bei hoher Genauigkeit und Effizienz verwendet die MyScale KI-Datenbank einen einzigartigen MSTG-Vektorindexierungsalgorithmus, der die ursprünglichen Vektoren auf NVMe SSDs speichert. Im Vergleich zum rein speicherbasierten HNSW-Vektorindexierungsalgorithmus wird der Speicherverbrauch um das 16-fache reduziert und die Gesamtkosten um mehr als 90% gesenkt.

Join Our Newsletter

# Fazit

Science Navigator ist mehr als nur eine KI-Plattform für Forscher; es ist ein umfassendes Forschungsumfeld. Es bietet eine Vielzahl von Werkzeugen, von der Wissensextraktion und dem Verfolgen des Forschungsfortschritts bis hin zur Ideengenerierung und der Verfassung von Literaturübersichten. Durch die Öffnung von API-Schnittstellen für die meisten seiner Funktionen ermöglicht Science Navigator Benutzern, ihre eigenen Anwendungen und intelligenten Agenten auf der Plattform zu entwickeln und so den komplexen und personalisierten Anforderungen der wissenschaftlichen Forschung gerecht zu werden.

Mit der fortgesetzten Unterstützung von MyScale wird Science Navigator in Zukunft hochwertige Forschungsliteratur aus weiteren Branchen integrieren, die Systemleistung kontinuierlich optimieren und seine Position als leistungsstarker und benutzerfreundlicher Forschungsliteratur-Navigator für Forscher festigen.

Keep Reading
images
RAG vs. Large Context LLMs: RAG wird bestehen bleiben

Die Iterationsgeschwindigkeit der generativen KI (GenAI) wächst exponentiell. Eine Konsequenz davon ist, dass das Kontextfenster - die Anzahl der Tokens, die ein großes Sprachmodell (LLM) gleichzeitig ...

Start building your Al projects with MyScale today

Free Trial
Contact Us