Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語
Sign In
Free Sign Up
  • English
  • Español
  • 简体中文
  • Deutsch
  • 日本語

Science Navigator — Logro de la recuperación a nivel de milisegundos de vectores a gran escala y datos estructurados con MyScale

El crecimiento exponencial del cuerpo de literatura científica se ha convertido en un obstáculo desalentador para los investigadores, dificultando su capacidad para descubrir conocimiento de manera eficiente. Según la Fundación Nacional de Ciencias de los Estados Unidos, los investigadores dedican el 51% de su tiempo de investigación a encontrar y digerir materiales de investigación.

Science Navigator (opens new window), desarrollado por el Instituto de IA para la Ciencia en Beijing (AISI), aborda este desafío al proporcionar una plataforma impulsada por IA para revisiones de literatura precisas y simplificadas. Este artículo explora los requisitos específicos de Science Navigator, la razón detrás de la selección de MyScale (opens new window) como su base de datos fundamental y los beneficios tangibles que aporta a la plataforma.

# Science Navigator: Un cambio de paradigma en la revisión de literatura científica

En la investigación científica, la revisión de literatura es un paso crucial. Si bien la navegación y la búsqueda siguen siendo los métodos principales, el rápido desarrollo de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) ha llevado a que más investigadores utilicen métodos de IA para la revisión de literatura. Como proyecto innovador dentro de la infraestructura de IA para la Ciencia, Science Navigator 1.0 sirve como una alternativa a las bases de datos y los repositorios de conocimiento de literatura. Science Navigator no solo mejora significativamente la eficiencia de los investigadores, sino que también abre un nuevo camino para la exploración científica.

Introducción a Science Navigator (opens new window)

Basándonos en las necesidades prácticas de la investigación científica, encontramos que muchas demandas siguen sin cumplirse. Por ejemplo, la investigación interdisciplinaria se ha convertido en la norma, lo que hace más urgente la necesidad de recuperación de contenido cruzado. A diferencia de los métodos de recuperación basados en palabras clave anteriores, nuestros requisitos para la recuperación cruzada de contenido son más altos.

Los LLMs actuales pueden mejorar eficazmente la naturaleza transversal de la recuperación, pero también tienen problemas como alucinaciones y respuestas irrelevantes. Dada la rigurosidad de la investigación científica, nuestra demanda de trazabilidad de contenido es cada vez más fuerte. Por lo tanto, Science Navigator requiere una base de datos potente que pueda gestionar eficazmente más de 100 millones de artículos de investigación, almacenar e indexar eficientemente varios tipos de datos y garantizar la precisión de las consultas. Después de evaluar diferentes soluciones, las ventajas de MyScale se hicieron evidentes. Sumergámonos en estas ventajas.

# Requisitos para bases de datos de vectores

Science Navigator es un sistema de preguntas y respuestas basado en conocimiento impulsado por Retrieval-Augmented Generation (RAG) (opens new window) para investigadores, que cubre más de 200 millones de artículos de investigación y proporciona servicios eficientes de adquisición de conocimiento profesional en múltiples campos, incluyendo academia, ciencia de materiales, ingeniería química y ciencias biomédicas, mejorando significativamente la eficiencia de la investigación.

Para lograr este objetivo, tenemos los siguientes requisitos para la base de datos de vectores:

# Gestión de datos

Science Navigator incluye una amplia gama de literatura científica, con diversos y complejos tipos de datos. Además del texto, la literatura científica también incluye representaciones científicas únicas, como fórmulas moleculares, ecuaciones matemáticas y gráficos, que encapsulan la sabiduría humana. Almacenar eficazmente estos diversos tipos y formatos de datos mientras se garantiza su trazabilidad es un desafío para la base de datos de vectores.

# Precisión de consulta de datos

Al servir a investigadores en empresas e instituciones de investigación, Science Navigator debe garantizar la precisión de los resultados de las consultas para mantener la rigurosidad de la investigación científica. Al mismo tiempo, el sistema debe mantener una alta capacidad de recuperación bajo alta concurrencia para permitir que los investigadores accedan a la información en cualquier momento y lugar, mejorando así la eficiencia de la investigación. Esto impone altas demandas en la precisión y el rendimiento de las consultas del sistema.

# Aislamiento de datos multiinquilino

Finalmente, Science Navigator está diseñado para admitir grupos de usuarios de múltiples industrias y campos. Debe garantizar que los datos y servicios de cada usuario sean independientes (o encapsulados) y no interfieran entre sí, para satisfacer mejor las necesidades personalizadas de los investigadores de diferentes ámbitos académicos. Esto requiere que la base de datos subyacente tenga capacidades flexibles de gestión multiinquilino.

# Por qué elegir MyScale

El objetivo de Science Navigator es ayudar a los investigadores a obtener rápidamente literatura de investigación precisa, lo que convierte a la consulta en lenguaje natural en una función esencial. Para admitir consultas en lenguaje natural, confiamos en tecnologías como Text2SQL (opens new window) y SelfQuery. MyScale, construido sobre ClickHouse, admite la sintaxis SQL completa y proporciona el SelfQueryRetriever (opens new window) basado en LangChain, que combina consultas estructuradas y no estructuradas, cumpliendo perfectamente con nuestros requisitos.

Además, MyScale puede manejar datos estructurados como una base de datos relacional tradicional, lo que permite a los desarrolladores realizar consultas SQL complejas, agregaciones y análisis. Los usuarios también pueden utilizar preguntas en lenguaje natural, mejorando la usabilidad del sistema, especialmente para aquellos que no están familiarizados con SQL, y reduciendo el umbral de uso.

Para garantizar la precisión y relevancia de las consultas, las búsquedas conjuntas de datos vectoriales y estructurados son esenciales además de las búsquedas vectoriales independientes. La arquitectura de MyScale puede almacenar tanto datos estructurados como no estructurados, e integrar sin problemas la búsqueda de vectores con consultas de datos estructurados. Su función de búsqueda combinada puede manejar datos no estructurados y metadatos relacionados, mejorar la comprensión de la semántica de la consulta y proporcionar capacidades de búsqueda más ricas, mejorando así la relevancia de las búsquedas.

Además, la función de gestión multiinquilino (opens new window) de MyScale admite diversas estrategias, como la multiinquilinidad basada en tablas y las estrategias de gestión basadas en metadatos, para satisfacer nuestros requisitos flexibles.

En resumen, después de investigar las bases de datos de vectores especializadas y las bases de datos tradicionales con complementos de vectores, solo MyScale cumple con todos los requisitos de Science Navigator, por lo que se eligió como su base de datos subyacente.

Boost Your AI App Efficiency now
Sign up for free to benefit from 150+ QPS with 5,000,000 vectors
Free Trial
Explore our product

# La solución

Science Navigator es una innovadora plataforma de búsqueda de artículos académicos y agente conversacional. Una de sus principales ventajas es la plena utilización de las potentes funciones de la base de datos de IA MyScale. MyScale no solo admite una búsqueda eficiente de vectores y una búsqueda de palabras clave BM25, sino que también proporciona un soporte SQL completo, una característica que aporta gran flexibilidad y eficiencia a la gestión de datos de Science Navigator.

# Almacenamiento de datos

La base de datos fundamental de la plataforma incluye metadatos de 200 millones de artículos y contenido de texto completo de 3 millones de artículos de ArXiv. A través de una herramienta de análisis de PDF especialmente desarrollada, Science Navigator puede extraer con precisión texto, imágenes, tablas y fórmulas matemáticas de los artículos. Estos datos estructurados y no estructurados se almacenan en MyScale, conservando el formato original mientras se convierten en forma de vector para admitir búsquedas eficientes.

Tabla de base de conocimientos

# Gestión y recuperación de datos

Con el sólido soporte SQL proporcionado por MyScale, Science Navigator puede almacenar varios metadatos complejos de artículos dentro de un solo sistema de base de datos. Esto incluye las relaciones de citas entre artículos, información detallada sobre revistas académicas y asociaciones entre autores y artículos. Este enfoque centralizado de almacenamiento de datos simplifica en gran medida el proceso de gestión de datos al tiempo que mejora la eficiencia de las consultas.

Como se muestra en la figura anterior, Science Navigator almacena datos relevantes de artículos en múltiples tablas relacionales en MyScale:

  • La tabla de artículos almacena los metadatos de los artículos;
  • La tabla de texto almacena los datos de texto completo extraídos del PDF;
  • Se crean índices invertidos de palabras clave e índices de vectores para el texto y sus representaciones vectoriales;
  • Para las imágenes extraídas de los PDF: sus incrustaciones se almacenan en la tabla de imágenes y se crean índices de vectores;
  • Para los metadatos de los autores en la tabla de autores, solo se crean índices invertidos de palabras clave para los nombres de los autores; y
  • Las relaciones de citas entre artículos se almacenan directamente en la tabla relacional de citas.

La función de búsqueda de Science Navigator utiliza plenamente las capacidades de búsqueda híbrida (opens new window) de MyScale. Los usuarios pueden utilizar tanto la búsqueda de vectores como la búsqueda de palabras clave, combinadas con consultas SQL, para localizar con precisión los recursos académicos que necesitan. Por ejemplo, pueden implementar fácilmente consultas complejas basadas en factores como la similitud de contenido de los artículos, el año de publicación y el recuento de citas.

Para la función conversacional, el soporte SQL de MyScale permite a Science Navigator recuperar y combinar rápidamente diversas informaciones relevantes, proporcionando respuestas completas y precisas a los usuarios. El sistema puede relacionar fácilmente el contenido de los artículos, la información de los autores, las redes de citas y otros datos para generar conocimientos académicos profundos.

# Optimización y mantenimiento del sistema

Para optimizar continuamente el rendimiento, Science Navigator utiliza MyScale para almacenar y analizar datos de interacción de los usuarios. Los historiales de chat, las trazas de invocación de modelos grandes y otra información se registran en MyScale. Al consultar y analizar estos datos utilizando SQL, la plataforma puede obtener información sobre los patrones de comportamiento de los usuarios y optimizar los algoritmos de búsqueda y los modelos de diálogo.

El sólido soporte SQL proporcionado por MyScale también dota a Science Navigator de potentes capacidades de gestión y análisis de datos. Los administradores de la plataforma pueden utilizar la sintaxis SQL familiar para realizar operaciones y análisis de datos complejos, como rastrear temas de investigación populares, analizar redes de colaboración entre autores y evaluar factores de impacto de revistas.

En resumen, el soporte SQL integral de MyScale, combinado con sus fortalezas en la búsqueda de vectores y la búsqueda de palabras clave, ha convertido a Science Navigator en un asistente de investigación académica potente, flexible y eficiente. No solo proporciona capacidades avanzadas de búsqueda y diálogo, sino que también ofrece un sólido soporte para la gestión y el análisis de datos de todo el ecosistema académico.

# Principales beneficios que MyScale aporta a Science Navigator

Al integrar MyScale, Science Navigator aprovecha varias capacidades avanzadas que mejoran significativamente su rendimiento y usabilidad. Estos principales beneficios incluyen:

  • Almacenamiento de datos multimodales a gran escala

Science Navigator es el primer sistema de recuperación de artículos capaz de realizar búsquedas semánticas en los metadatos de 200 millones de artículos y el contenido de texto completo de 3 millones de artículos de ArXiv utilizando vectores incrustados.

  • Logro de una recuperación precisa de datos a gran escala

Las potentes capacidades de recuperación conversacional en lenguaje natural de Science Navigator pueden localizar rápidamente la información exacta que los investigadores necesitan, haciendo que la recuperación de literatura sea más simple y rápida que nunca. Esto se debe a la integración de la base de datos de IA MyScale en la plataforma, que, combinada con las ventajas de los modelos de lenguaje grandes, logra un efecto equivalente a modelos con 3-6 veces los parámetros, reduciendo significativamente los costos de entrenamiento e inferencia.

MyScale proporciona un portador de memoria eficaz para modelos grandes, cumpliendo con los requisitos de actualizaciones dinámicas y rápidas de la base de conocimiento de literatura de investigación, así como la necesidad de resultados de salida precisos. Esto permite un almacenamiento de información de bajo costo y alta eficiencia sin ocupar espacio del modelo. Con la ayuda de MyScale, Science Navigator logra la recuperación a nivel de milisegundos de vectores a gran escala y datos estructurados masivos, reduciendo el tiempo promedio de búsqueda de literatura de los investigadores en más del 90% mientras mantiene una precisión de respuesta a preguntas de más del 95% para problemas complejos específicos del dominio.

  • Eficiencia de costos

Mientras se garantiza una alta precisión y eficiencia, la base de datos de IA MyScale utiliza un algoritmo de indexación de vectores MSTG único, almacenando los vectores originales en unidades de estado sólido NVMe. En comparación con el algoritmo de indexación de vectores HNSW basado puramente en memoria, el consumo de memoria se reduce en 16 veces y el costo total se reduce en más del 90%.

Join Our Newsletter

# Conclusión

Science Navigator es más que una plataforma de IA adaptada para investigadores; es un ecosistema de investigación integral. Ofrece una amplia gama de herramientas, desde extracción de conocimiento y seguimiento del progreso fronterizo hasta generación de ideas y redacción de revisiones de literatura. Al abrir interfaces API para la mayoría de sus capacidades, Science Navigator permite a los usuarios construir sus propias aplicaciones y agentes inteligentes en la plataforma, abordando las complejas y personalizadas necesidades de la investigación científica.

Mirando hacia el futuro, con el continuo apoyo de MyScale, Science Navigator se expandirá para incluir literatura de investigación de alta calidad de industrias adicionales, optimizar continuamente el rendimiento del sistema y consolidar su posición como un navegador de literatura de investigación potente y fácil de usar para los investigadores.

Keep Reading

Start building your Al projects with MyScale today

Free Trial
Contact Us