# Compatibilidad entre MyScaleDB 1.x y ClickHouse 23.3

# Índice

# Resumen

Este documento tiene como objetivo detallar la compatibilidad entre MyScaleDB y ClickHouse 23.3, y enumera las nuevas características o mejoras en MyScaleDB que no están presentes en la versión actual de ClickHouse.

# Nuevas Funciones

# Índice de Vectores

# Descripción

MyScaleDB ha implementado la función de índice de vectores para el manejo y consulta eficiente de datos vectoriales. Esta función es similar a la función de tabla Distance en ClickHouse 23.3, pero la implementación de índice de vectores en MyScaleDB ofrece un mejor rendimiento y precisión. Para más detalles, consulte la documentación: Búsqueda Vectorial Básica

# Índice Invertido

# Descripción

En MyScaleDB, basado en el algoritmo BM25, se ofrece un índice invertido más eficiente y fácil de usar para realizar búsquedas de texto completo de manera eficaz. Además, sobre la base de los índices invertidos y de vectores, MyScaleDB incorpora búsqueda integrada para ayudar a los usuarios a combinar de manera más efectiva la búsqueda de vectores y de texto completo para obtener los resultados deseados. Para más detalles, consulte la documentación: Búsqueda de Texto Completo

# Funciones o Correcciones Introducidas en Otras Versiones

# Funciones Experimentales Habilitadas por Defecto

# Configuración del Motor de Tabla

  • allow_experimental_database_replicated

# Configuración de Sesión

  • allow_experimental_object_type

# Configuraciones Predeterminadas Modificadas

Para obtener detalles sobre los parámetros de configuración, consulte la documentación oficial de ClickHouse.

# Configuración del Servidor

  • max_connections: 1024 -> 4096
  • max_concurrent_queries: 0 (ilimitado) -> 1000
  • disable_internal_dns_cache: 0 -> 1
  • max_table_size_to_drop: 50000000000 -> 1000000000000
  • uncompressed_cache_size: 0 (deshabilitado) -> DYNAMIC_SETTING (ajustado dinámicamente por la memoria del servidor)
  • mark_cache_size: 0 (deshabilitado) -> DYNAMIC_SETTING (ajustado dinámicamente por la memoria del servidor)

# Configuración del Motor de Tabla

  • index_granularity: 8192 -> 128
  • merge_max_block_size: 8192 -> 256
  • max_bytes_to_merge_at_max_space_in_pool: 161061273600 -> 5368709120
  • number_of_free_entries_in_pool_to_lower_max_size_of_merge: 8 -> 2
  • number_of_free_entries_in_pool_to_execute_mutation: 20 -> 2
  • old_parts_lifetime: 480 -> 5
  • simple_merge_selector_base: 5 -> 1.2

# Configuración de Sesión

  • min_insert_block_size_bytes: 268402944 -> 33554432
  • max_query_size: 262144 -> 262144000
  • connect_timeout_with_failover_ms: 50 -> 5000
  • use_uncompressed_cache: 0 -> 1
  • distributed_directory_monitor_batch_inserts: 0 -> 1
  • distributed_product_mode: DENY (deshabilitado) -> GLOBAL
  • send_progress_in_http_headers: 0 -> 1
  • join_use_nulls: 0 -> 1
  • prefer_global_in_and_join: 0 -> 1
  • max_result_rows: 0 (ilimitado) -> 10000
  • default_table_engine: None (deshabilitado) -> ReplicatedMergeTree
  • mutations_sync: 0 -> 1
  • allow_experimental_database_replicated: 0 -> 1
  • database_replicated_allow_replicated_engine_arguments: 1 -> 0
  • async_insert: 0 -> 1
  • allow_experimental_object_type: 0 -> 1
  • background_pool_size: 16 -> 4
  • default_database_engine: Atomic -> Replicated

# Nuevas Configuraciones

# Configuración del Servidor

  • primary_key_cache_size
    • Límite de tamaño de la caché de claves primarias
  • vector_index_cache_size
    • Límite de tamaño de la caché de índices de vectores en la caché
  • vector_index_cache_size_ratio_of_memory
    • Límite de memoria para la caché de índices de vectores (como proporción de la memoria total)
  • vector_index_build_size_ratio_of_memory
    • Límite de memoria para la construcción de índices de vectores (como proporción de la memoria total)
  • enable_brute_force_vector_search
    • Habilitar la búsqueda de vectores por fuerza bruta

# Configuración del Motor de Tabla

  • enable_primary_key_cache
    • Habilitar la caché de claves primarias para la búsqueda de vectores
  • enable_decouple_vector_index
    • Habilitar el uso de índices de vectores antiguos durante la fusión parcial y la búsqueda de vectores.
  • enable_rebuild_for_decouple
    • Habilitar la reconstrucción de nuevos índices de vectores en partes desacopladas.
  • min_rows_to_build_vector_index
    • Número mínimo de filas para construir un índice de vectores
  • min_bytes_to_build_vector_index
    • Número mínimo de bytes para construir un índice de vectores
  • float_vector_search_metric_type
    • Tipo de métrica predeterminado para la búsqueda de vectores de punto flotante
  • binary_vector_search_metric_type
    • Tipo de métrica predeterminado para la búsqueda de vectores binarios
  • max_rows_for_slow_mode_single_vector_index_build
    • Número máximo de filas para la construcción de índices de vectores en modo lento en partes de datos
  • default_mstg_disk_mode
    • Modo de disco predeterminado
  • vector_index_parameter_check
    • Habilitar la verificación de parámetros de índices de vectores
  • vidx_zk_update_period
    • Intervalo de tiempo para la actualización en segundo plano de la información de índices de vectores en ZooKeeper
  • vector_index_cache_recheck_interval_seconds
    • Intervalo de tiempo para la operación en segundo plano de eliminación de cachés de índices de vectores antiguos
  • build_vector_index_on_random_single_replica
    • Construir índices de vectores aleatoriamente en diferentes réplicas

# Configuración de Sesión

  • database_replicated_always_execute_with_on_cluster
    • Siempre crear o eliminar bases de datos replicadas en todas las réplicas del clúster
  • database_replicated_default_cluster_name
    • Nombre del clúster para crear o eliminar bases de datos replicadas
  • database_replicated_allow_explicit_arguments
    • Permitir argumentos explícitos al crear bases de datos replicadas
  • database_replicated_always_convert_table_to_replicated
    • Convertir siempre las tablas de la base de datos a tablas replicadas utilizando el motor Replicated
  • database_replicated_default_zk_path_prefix
    • Prefijo utilizado al crear el camino zk_path del motor de base de datos replicada junto con el nombre de la base de datos. Si está vacío, el zk_path no se establecerá automáticamente.
  • optimize_move_to_prewhere_for_vector_search
    • Habilitar o deshabilitar la optimización especial PREWHERE para búsquedas vectoriales en consultas SELECT, moviendo todas las condiciones WHERE posibles a PREWHERE.
  • two_stage_search_option
    • Habilitar la búsqueda de dos etapas para búsquedas vectoriales
  • enable_brute_force_vector_search
    • Habilitar la búsqueda vectorial por fuerza bruta
  • max_build_index_train_block_size
    • Tamaño máximo del bloque utilizado para entrenamiento de índices de construcción (en bytes)
  • max_build_binary_vector_index_train_block_size
    • Tamaño máximo del bloque utilizado para entrenamiento de índices de vectores binarios (en bytes)
  • max_build_index_add_block_size
    • Tamaño máximo del bloque para añadir vectores en una sola construcción de índices (en bytes)

# Otras Configuraciones

  • vector_index_event_log
    • Configuración de la tabla de eventos de índices vectoriales
  • vector_index_cache_path
    • Directorio de caché de índices vectoriales
  • tantivy_index_cache_path
    • Directorio de caché de vectores de índice de texto completo
Last Updated: Wed Aug 07 2024 02:53:27 GMT+0000