# Compatibilidad entre MyScaleDB 1.x y ClickHouse 23.3
# Índice
- Compatibilidad entre MyScaleDB 1.x y ClickHouse 23.3
# Resumen
Este documento tiene como objetivo detallar la compatibilidad entre MyScaleDB y ClickHouse 23.3, y enumera las nuevas características o mejoras en MyScaleDB que no están presentes en la versión actual de ClickHouse.
# Nuevas Funciones
# Índice de Vectores
# Descripción
MyScaleDB ha implementado la función de índice de vectores para el manejo y consulta eficiente de datos vectoriales. Esta función es similar a la función de tabla Distance en ClickHouse 23.3, pero la implementación de índice de vectores en MyScaleDB ofrece un mejor rendimiento y precisión. Para más detalles, consulte la documentación: Búsqueda Vectorial Básica
# Índice Invertido
# Descripción
En MyScaleDB, basado en el algoritmo BM25, se ofrece un índice invertido más eficiente y fácil de usar para realizar búsquedas de texto completo de manera eficaz. Además, sobre la base de los índices invertidos y de vectores, MyScaleDB incorpora búsqueda integrada para ayudar a los usuarios a combinar de manera más efectiva la búsqueda de vectores y de texto completo para obtener los resultados deseados. Para más detalles, consulte la documentación: Búsqueda de Texto Completo
# Funciones o Correcciones Introducidas en Otras Versiones
Soporte para leer archivos vacíos desde S3
PR52733 (opens new window)
PR52763 (opens new window)
PR49519 (opens new window)Corrección del problema al escribir archivos adjuntos en una copia de seguridad incremental
PR49725 (opens new window)Reportar el estado correcto (FAILED) al fallar la carga del diccionario ejecutable
PR48775 (opens new window)Añadir comportamiento diferente cuando el flujo stderr del comando externo tiene datos
PR43210 (opens new window)Destruir correctamente las tareas en ShellCommandSource
PR53573 (opens new window)Corrección del problema de carrera de datos en ShellCommand
PR53631 (opens new window)Limpiar correctamente en caso de excepción en el constructor de ShellCommandSource
PR55103 (opens new window)Uso de parámetros predeterminados {replica} y {shard} en ReplicatedMergeTree
PR48961 (opens new window)Optimización de la ejecución de sentencias ALTER en un único fragmento de una base de datos replicada
PR51049 (opens new window)Considerar las filas eliminadas al seleccionar fragmentos para fusionar
PR58223 (opens new window)
# Funciones Experimentales Habilitadas por Defecto
# Configuración del Motor de Tabla
allow_experimental_database_replicated
# Configuración de Sesión
allow_experimental_object_type
# Configuraciones Predeterminadas Modificadas
Para obtener detalles sobre los parámetros de configuración, consulte la documentación oficial de ClickHouse.
# Configuración del Servidor
max_connections
: 1024 -> 4096max_concurrent_queries
: 0 (ilimitado) -> 1000disable_internal_dns_cache
: 0 -> 1max_table_size_to_drop
: 50000000000 -> 1000000000000uncompressed_cache_size
: 0 (deshabilitado) -> DYNAMIC_SETTING (ajustado dinámicamente por la memoria del servidor)mark_cache_size
: 0 (deshabilitado) -> DYNAMIC_SETTING (ajustado dinámicamente por la memoria del servidor)
# Configuración del Motor de Tabla
index_granularity
: 8192 -> 128merge_max_block_size
: 8192 -> 256max_bytes_to_merge_at_max_space_in_pool
: 161061273600 -> 5368709120number_of_free_entries_in_pool_to_lower_max_size_of_merge
: 8 -> 2number_of_free_entries_in_pool_to_execute_mutation
: 20 -> 2old_parts_lifetime
: 480 -> 5simple_merge_selector_base
: 5 -> 1.2
# Configuración de Sesión
min_insert_block_size_bytes
: 268402944 -> 33554432max_query_size
: 262144 -> 262144000connect_timeout_with_failover_ms
: 50 -> 5000use_uncompressed_cache
: 0 -> 1distributed_directory_monitor_batch_inserts
: 0 -> 1distributed_product_mode
: DENY (deshabilitado) -> GLOBALsend_progress_in_http_headers
: 0 -> 1join_use_nulls
: 0 -> 1prefer_global_in_and_join
: 0 -> 1max_result_rows
: 0 (ilimitado) -> 10000default_table_engine
: None (deshabilitado) -> ReplicatedMergeTreemutations_sync
: 0 -> 1allow_experimental_database_replicated
: 0 -> 1database_replicated_allow_replicated_engine_arguments
: 1 -> 0async_insert
: 0 -> 1allow_experimental_object_type
: 0 -> 1background_pool_size
: 16 -> 4default_database_engine
: Atomic -> Replicated
# Nuevas Configuraciones
# Configuración del Servidor
primary_key_cache_size
- Límite de tamaño de la caché de claves primarias
vector_index_cache_size
- Límite de tamaño de la caché de índices de vectores en la caché
vector_index_cache_size_ratio_of_memory
- Límite de memoria para la caché de índices de vectores (como proporción de la memoria total)
vector_index_build_size_ratio_of_memory
- Límite de memoria para la construcción de índices de vectores (como proporción de la memoria total)
enable_brute_force_vector_search
- Habilitar la búsqueda de vectores por fuerza bruta
# Configuración del Motor de Tabla
enable_primary_key_cache
- Habilitar la caché de claves primarias para la búsqueda de vectores
enable_decouple_vector_index
- Habilitar el uso de índices de vectores antiguos durante la fusión parcial y la búsqueda de vectores.
enable_rebuild_for_decouple
- Habilitar la reconstrucción de nuevos índices de vectores en partes desacopladas.
min_rows_to_build_vector_index
- Número mínimo de filas para construir un índice de vectores
min_bytes_to_build_vector_index
- Número mínimo de bytes para construir un índice de vectores
float_vector_search_metric_type
- Tipo de métrica predeterminado para la búsqueda de vectores de punto flotante
binary_vector_search_metric_type
- Tipo de métrica predeterminado para la búsqueda de vectores binarios
max_rows_for_slow_mode_single_vector_index_build
- Número máximo de filas para la construcción de índices de vectores en modo lento en partes de datos
default_mstg_disk_mode
- Modo de disco predeterminado
vector_index_parameter_check
- Habilitar la verificación de parámetros de índices de vectores
vidx_zk_update_period
- Intervalo de tiempo para la actualización en segundo plano de la información de índices de vectores en ZooKeeper
vector_index_cache_recheck_interval_seconds
- Intervalo de tiempo para la operación en segundo plano de eliminación de cachés de índices de vectores antiguos
build_vector_index_on_random_single_replica
- Construir índices de vectores aleatoriamente en diferentes réplicas
# Configuración de Sesión
database_replicated_always_execute_with_on_cluster
- Siempre crear o eliminar bases de datos replicadas en todas las réplicas del clúster
database_replicated_default_cluster_name
- Nombre del clúster para crear o eliminar bases de datos replicadas
database_replicated_allow_explicit_arguments
- Permitir argumentos explícitos al crear bases de datos replicadas
database_replicated_always_convert_table_to_replicated
- Convertir siempre las tablas de la base de datos a tablas replicadas utilizando el motor Replicated
database_replicated_default_zk_path_prefix
- Prefijo utilizado al crear el camino zk_path del motor de base de datos replicada junto con el nombre de la base de datos. Si está vacío, el zk_path no se establecerá automáticamente.
optimize_move_to_prewhere_for_vector_search
- Habilitar o deshabilitar la optimización especial PREWHERE para búsquedas vectoriales en consultas SELECT, moviendo todas las condiciones WHERE posibles a PREWHERE.
two_stage_search_option
- Habilitar la búsqueda de dos etapas para búsquedas vectoriales
enable_brute_force_vector_search
- Habilitar la búsqueda vectorial por fuerza bruta
max_build_index_train_block_size
- Tamaño máximo del bloque utilizado para entrenamiento de índices de construcción (en bytes)
max_build_binary_vector_index_train_block_size
- Tamaño máximo del bloque utilizado para entrenamiento de índices de vectores binarios (en bytes)
max_build_index_add_block_size
- Tamaño máximo del bloque para añadir vectores en una sola construcción de índices (en bytes)
# Otras Configuraciones
vector_index_event_log
- Configuración de la tabla de eventos de índices vectoriales
vector_index_cache_path
- Directorio de caché de índices vectoriales
tantivy_index_cache_path
- Directorio de caché de vectores de índice de texto completo