语义搜索：比较最佳嵌入模型

Wed May 29 2024

# 什么是语义搜索 (opens new window)？

在搜索技术领域，语义搜索以其改变游戏规则的特点脱颖而出。它超越了简单的关键词匹配，理解查询背后的意图和上下文。与仅依赖特定词语的传统方法不同，语义搜索深入挖掘搜索词的更深层含义。

# 为什么语义搜索很重要

想象一下搜索“附近最好的比萨饼”。通过语义搜索，结果不仅仅会列出那些确切包含这些词语的餐馆；它还会考虑到您的位置、偏好，甚至评论，提供量身定制的建议。这种个性化和相关性是为什么语义搜索在当今数据驱动的世界中至关重要的原因。

在日常场景中，比如查找医疗信息或寻找本地服务，语义搜索确保您能够准确地获得所需内容，而无需筛选无关的结果。

公告：MyScaleDB，革命性的SQL向量数据库，开源发布 (opens new window)。

# 嵌入模型在语义搜索中的作用

在语义搜索领域，嵌入模型在改变搜索引擎理解和处理信息的方式方面起着关键作用。让我们深入探讨使这些模型不可或缺的核心方面。

# 什么是嵌入模型？

嵌入模型是数学表示，它在连续向量空间中捕捉词语或短语的本质。这种转换使得机器能够更有效地解释语言的细微差别和关系。通过将词语映射到向量，这些模型可以抓住语义上的相似性和差异，增强搜索查询的深度理解。

# 语义嵌入与搜索嵌入

语义嵌入和搜索嵌入 (opens new window)都将文本转化为有意义的向量表示，但它们的目的和关注点不同，专注于文本处理的不同方面。

语义嵌入：这些嵌入捕捉文本之间的语义相似性。它们理解不同词语或短语在意义上的紧密关联程度。通常，语义嵌入在自然语言理解任务中使用，如情感分析、文本分类和语言翻译。这些嵌入通常使用BERT或GPT等语言模型生成，这些模型擅长抓住文本中的深层上下文关系。
搜索嵌入：另一方面，搜索嵌入专门设计用于根据用户查询从广泛的数据中高效检索最相关的文本片段。这些嵌入被优化以在用户查询和可用文档之间找到最佳匹配。它们的主要应用领域是信息检索系统，如搜索引擎和推荐系统，它们使用的训练技术侧重于查询-文档相关性，而不仅仅是语义接近度。

两者在各自的领域中都非常有用，但主要用于需要准确和高效的文本处理的应用中。

# 嵌入模型与语义搜索之间的联系

将嵌入模型集成到搜索算法中显著提高了搜索结果的准确性和相关性。正如我们所讨论的，传统的搜索方法依赖于将关键词直接与文档中的关键词进行匹配。然而，当嵌入模型与搜索集成时，用户查询和文档都被转换为嵌入。这种转换使得机器更容易理解文本。

通过这种方式，系统可以有效地比较用户查询的嵌入与文档的嵌入。这种比较基于语义相似性，而不仅仅是关键词匹配。结果，搜索引擎可以识别与查询在语义上相关的文档，即使确切的关键词不在其中。这种方法确保搜索结果不仅与用户意图更加一致，而且与上下文更相关。

因此，选择最佳的嵌入模型至关重要，因为它对检索到的信息的准确性和质量有重大影响。仔细选择可以确保搜索结果不仅准确，而且与用户查询高度相关。

# 比较语义搜索的最佳嵌入模型

在评估语义搜索的最佳嵌入模型时，必须考虑可能影响性能的特定标准。比较的关键因素通常围绕准确性、速度和多功能性展开。

准确性：这个关键指标评估嵌入模型准确捕捉词语或短语之间的语义关系的程度。更高的准确性意味着更好地理解语言细微差别，从而产生更相关的搜索结果。
速度：嵌入模型的速度决定了它能够多快地将文本处理为向量表示。更快的模型可以通过使搜索系统更快速地运行，提供快速而准确的搜索结果，增强用户体验。
多功能性：多功能的嵌入模型可以适应不同的领域、语言和数据类型。多功能性确保模型在不同的上下文和应用中保持有效，满足不同的用户需求。

# 看看竞争者

市场上有很多可用的嵌入模型，但我们选择了一些领先的模型。

# Cohere Embed v3 (opens new window)

Cohere Embed v3是一种先进的嵌入模型，旨在增强语义搜索和生成式人工智能。该模型在诸如Massive Text Embedding Benchmark (MTEB) (opens new window)和BEIR (opens new window)等各种基准测试中表现出色，证明它是一种在不同任务和领域中性能出色的嵌入模型。它的一些关键特点包括：

压缩感知训练：这种方法在不牺牲质量的情况下优化效率，使模型能够处理数十亿个嵌入，而不需要显著的基础设施成本。
多语言支持：它支持100多种语言，使其在跨语言搜索中具有很高的多功能性。
高性能：在嘈杂的现实世界数据场景中特别有效，通过评估内容质量和相关性来对高质量文档进行排名。

Boost Your AI App Efficiency now

Free Trial

Explore our product

# 用法

要在应用程序中使用Cohere嵌入模型，首先需要使用pip install -U cohere安装Cohere。然后，您可以像这样获取文档的嵌入：

import cohere
import numpy as np

cohere_key = "{YOUR_COHERE_API_KEY}"   #从www.cohere.com获取您的API密钥
co = cohere.Client(cohere_key)

docs = ["MyScaleDB是一个SQL向量数据库",
        "在性能方面，它已经超越了专门的向量数据库。",
        "它专为大规模AI应用而设计。"]

#使用输入类型'search_document'对文档进行编码
doc_emb = co.embed(texts=docs, input_type="search_document", model="embed-english-v3.0").embeddings
doc_emb = np.asarray(doc_emb)

# OpenAI的嵌入模型 (opens new window)

OpenAI最近推出了他们的新一代高级嵌入模型 (opens new window)，包括text-embedding-3-small和text-embedding-3-large。这些模型提供了更好的性能，并且更具成本效益。

性能：text-embedding-3-large模型支持高达3072维的嵌入。这允许进行详细而细致的文本表示。它在诸如MIRACL和MTEB等基准测试中也优于以前的模型。
成本效益：OpenAI的以前模型如text-embedding-ada-002在定价方面存在一些问题，因为它有点昂贵。但是，新的模型text-embedding-3-small比其前身text-embedding-ada-002更具成本效益，几乎节省了五倍。

# 用法

要在应用程序中使用OpenAI嵌入模型，首先需要使用pip install -U openai安装OpenAI。然后，您可以像这样获取文档的嵌入：

from openai import OpenAI
client = OpenAI(openai_api_key="your-api-key-here")

def get_embedding(text, model="text-embedding-3-small"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [text], model=model).data[0].embedding

embeddings=get_embedding("MyScaleDB是一个SQL向量数据库。")

# Mistral (opens new window)

Mistral系列包括一些高性能的开源大型语言模型，包括一个嵌入模型E5-mistral-7b-instruct。该模型从Mistral-7B-v0.1初始化，并在多语言数据集的混合上进行了微调。因此，它具有一定的多语言能力。

遵循指令：专门设计用于执行需要理解和遵循复杂指令的任务，非常适合教育和交互式AI系统的应用。
大规模训练：在广泛的网络规模数据上进行预训练，并在各种NLP任务上进行微调，以确保强大和可靠的性能。
高效性：针对高效处理进行了优化，能够处理大型数据集，并在各种用例中提供高质量的嵌入。

选择最佳的嵌入模型来优化语义搜索涉及评估每个模型在特定任务要求和目标上的优势。每个模型都提供了适用于语义搜索应用中不同用例的独特功能。

# 用法

要在应用程序中使用OpenAI嵌入模型，首先需要使用pip install torch transformers安装OpenAI。然后，您可以像这样获取文档的嵌入：

import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('intfloat/e5-mistral-7b-instruct')
model = AutoModel.from_pretrained('intfloat/e5-mistral-7b-instruct')
inputs = tokenizer("Your text here", return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
    outputs = model(**inputs)
embeddings = outputs.last_hidden_state

# 我的首选和原因

在探索用于语义搜索的所有三个嵌入模型之后，它们都具有一些独特的优势和应用。让我们看看。

# 准确性的优胜者

在竞争者中，Cohere Embed v3是在许多应用中准确性最佳的选择。它的设计准确捕捉细节的含义，确保搜索结果既相关又高质量。Cohere Embed v3还能很好地处理多语言查询和嘈杂的数据，使其在需要高准确性的任务中可靠。

# 速度最佳

在速度优化方面，OpenAI的嵌入模型以其高效的嵌入能力领先。像text-embedding-3-small这样的模型提供快速处理速度，而不会影响结果质量。这些模型的高维嵌入和成本效益使它们非常适合需要快速和经济的搜索结果的场景。

Join Our Newsletter

# 最多功能的选择

当多功能性至关重要时，Mistral的E5-mistral-7b-instruct是跨不同领域和语言最适合的选择。它的遵循指令设计和大规模训练确保在各种NLP任务中具有强大的性能。无论处理多语言查询还是复杂指令，E5-mistral-7b-instruct都能无缝适应不同需求，成为广泛的语义搜索应用的多功能解决方案。

# MyScaleDB：SQL向量数据库

在我们对语义搜索的顶级嵌入模型讨论结束之际，让我们介绍一下这个领域的搜索引擎：MyScale (opens new window) SQL向量数据库。这个先进的数据库与嵌入模型完美配合，使存储和高效检索向量数据变得更加容易。MyScale以其多尺度树图（MSTG）技术脱颖而出，超越了其他专门的向量数据库 (opens new window)。它专为快速、实时的语义搜索应用中关键的向量操作而构建。此外，MyScale致力于通过为每个新用户提供500万个免费向量存储，使这项技术易于访问，成为增强数据驱动的、基于人工智能的搜索平台的关键参与者。