向量与嵌入

概述

本章介绍向量表示和嵌入技术的核心概念，这是现代AI系统处理文本和语义信息的基础。

什么是向量 向量是数学中表示方向和大小的一组数值，在AI中用于表示数据的特征。

向量空间 所有向量构成的数学空间，相似的数据在向量空间中距离较近。

向量维度 向量的长度或元素数量，维度越高能表示的信息越丰富，但计算成本也越高。

嵌入（Embedding） 将离散数据（如单词、句子）映射到连续向量空间的过程。

词嵌入（Word Embedding） 将单词映射为向量表示，如Word2Vec、GloVe等。

句子嵌入（Sentence Embedding） 将整个句子或段落映射为向量，捕获语义信息。

文本嵌入（Text Embedding） 更通用的文本向量化方法，适用于各种长度的文本。

Word2Vec 经典的词嵌入方法，通过上下文预测学习词向量。

BERT Embedding 基于BERT模型的上下文相关嵌入，同一词在不同语境下有不同向量。

OpenAI Embeddings OpenAI提供的文本嵌入API，如text-embedding-ada-002。

开源嵌入模型 如Sentence-BERT、E5、BGE等高性能开源模型。

余弦相似度（Cosine Similarity） 衡量两个向量方向的相似程度，值域为[-1, 1]。

欧几里得距离（Euclidean Distance） 两个向量之间的直线距离。

点积（Dot Product） 两个向量对应元素相乘再求和，常用于相似度计算。

什么是向量数据库 专门存储和检索向量数据的数据库系统。

主要功能

常见产品 Pinecone、Milvus、Weaviate、Chroma、Qdrant等。

向量与嵌入技术是连接自然语言和机器学习的桥梁。通过将文本转换为向量表示，AI系统能够理解和处理语义信息，支撑搜索、推荐、问答等多种应用场景。