Skip to content

向量与嵌入

概述

本章介绍向量表示和嵌入技术的核心概念,这是现代AI系统处理文本和语义信息的基础。

核心内容

向量基础

什么是向量 向量是数学中表示方向和大小的一组数值,在AI中用于表示数据的特征。

向量空间 所有向量构成的数学空间,相似的数据在向量空间中距离较近。

向量维度 向量的长度或元素数量,维度越高能表示的信息越丰富,但计算成本也越高。

嵌入技术

嵌入(Embedding) 将离散数据(如单词、句子)映射到连续向量空间的过程。

词嵌入(Word Embedding) 将单词映射为向量表示,如Word2Vec、GloVe等。

句子嵌入(Sentence Embedding) 将整个句子或段落映射为向量,捕获语义信息。

文本嵌入(Text Embedding) 更通用的文本向量化方法,适用于各种长度的文本。

嵌入模型

Word2Vec 经典的词嵌入方法,通过上下文预测学习词向量。

BERT Embedding 基于BERT模型的上下文相关嵌入,同一词在不同语境下有不同向量。

OpenAI Embeddings OpenAI提供的文本嵌入API,如text-embedding-ada-002。

开源嵌入模型 如Sentence-BERT、E5、BGE等高性能开源模型。

向量相似度

余弦相似度(Cosine Similarity) 衡量两个向量方向的相似程度,值域为[-1, 1]。

欧几里得距离(Euclidean Distance) 两个向量之间的直线距离。

点积(Dot Product) 两个向量对应元素相乘再求和,常用于相似度计算。

向量数据库

什么是向量数据库 专门存储和检索向量数据的数据库系统。

主要功能

  • 向量存储和索引
  • 相似度搜索
  • 向量聚类和分类

常见产品 Pinecone、Milvus、Weaviate、Chroma、Qdrant等。

小结

向量与嵌入技术是连接自然语言和机器学习的桥梁。通过将文本转换为向量表示,AI系统能够理解和处理语义信息,支撑搜索、推荐、问答等多种应用场景。