sklearn(scikit-learn)的 TfidfVectorizer 对象通过大量文档通过分词,再基于 tf-idf 矩阵化(向量化)后,想要保存该对象以便后续重用,本质上该对象持久化主要是针对 vocabulary_
词汇量表(词条索引映射内容)及 idf_
每个词条的 idf 值两个属性的保存。
pickle(推荐)
用 python 自带的序列化模块 pickle 即可,具体如下:
import pickle
pickle.dump(vectorizer, open("vectorizer.pickle", "wb"))
这是保存操作。
加载复用调用 load
函数,示例如下:
vectorizer = pickle.load(open("vectorizer.pickle", "rb"))
joblib
也可以利用 joblib,保存与加载操作如下:
import joblib
# 保存操作
joblib.dump(vectorizer, 'vectroizer.pkl')
# 加载操作
vectorizer = joblib.load('vectorizer.pkl')