sklearn 基础教程

sklearn 特征工程

sklearn 基础教程

sklearn 分类算法

sklearn 回归算法

sklearn 笔记

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/sklearn-tfidfvectorizer-save.html

sklearn(scikit-learn)的 TfidfVectorizer 对象如何保存即持久化后续复用

sklearn(scikit-learn)笔记 sklearn(scikit-learn)笔记


sklearn(scikit-learn)的 TfidfVectorizer 对象通过大量文档通过分词,再基于 tf-idf 矩阵化(向量化)后,想要保存该对象以便后续重用,本质上该对象持久化主要是针对 vocabulary_ 词汇量表(词条索引映射内容)及 idf_ 每个词条的 idf 值两个属性的保存。

pickle(推荐)

用 python 自带的序列化模块 pickle 即可,具体如下:

import pickle

pickle.dump(vectorizer, open("vectorizer.pickle", "wb"))

这是保存操作。

加载复用调用 load 函数,示例如下:

vectorizer = pickle.load(open("vectorizer.pickle", "rb"))

joblib

也可以利用 joblib,保存与加载操作如下:

import joblib

# 保存操作
joblib.dump(vectorizer, 'vectroizer.pkl')

# 加载操作
vectorizer = joblib.load('vectorizer.pkl')

 

这里收集了 sklearn(scikit-learn)开发中,常见的问题及解决方法。 ...
Redis提供了两种不同的持久化方法来将数据存储到硬盘里面。 ...
本章主要介绍 Google 发表在 KDD 2018 上的经典的多任务学习模型 MMoE(Multi-gate Mixture-of-Exp ...
sklearn 是基于 python 语言,并依赖于 numpy 和 scipy 的机器学习工具包,所以安装 sklearn 需要提前安装 ...
sklearn 是 scikit-learn 的简写,它是一款基于 python 编程语言的开源机器学习库。它具有各种分类,回归和聚类算法, ...