搜索系统的如何合理的设计索引是搜索引擎快速准确搜索相关内容的基础,笔者以中小型公司常用的 elasticsearch 作为搜索引擎,介绍如何针对不同的业务合理设计索引数据。
社区内容的业务
社区内容是 ugc,pgc 或者 ogc,这类形式生产的内容主要是非结构化的文本内容,它们的索引设计基本如下:
字段 | 类型 | 选项 | 描述 |
---|---|---|---|
title | text | 可选 | 生产的内容的标题(有些业务设计,可能不存在标题这一说)。 |
content | text | 必须 | 生产的内容。 |
related_title | text | 可选 | 内容相关插入的关联 item(如有些业务可以插入商品信息等) |
img_tags | text | 可选 | 图片上设置的标签内容(如小红书的社区内容,可以设置图片标签) |
user_name | text | 必须 | 生产者的用户名 |
user_id | long | 必须 | 生产者的 id |
nation_id | integer | 可选 | 国家 id |
nation_name | text | 可选 | 国家名称 |
province_id | integer | 可选 | 省份 id |
province_name | text | 可选 | 省份名称 |
city_id | integer | 可选 | 城市 id |
city_name | text | 可选 | 城市名称 |
county_id | integer | 可选 | 区县 id |
county_name | text | 可选 | 区县名称 |
business_circle_id | integer | 可选 | 商圈 id |
business_circle_name | text | 可选 | 商圈名称 |