信息来源通过 RSS 等信息抓取手段 用 chat 模型理解用户的行为画像 用 Embedding 模型对文章进行嵌入和检索 用 ranker 模型对文章在其所在分类质量进行打分 思路是这样,rss 抓来的内容=>用 chat 模型进行分类、标签和总结=> ranker 模型对该文章在其所在分类的内容质量进行评级=> 评级高的进行 Embedding 嵌入 后面根据用户的互动行为用 chat 模型进行建用户画像 根据用户画像通过 U2I 去检索文章混合 TF-IDF 关键字匹配兜底,对内容进行推荐分发 为了方便理解,我让 ai 根据刚才的描述画了一个文字版架构流程图 内容处理 ┌──────────────┐ │ RSS / 抓取 │ │ (Feed / Web) │ └──────┬───────┘ │ 原始文章 ▼ ┌────────────────────┐ │ 内容预处理 Pipeline │ │ - 去噪 / 去重 │ │ - 正文抽取 │ │ - 语言检测 │ └──────┬─────────────┘ │ 清洗后文本 ▼ ┌───────────────────────────────┐ │ Chat Model (内容理解) │ │ - 分类( Category ) │ │ - 标签( Tags ) │ │ - 摘要( Summary ) │ │ - 关键词 / 主题(可选) │ └──────┬────────────────────────┘ │ 结构化内容 ▼ ┌─────────────────────────────────────┐ │ Ranker Model (分类内质量评估) │ │ - 输入:文章 + 分类 + 标签 │ │ - 输出:质量分数 / 等级( A/B/C/D ) │ └──────┬──────────────────────────────┘ │ ├───────────────┐ │ 高质量内容 │ 低质量内容 │ (>= 阈值) │ (< 阈值) ▼ ▼ ┌──────────────────┐ ┌────────────────────┐ │ Embedding Pipeline│ │ 冷存 / 低频曝光 │ │ - 向量化 │ │ - 搜索兜底 │ │ - 向量索引 │ │ - 长尾内容池 │ └─────────┬────────┘ └────────────────────┘ │ ▼ ┌──────────────────────┐ │ 向量库 / 检索索引 │ │ (ANN / pgvector 等) │ └──────────────────────┘
用户侧画像与推荐流程 ┌──────────────┐ │ 用户行为采集 │ │ - 点击 │ │ - 阅读时长 │ │ - 收藏 / 分享│ │ - 跳过 │ └──────┬───────┘ │ 行为序列 ▼ ┌──────────────────────────────┐ │ Chat Model (用户画像理解) │ │ - 兴趣主题 │ │ - 偏好分类 │ │ - 阅读深度 / 新鲜度偏好 │ │ - 显式 + 隐式偏好 │ └──────┬───────────────────────┘ │ 用户画像(结构化) ▼ ┌─────────────────────────────────────┐ │ User → Item 召回( Recall ) │ │ │ │ ① 向量召回( U2I Embedding ) │ │ - 用户画像向量 │ │ - 文章向量 │ │ │ │ ② 关键词召回(兜底) │ │ - TF-IDF / BM25 │ │ - 用户兴趣关键词 │ └──────┬──────────────────────────────┘ │ 候选文章集合 ▼ ┌──────────────────────────────┐ │ 排序 / 混排(可扩展) │ │ - 质量分( Ranker ) │ │ - 相似度分 │ │ - 新鲜度 / 多样性 │ └──────┬───────────────────────┘ ▼ ┌──────────────┐ │ 内容分发展示 │ └──────────────┘
花了两个月的时间该进验证,结论是本地自建推荐系统已经在技术上具备可行性了 感兴趣的可以自行验证,或在这个https://github.com/weekend-project-space/ifeed 的基础上进行验证