各位大佬，现在有 LLM，本地自建今日头条可行了

作者：蓝逸日期：2025-12-23 浏览：426℃ 分类：分享

信息来源通过 RSS 等信息抓取手段用 chat 模型理解用户的行为画像用 Embedding 模型对文章进行嵌入和检索用 ranker 模型对文章在其所在分类质量进行打分思路是这样，rss 抓来的内容=>用 chat 模型进行分类、标签和总结=> ranker 模型对该文章在其所在分类的内容质量进行评级=> 评级高的进行 Embedding 嵌入后面根据用户的互动行为用 chat 模型进行建用户画像根据用户画像通过 U2I 去检索文章混合 TF-IDF 关键字匹配兜底，对内容进行推荐分发为了方便理解，我让 ai 根据刚才的描述画了一个文字版架构流程图内容处理 ┌──────────────┐ │ RSS / 抓取 │ │ (Feed / Web) │ └──────┬───────┘ │ 原始文章 ▼ ┌────────────────────┐ │ 内容预处理 Pipeline │ │ - 去噪 / 去重 │ │ - 正文抽取 │ │ - 语言检测 │ └──────┬─────────────┘ │ 清洗后文本 ▼ ┌───────────────────────────────┐ │ Chat Model （内容理解） │ │ - 分类（ Category ） │ │ - 标签（ Tags ） │ │ - 摘要（ Summary ） │ │ - 关键词 / 主题（可选） │ └──────┬────────────────────────┘ │ 结构化内容 ▼ ┌─────────────────────────────────────┐ │ Ranker Model （分类内质量评估） │ │ - 输入：文章 + 分类 + 标签 │ │ - 输出：质量分数 / 等级（ A/B/C/D ） │ └──────┬──────────────────────────────┘ │ ├───────────────┐ │ 高质量内容 │ 低质量内容 │ (>= 阈值) │ (< 阈值) ▼ ▼ ┌──────────────────┐ ┌────────────────────┐ │ Embedding Pipeline│ │ 冷存 / 低频曝光 │ │ - 向量化 │ │ - 搜索兜底 │ │ - 向量索引 │ │ - 长尾内容池 │ └─────────┬────────┘ └────────────────────┘ │ ▼ ┌──────────────────────┐ │ 向量库 / 检索索引 │ │ (ANN / pgvector 等) │ └──────────────────────┘

用户侧画像与推荐流程 ┌──────────────┐ │ 用户行为采集 │ │ - 点击 │ │ - 阅读时长 │ │ - 收藏 / 分享│ │ - 跳过 │ └──────┬───────┘ │ 行为序列 ▼ ┌──────────────────────────────┐ │ Chat Model （用户画像理解） │ │ - 兴趣主题 │ │ - 偏好分类 │ │ - 阅读深度 / 新鲜度偏好 │ │ - 显式 + 隐式偏好 │ └──────┬───────────────────────┘ │ 用户画像（结构化） ▼ ┌─────────────────────────────────────┐ │ User → Item 召回（ Recall ） │ │ │ │ ① 向量召回（ U2I Embedding ） │ │ - 用户画像向量 │ │ - 文章向量 │ │ │ │ ② 关键词召回（兜底） │ │ - TF-IDF / BM25 │ │ - 用户兴趣关键词 │ └──────┬──────────────────────────────┘ │ 候选文章集合 ▼ ┌──────────────────────────────┐ │ 排序 / 混排（可扩展） │ │ - 质量分（ Ranker ） │ │ - 相似度分 │ │ - 新鲜度 / 多样性 │ └──────┬───────────────────────┘ ▼ ┌──────────────┐ │ 内容分发展示 │ └──────────────┘

花了两个月的时间该进验证，结论是本地自建推荐系统已经在技术上具备可行性了感兴趣的可以自行验证，或在这个https://github.com/weekend-project-space/ifeed 的基础上进行验证

转载注明出处：http://dixi.eu.org/35763.html

上一篇电热毯没关导致做梦都跟火焰/爆炸有关

下一篇为什么在国外似乎日本麻将比中国麻将要更流行