Twitter算法开源全解读！深挖Twitter高曝光密码

石南物流54702023-04-04 21:43:29

4月1日，埃隆·马斯克在个人Twitter上转发了其在GitHub开源Twitter的推荐算法。马斯克表示通过公开这些算法，来提升平台的透明度、增强用户、客户和媒体的信任。

Twitter算法开源全解读！深挖Twitter高曝光密码第1张

此举对所有品牌来说都非常重要。因为根据Twitter算法的指导进行内容营销规划并赢得更多声量、获得更多曝光和互动的机会来了。

OneSight将在本文中结合Twitter的开源算法、各路技术精英对代码的拆解，以及Twitter官方对推荐算法的介绍，为大家解读最新的Twitter推荐算法，与出海品牌一同探讨如何运用Twitter推荐算法提升内容触达、曝光、互动，并且提升营销效果。

01.Twitter最新推荐算法的基本认识

总的来说，Twitter的推荐算法是一个个性化推荐系统，主要运作在Twitter用户的“For You”界面。其每天会将约5亿条推文精简到1500条，再进一步筛选后推荐到不同用户的“For You”信息流上。

这个系统会预测用户最有可能与哪些用户互动，并且判断Twitter上有哪些热门的“社区”和推文。

这个系统如何判断以上的问题？主要通过两部分的数据：

用来训练机器学习模型的基础数据：即Twitter的大规模专有数据，包括用户数据、关注数据、推文内容数据以及互动数据等。

在为推文相关性打分时使用的排名信息：即用户偏好、历史行为和时间因素等。

要完成从5亿到1500的“精简”过程并不简单，共分为三个阶段：

1.候选源采集：从不同的推荐源获取最好的推文2.推文排名：使用机器学习模型对每条推文进行排名3.过滤筛选：应用启发式算法和过滤器，过滤掉用户屏蔽、不适合公开浏览以及已经浏览过的内容

Twitter算法开源全解读！深挖Twitter高曝光密码第2张

02.Twitter推荐算法的三个阶段如何运作

上文我们简单介绍了Twitter推荐算法的原理和过程，那么以上三个阶段具体是如何运作的？我们一一来看。

第一阶段：候选源采集

第一个阶段是candidate sourcing ，即从不同的推荐来源中采集最佳推文。

这个阶段的目标是为每个用户检索最近和相关的推文。每一次Twitter都会从数亿条推文中分别从两个来源采集出1500条推文。

来源1：网内来源

网内来源是最大的候选源，旨在为用户提供最相关、最新的来自用户关注的用户的推文。它使用逻辑回归模型基于其相关性对关注的人的推文进行排名。然后，排名靠前的推文被发送到下一个阶段。

在对网络内推文进行排名时，最重要的组成部分是Real Graph 。Real Graph 是一个模型，预测两个用户之间的互动可能性。你和推文作者之间的Real Graph 得分越高，就会获得更多他们的推文。

来源2：外部网络来源

外部网络来源则是通过分析用户关注的人或具有类似兴趣的人的互动情况来估计用户可能感兴趣的内容。

如果说，网内来源是根据用户的主动关注来检索他可能感兴趣的内容，那么外部网络来源则都是来自用户尚未关注的账号，但Twitter猜测用户可能会感兴趣的账号。

那么当一个用户没有关注某一账号时，Twitter如何判断用户对该内容感兴趣？Twitter采用了两种方法来解决这个问题。

一个是社交图（Social Graph）

这个方法是通过分析用户关注的人或有相似兴趣的人的活动，来估计用户会感兴趣的相关内容。

通过遍历用户参与图，并按照以下步骤回答以下问题：

我关注的人最近在Twitter上发了什么消息？

谁和我一样喜欢类似的推文，他们最近还喜欢什么？

Twitter就可以根据这些问题的答案生成候选推文，并使用Logit模型对产生的推文进行排名。

第二个是嵌入空间（Embedding Spaces）

嵌入式空间方法目前是Twitter外部网络推文的更主要来源。其旨在回答一个关于内容相似性的更普遍的问题——什么推文和用户与“我”的兴趣相似？

这里面涉及到我们前文介绍的Twitter的“社区”，Twitter会在账户级别将用户分为不同的“SimClusters”，使用自定义矩阵分解算法将有影响力的用户锚定为不同的社区。这样的细分社区在Twitter有14.5万个，并且每三周会更新一次。

用户和推文在社区空间中可以属于多个社区。社区的规模从个人朋友群的几千名用户到新闻或流行文化的数亿用户不等：

Twitter算法开源全解读！深挖Twitter高曝光密码第3张

也就是说，Twitter会根据你的账号平时发布的内容来将账号每三周进行一次后台“归类”到不同的小社区中，如果你的账号与目标用户的账号归为一个社区，那么就有很大的可能被选为该用户的外部网络来源内容。

第二阶段：推文排名

这个阶段的目标是为用户从1500条候选推文中提供最相关的推文。这个过程是通过Twitter特有的神经网络实现的，该网络不断地根据推文交互进行训练，并根据积极的互动（如点赞、转发和回复）来对推文进行打分。

这个排序机制考虑了数千个特征，并输出十个标签，以给每个推文打分，其中每个标签代表一种互动的概率。最终根据这些分数对推文进行排名。

这个神经网络模型是Twitter的核心算法之一，也是开源项目中最重要的部分之一。技术层面的内容我们不过多赘述，根据这一开源代码，已经有工程师分析出了一部分的“模型权重”，即在Twitter的算法看来，什么样的数据是能得到高分的数据：

Twitter算法开源全解读！深挖Twitter高曝光密码第4张

由上图我们可以看到，点赞和转推依然是如今Twitter最重要的数据指标，提升这两项数据将帮助品牌大大提升推文的覆盖面。同时如果你的推文中只有URL链接或者被用户屏蔽或取消关注则会降低权重。

第三阶段：过滤筛选

这个阶段的目标是为用户创建一个内容平衡和多样化的时间线。在排序阶段之后，Twitter应用各种启发式算法和过滤器来规范各种特性。这些特性共同作用，提高时间线的质量和用户体验。其中包括：

可见性过滤：基于内容和你的偏好过滤推文。例如，删除你屏蔽或静音的账户的推文，或者根据你的设置隐藏不适宜儿童的内容。

作者多样性：避免连续出现来自单个作者的推文，以增加时间线的多样性。

内容平衡：确保提供公正的内网来源和外部网络来源推文，以避免偏见或回音壁效应。

基于反馈的降权：如果观看者提供了负面反馈，例如点击“不感兴趣”，则降低某些推文的分数，以减少类似内容的出现。

社交证明：排除没有与推文有第二度联系的外部网络来源推文作为质量保障。换句话说，确保你关注的人与推文互动或关注推文的作者。

对话：通过将回复与原始推文进行线程连接，提供更多上下文。例如，显示“来自 @user 的回复”或“来自 @user 的转发”等标签。

编辑的推文：确定设备上当前的推文是否过时，并发送指令将其替换为编辑版本。例如，如果作者修改了推文中的文字或图片。

这些过滤器是由一些简单的规则和条件组成的，目的是为了最终为用户呈现一个十分感兴趣又“兼听则明”的浏览体验。

03.针对Twitter公开的推荐算法，品牌如何做？

作为品牌，最感兴趣的是在吃透了Twitter的推荐算法后，如何生产更符合推荐算法、获得更多曝光和互动的推文。OneSight建议品牌从以下几个方面入手：

内容质量：品牌应该发布高质量、有价值、有创意的内容，以吸引用户的注意力和互动。内容应该与品牌的定位、目标和声音一致，以建立信任和忠诚度。内容也应该考虑用户的兴趣、需求和偏好，以提高相关性和满意度。

内容形式多样性、话题一致性：品牌应该发布不同类型、格式的内容，但同时也要注意这些内容的话题一致性。形式上的多样性可以增强用户时间线的多样性和丰富性，品牌可以利用 Twitter 提供的各种功能，如视频、图片、话题标签、轮播图、投票等，来提高内容的吸引力和互动性。而话题上的一致性则要求品牌在一段时间内（最好是三周内）发布同一类话题的内容，以方便让Twitter将你的账号划分到垂类的“社区”中，推荐给更精准的用户观看。

内容时效性：品牌应该发布及时、新鲜、热门的内容，以抓住用户的注意力和兴趣。品牌应该关注 Twitter 上的热门话题、事件和趋势，并及时参与其中，以展示品牌的敏锐度和活跃度。品牌也应该定期更新内容，以保持用户的关注度和回访率。

内容互动性：品牌应该主动与用户进行互动，以建立关系和社区。品牌应该回复用户的评论、问题和反馈，并表达感谢和赞赏。品牌也应该鼓励用户参与内容的创造和传播，例如邀请用户分享自己的故事、观点或经验，或者转发内容给其他人。

结语

此次Twitter开源其算法，不只兑现了马斯克的透明度承诺，也为品牌更好地在Twitter进行内容营销提供了认知的升级和助力。

因此，我们为所有出海品牌解读算法、提供优化方向，希望帮助大家更加了解平台、更加熟知用户也获得更多的营销效果。

Twitter算法

本文链接：http://www.awyerwu.com/9930.html ,转载需注明文章链接来源：http://www.awyerwu.com/

分享到：