冯雯璐
摘 要 移动互联网的快速发展,实现了海量原生数据的获取与聚合,为算法与人工智能的不断完善提供了条件。大众传播体系下一对多的内容分发方式逐渐向移动传播体系下个性化的精准分发方式转变,以“今日头条”为代表的内容聚合平台将这种全新的内容分发方式及其背后的算法推向了舆论的风口浪尖。
关键词 内容分发;个性化;精准推送;今日头条;算法
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2017)20-0049-02
为了解决海量信息发布与用户个性化信息需求之间的矛盾,个性化的信息推送方式成为必然趋势,聚合类平台“今日头条”既是先行者也是领跑者,始终不断探索和完善个性化推荐算法,致力于打造超越传统价值链的内容生态平台。
1 今日头条变革内容分发方式
今日头条在实现内容的个性化推荐过程中,有四个重要环节:内容聚合,内容的排序与分类,搭建标签体系和推荐系统。
1.1 内容聚合
今日头条创始人张一鸣称“头条”为“新闻搬运工”,内容聚合类平台的定位,颠覆了传统意义上内容生产机构职能,满足了移动互联网时代,人人都是内容生产者的需求和海量信息聚合的特征。移动传播体系下内容分发方式的转变,首先基于“PGC+UGC+GGC”的内容聚合,今日头条主要通过与媒体合作、网络爬虫抓取内容和自媒体账户提供内容等方式实现了海量内容的整合。
媒体合作方面,今日头条与新华社、光明网、澎湃新闻等上千家中央、省、市各级媒体进行合作,通过聚合专业化的媒体内容,提升内容数据库质量,满足用户对新闻资讯的需求,并在一定程度上规避了版权纠纷风险。今日头条工作人员在后台通过网络爬虫锁定网站超链接,从而实现更大范围的新闻内容的抓取和转载。针对国家机构、企业、媒体和自媒体推出的“头条号”,是今日头条内容聚合的另一重要来源。通过大力扶持平台原创内容,丰富内容类型和表现形式,以满足用户多样化的信息
需求。
1.2 对内容进行排序、分类
对于聚合的内容,需要按照“优先链接机制”对信息进行排序。这种排序方式基于传播学中“乐队花车法”的宣传策略[1],用户更倾向于关注排序相对靠前的内容。与此同时,通过自然语言处理和图像识别技术,对整合的内容进行消重,并对信息进行分类和标签化,摘要提取和LDA主题分析等
处理。
1.3 标签体系的搭建
个性化信息需求与海量数据资源的匹配效率取决于标签技术,标签的准确度和丰富性,决定了机器对内容素材的识别能力。今日头条标签体系的搭建,一方面是根据用户需求建立标签,另一方面是由用户上传的内容,依靠用户为其贴标签。依托协同方法,从用户角度出发,判断哪些是具有相同属性的用户,继而根据属性去匹配相关内容。
今日头条通过机器识别、人工编辑和用户提交等方式建立的标签体系,将内容的profile与用户的profile作对比,能够更好地实现内容的精准推荐;根据内容标签关键词,将有版权风险的内容放置专门的版权体系中,由专业的审核团队判断内容是否存在侵权风险,从而实现内容版权的维护;通过“标签审核+机器识别+人工确认+用户举报”的方式,能够有效监控具有“黄反”倾向的内容。
1.4 构建推荐系统
构建推荐系统是实现信息个性化推荐的关键环节,其中包含建立用户模型,构造相似矩阵,利用算法公式得出推荐内容和A/B测试及双盲交叉验证机制等。
1.4.1 建立用户模型
首先,对于新用户,今日头条采取“冷启动”机制,引导用户完成登陆并建立完整的账号体系,通过抓取新用户原有社交账号的历史行为数据和社交关系数据,建立用户“兴趣图谱”,推断用户兴趣点,实现对用户的初级内容推荐。伴随用户使用时长增加,通过追踪用户行为,更全面地获取用户数据,以完善用户模型。通过用户对推荐内容的“正负反馈”,不断完善对用户喜好的把握,结合用户关注的“头条号”“频道”和用户的社交行为及购物数据,逐步形成完整的用户画像。
1.4.2 构造相似性矩阵
推荐系统搭建的重要步骤之一是构造相似性矩阵,通过算法判断出内容之间的相似度,并找出热点内容,推送给用户。伴随用户画像完整性的增加,相似矩阵不断优化,从而使推荐的内容越来越精准。
1.4.3 逻辑回归
今日头条的推荐内容可以通过“个性推荐算法公式”得出,称之为“逻辑回归”。利用公式“W1*候选1的投票率+W2*候选2的投票率+W3候选3的投票率+……=最高分”得出分数,对内容进行排序,再按照“优先链接机制”,确定推送内容的位置与候选。
1.4.4 A/B测试和双盲交叉验证
今日头条在推荐系统中引入了A/B测试和双盲交叉验证机制。A/B测试是一种把实验对象随机分组,通过对照比较进行测试的方式,能够获得更加科学性的实验结果。双盲交叉验证是让算法判断新闻的分类和推荐对象,让两个编辑分别检验,结果一致则通过,不一致则请第三人判断并汇报程序员,重新调整算法。这种验证方法类似于神经算法的“刺激-反应”模式和人工智能中的“半监督式学习”。
2 个性化内容分发方式现存问题
尽管以今日头条为代表的聚合平台在个性化精准分发方面走在改革前沿,但随之出现的内容低俗,信息茧房等问题一直备受争议。2017年9月18日起,人民网连续三天发表评论文章,《不能让算法决定内容》《别被算法困在“信息茧房”》《警惕算法走向创新的反面》,指出以今日頭条为代表,单纯依靠算法推荐的平台存在价值观缺失、制造信息茧房、竞争手段屡破底线三大问题。
2.1 价值判断缺失
今日头条基于用户兴趣的信息选择,使内容的热度判断更倾向于趣味性,而缺乏其他维度的新闻价值判断标准。算法的机械化,专业人员的把关缺失,迫使用户需要自行判断内容优劣,媒介素养的参差不齐,导致部分用户容易受到不良信息的侵扰,产生价值趋向偏颇,个人价值与社会主流价值冲突的问题。endprint
2.2 信息茧房
用户在长期使用今日头条的过程中,基于用户兴趣的算法推荐,部分用户数据采集可能来自于用户一时的“猎奇”“窥私”或“错误点击”,不能代表真实兴趣。作为社会关系中的不同角色,用戶有获知社会重要资讯以及与社会成员身份相匹配的信息需求。基于用户模型的信息推送方式,长期会导致用户接收信息结构单一,知识窄化,甚至造成一定阶层的知识沟加剧。
2.3 内容质量较低
由于算法过分基于“趣味性”要素以及大量自媒体内容的涌入,使今日头条内容审核的难度加大。尽管采用了“算法+人工”的方式对内容进行把关,但由于算法尚不能对优质内容进行判断,导致内容数据库中充斥着越来越多的标题党、泛娱乐化、低俗和虚假的信息内容,呈现出低质量内容累积,高质量内容被边缘化的态势。
3 内容分发算法改进探索
首先,算法能否采用更好的策略,一定程度上在于算法对人性的理解,完善算法的过程中,应加强非线性思维,将社会主流价值和人的社会属性纳入到算法取值范围中。
其次,将新闻价值判断五个维度纳入到算法当中,并加大新闻重要性的权重。进一步完善标签体系,将新闻要素与新闻规律考虑进标签体系的制定规则当中,使标签体系更好地接近平台工作需求和用户偏好,并辅助修正现阶段内容分发算法的不足。
最后,净化内容数据库,提升分发内容质量,不仅要加强与高质量原创内容创作平台和媒体机构的合作,同时在平台监管方面,应致力于在信息发布之前及传播过程中,实现虚假、低俗信息的甄别与管控。结合心理学建模,对信源信用度评级;研究利用区块链技术将多个独立信源进行对比,实现对已有信息真伪和完整场景的甄别;利用人工智能和建构知识库等方法,实现平台内容多层次、多维度的高效核查与管控。
参考文献
[1]段鹏.传播效果研究——起源、发展与应用[M].北京:中国传媒大学出版社,2008.
[2]宣言.不能让算法决定内容[N].人民日报,2017-10-5(04).
[3]王晓霞.大数据技术驱动下“今日头条”的嬗变[J].青年记者,2017(15):85.
[4]方洁,高璐.用户数据分析平台与计算机驱动新闻业——以“今日头条媒体实验室”[J].新闻与写作,2017(1):86.endprint