幫助更多的人
做更好的視頻!

抖音的算法,是如何把你束縛在信息繭房里的?

今天vv直選的測評員一起和你探究一下抖音的算法哪些小秘密:

一、背景

隨著互聯(lián)網時代(特別是移動互聯(lián)網)的到來,信息如同《三體》里“技術爆炸”一般,呈現(xiàn)出“信息爆炸”的狀態(tài)。

每天以EB為單位的信息量誕生在互聯(lián)網的每個角落。預計到2025年,全球每天產生的數(shù)據量將達到491EB(1 EB=1024 PB=1048576 TB)。

在這種情況下,消費者對于信息的獲取無疑變得更加的主動且豐富。

但豐富,并不意味著有效。

紙媒時代尚且有專業(yè)的編輯對內容進行篩選、排版后“分發(fā)”給消費者。

但對于互聯(lián)網產品來說,即使內容再豐富,用戶如果不感興趣也是無效內容。

“效率”始終是商業(yè)社會的本質之一。低效意味著隨時有可能落后或被淘汰。

為了解決這一問題, 淘寶最早再在2013年提出“千人千面”的概念。

依托淘寶網十年發(fā)展積累下來的龐大數(shù)據庫,從細分類目中抓取那些與買家興趣相匹配的商品,進行優(yōu)先展現(xiàn)。

而每個在淘寶網上購買或是瀏覽過商品的消費者,都會被平臺打上標簽,比如年齡、地域、客單價、收藏偏好等。

標簽的不同,在千人千面模式下,用戶所看到的產品自然就會有所差異。

更有效率的內容分發(fā)方式,由此從野蠻生長進入到精細化運營的時代。

到了以“算法驅動”為核心理念的張一鳴手里,今日頭條、抖音等產品更是在這種理念下飼養(yǎng)出來的洪水猛獸。

因此作為一名互聯(lián)網人,即使不用動手去寫編程算法,但了解相關算法知識、懂得相關內容分發(fā)與推薦機制背后的基本原理,也有利于更上一個認知的新臺階。

二、算法推薦系統(tǒng)的兩個核心

(一)抖音為何讓人如此上癮?

許多人或許會有這樣的體驗:

在不同的場景下(在家、地鐵、公司)、不同的時間點(早上、中午、晚上),即使是同類型的電影,實際上所接收到的內容也略有差別。

例如白天大多會收到比較幽默的內容,而到了晚上則會收到略帶懸疑的影視剪輯片段等。

而無論是什么時候打開抖音,它都能讓用戶沉浸其中,似乎感覺不到時間的流逝,往往一下子能過去一兩個小時。

你會發(fā)現(xiàn)抖音似乎很懂你,因為給你推送的內容全都是你喜歡看的。

拋開抖音的產品設計、沉浸式消費體驗、短平快的內容節(jié)奏等,這其中還涉及到算法推薦機制和運營策略等因素。

而內容的個性化分發(fā),本質上用一句大白話就可以解釋:

讓喜歡看妹子的用戶,看到含有妹子的內容。

但在現(xiàn)實環(huán)境中,放眼互聯(lián)網,能把這句話做好的公司其實沒幾個。

那么問題到底難在哪里呢?

(二)給內容打標,沒有想的那么簡單

給標簽定義難,給內容打標也難。

在給一篇內容打上標簽之前,首先需要做的是給標簽做定義。

即講清楚什么是蘋果,什么是梨,而不是把蘋果叫成梨。

一篇內容通常包括一級分類、二級分類、三級分類、標簽等幾個層次。

如動漫>日漫>火影忍者>鳴人等。

對于這些具有普遍性認知的分類跟標簽來說,通常比較好下定義。

但是對于搞笑、美女這樣的標簽,則因人而異。

因為每個人的笑點不同、審美不同。

到底什么內容才算好笑、多好看才算美女?

蘿卜青菜各有所愛,打標還沒開始,就先卡在定義上面。

這里其實就涉及到兩個概念——實體標簽跟語義標簽:

1.實體標簽

廣州就是廣州、上海就是上海;馬云就是馬云,淘寶就是淘寶。

他們都是確定的實體,通常在不同人那里不會產生太大的歧義。

2.語義標簽

如沙雕、美女、奇葩等詞,并沒有確定的指定對象。

在不同人那里會有不同的認知,因此打標難點通常出現(xiàn)在語義標簽的定義上面。

語義標簽的推薦效果是檢驗一個公司NLP(自然語言處理)技術水平的試金石。

不同公司根據其業(yè)務能力或需求的不同,對標簽顆粒度的要求也不同。

比如有的公司拆分到火影忍者就不往下拆了,直接把這個詞當作最小顆粒度的標簽。

所有涉及到這部動漫的內容都可以打上這個“火影忍者”標簽,但是難免有種一刀切的感覺,對后續(xù)的運營工作也有影響。

比如有的用戶想看、或者想搜索“鳴人”,結果推送的、搜索出來的全都是“火影忍者”里面的其他人。

而有的公司則繼續(xù)往下拆:例如拆到火影忍者>鳴人、佐助、小櫻等實體標簽。

因此可以看得出:標簽顆粒度越細,推薦的內容越精準,同時所需要投入的資源則越多。

即使把整個公司的打標團隊拉到一個會議室里面,大家通過統(tǒng)一培訓、講解,一個月后大家終于對什么才算是美女有了一個統(tǒng)一的認知,審美逐漸相同。

那么打標就可以順利開展了嗎?NO!

讓我們先喝口水緩一緩,然后再接著往下繼續(xù)聊。

(三)用戶標簽:可能是最難搞的部分

1.用戶口味就像個難哄的女朋友

比內容標簽難度更大的便是用戶標簽。

因為火影忍者就是火影忍者,一旦打上這個內容標簽,它就不會變成海賊王。

內容標簽尚且可以通過人工打標+機器訓練的方式進行。

用戶不一樣,可能這個月他喜歡看火影忍者,算法推薦機制也給他匹配了相關的內容。但是下個月他可能因為朋友或同事的推薦開始看海賊王了。

如果算法還沒反應過來,繼續(xù)給他推送火影忍者的相關內容,此時這些內容對他來說便是無效內容,從而影響了內容的分發(fā)效率。

好比胡蘿卜一直是胡蘿卜,但是用戶的口味卻一直在變化。

今天想喝湯,明天想吃肉。

這里其實涉及到“推薦窄化”的問題,算法機制越差的產品,其推薦的內容越容易出現(xiàn)窄化。

如不小心點擊了幾篇文章,算法便默認你喜歡這一類內容,此后便一直推送相關信息,無法做到根據用戶的需求變化進行靈活更迭。

盡管在這個時代,無論使用哪一款內容產品,都不可避免的會出現(xiàn)“信息繭房”的現(xiàn)象,但成熟的NLP技術與初級之間,實際的產品體驗效果仍是天差地別。

2. 掌握用戶的基本信息

在做用戶標簽之前,需要先掌握跟用戶相關的信息,通常包括性別、年齡、地點、興趣偏好等。

1)性別有助于分發(fā)性別屬性較明顯的內容:如給男生推送體育、給女生推送美容護膚;

2)年齡也同理:給年輕人推送動漫、游戲等內容,給老年人推送養(yǎng)生、健康信息等;

3)地點則用于推送與區(qū)域熱點相關的信息:如給上海用戶推送上海突發(fā)新聞,北京限行對于廣州用戶似乎沒有多大影響。

以上三者通常可以通過用戶自動填寫、授權訪問位置信息的方式獲取,且不會有太大的變動。

3.掌握用戶興趣偏好

對于用戶興趣偏好,如上所說,則是做用戶標簽的難點所在。

獲取用戶興趣偏好采用的方式,是根據用戶消費過的內容匹配相應的標簽,通常采取以下幾種方式進行定位:

1)過濾噪聲:如用戶被標題黨內容吸引進去,但是停留時間過段,則說明用戶對該內容所綁定的標簽不感興趣,以此來過濾標題黨;

2)熱點降權:對一些社會熱點、突發(fā)新聞(如某明星出軌),雖然短時間內用戶瀏覽了相關信息,但并不能說明該用戶一定對“娛樂”內容特別感興趣,需要對該用戶的“娛樂”興趣偏好進行降權處理;

3)時間衰減:如上所說,用戶的興趣會發(fā)生偏移,因此推送策略需要更偏向于新的用戶行為;

4)懲罰展現(xiàn):如果一篇推薦給用戶的文章沒有被點擊,則該內容的相關特征(如內容分類、標簽)權重會被降低。

舉一個十分簡單的例子:

如某新注冊用戶(女,25歲,上海)在刷抖音時,算法采用A-A、A-B的方式進行測試。

首先連續(xù)推送兩條影視剪輯內容(A-A),用戶都完整觀看并有點贊、評論等操作;

其次推送影視剪輯后推送母嬰內容(A-B),用戶只觀看了影視剪輯內容,卻劃走了母嬰內容。

那么則說明用戶對“影視剪輯”這一內容的興趣偏好度較高,對“母嬰”標簽內容興趣偏好較低。

4. 不同內容類型的推薦權重

我們都知道對于綜合型平臺而言,內容通常不止一種類型,如今日頭條便包含了長圖文、小視頻、短視頻、問答、微頭條等幾種不同形態(tài)的內容。

即使是同一個標簽,如“美女”,不同內容類型的推薦權重是否一樣?這也是算法推薦機制需要考慮的問題。

三、如何衡量推薦系統(tǒng)的好壞

內容推薦的準不準,通??梢灾苯訌臄?shù)據上去分析。

CTR(點擊率)、消費時長、點贊、評論、轉發(fā)數(shù)等“可量化指標”。

如Y=F(X1,X2,X3),Y代表內容可被加大曝光的權重,X代表點贊、評論等實際參數(shù)。

評論數(shù)的影響權重通常大于點贊權重,不同平臺由于產品差異對于參數(shù)的權重設置也有所不同。

而不同的用戶因其賬號“置信度”的差異,即使點贊了同一條內容,對該內容的影響權重也有差異,如某知乎大V點贊跟普通賬號點贊的權重顯然是不一樣的。

但有時數(shù)據也有缺陷。如對于低俗、標題黨、涉黃內容,如果短時間內吸引了大量用戶點擊瀏覽,那么算法能判定其為好內容,并加大推送量嗎?

答案顯然是否定的。

因此通常需要打壓降權的內容主要有以下幾種:

1)廣告、低質搬運內容打壓;

2)涉黃、低俗惡心內容打壓;

3)標題黨、低質賬號內容降權等。

基于社會責任感和政策法規(guī)等因素,平臺需要對該部分內容進行打壓、降權,而對重點時事新聞進行置頂強插。

這些都是算法無法獨立完成的,需要運營配合進行。許多資訊平臺都會有專門的首頁運營小組對內容進行人工干預。

大多數(shù)APP日常通知欄PUSH的內容也是采取算法+人工的方式進行推送的。

四、總結

回到開頭所說:要讓喜歡看妹子的用戶看到含有妹子的內容。

這句如此簡單的話想要實現(xiàn)它,需要做到:

1. 內容標簽的準確定義、準確打標

因為不同的人對于同一個語義標簽會有不相同的認知。

2. 用戶標簽的準確匹配

清楚用戶對于哪種“妹子”興趣偏好度更高:是長發(fā)妹子?還是短發(fā)妹子?是南方人還是北方人等等顆粒度更細的拆分。

用戶標簽是建立在內容標簽打的足夠準確的前提條件之上的,一步錯則步步錯。

如果內容標簽無法準確判斷,那么基于內容標簽建立起來的用戶標簽也是不可信的。

3. 算法訓練

要想訓練機器能夠自動打標,往往一個“標簽”就需要訓練幾個星期的時間。

通常采用抓取標題關鍵詞的方式打上內容標簽,但有時標題與文章或視頻里面所有表達的內容其實有很大出入,因此打上的標簽很有可能是不準確的,需要人工進行復核,判斷其準確率。

綜上所述,如今算法分發(fā)幾乎已經是所有搜索引擎、資訊軟件、內容社區(qū)、社交軟件等產品的標配。

算法代表著用系統(tǒng)的方法去描述、解決問題的策略機制。

因此無論你是一只產品汪、還是一只運營喵,了解了內容平臺的基本算法原理,無論是對于產品推薦機制的設計,還是對平臺運營策略的構建,都能有所幫助。

贊(1)
本站內容僅供個人學習交流,不允許用于商業(yè)用途,否則法律問題自行承擔。侵權請聯(lián)系刪除,如轉載,請保留文章鏈接:http://josephjomopierre.com/12355.html

抖音培訓教學 更專業(yè) 更方便

聯(lián)系我們抖音教程

登錄

找回密碼

注冊