Netflix比你更瞭解想看什麼大數據推敲出觀影習慣 (131944)

Q: 採用強大且可擴充的特殊 Hadoop 資料平台架構

根據統計，Netflix 數據平台每天接收的資料約 1.3PB 資料（ 約 5000億次事件），如果是在尖峰時段，則是每秒約 24GB 資料（800 萬次事件）），因此免不了一定是採用 Hadoop

tw-zh-20171218-popsignuptwoweeks-perspective_alpha_website_large

Netflix 能竄起成為世界首屈一指，提供多媒體影音串流服務的 OTT（Over The Top）業者絕非僥倖，它已經憑藉著精細、準確的巨量數據分析，成功地從單純提供網路串流影音服務跨到影音內容製作，絕對是網路影音時代的成功典範。

從實體 DVD 租賃轉向影音串流服務

Netflix 於 1997 年在美國加州成立，然而當時提供的並不是多媒體影音串流服務，而是 DVD 租賃服務，在當時提供 DVD 租賃最知名的是現在已經謝幕的百視達（BlockBuster），百視達當時採取的是消費者自行到實體門市取片與還片的模式，然而 Netflix 卻完全捨棄實體通路，而推出會員訂閱制，顧客每個月支付月租費後，直接在網站上從數萬部的影片庫中，選取並列出想看的影片清單，Netflix 會依照不同月租費費率，寄出數量不等的 DVD 給顧客，等顧客把 DVD 寄還後，再寄出清單上的其它 DVD。

雖然會員訂閱制大獲成功，2007 年甚至宣布第 10 億張出租 DVD 的驚人數字，但是著眼於 DVD 租賃市場即將飽和，以及網路速度提升後網路影音服務的潛力，Netflix 在同年也宣布啟動多媒體影音串流服務，2010 年從鄰居加拿大開始，將觸角從美國伸向海外，並陸續進軍歐洲與亞洲市場，截至 2016 年 10 月為止，已經在超過 190 個國家提供服務，訂閱會員超過 8,600 萬，Netflix 在 2011 年 3 月起，更從單純的影音串流服務平台業者，跨足內容生產領域，推出紙牌屋（House of Cards）影集後一炮而紅，成為 Netflix 的招牌作品。

根據最新一季的統計資料，Netflix 在 2016 年 Q3 的會員數增加了 350 萬，並且創造了有史來最佳的季度營收 22 億美金，其中有 40% 都是來自美國以外的市場，Netflix 的成功不只來自具競爭力的訂價（美國地區月費最低 8 美金起跳），方便的即選即看模式，甚至是成功的行銷策略，更重要的是它鉅細靡遺的巨量數據分析帶來的影片推薦系統。

在 Netflix 仍只是提供 DVD 租賃業務時，唯一能掌握的使用者喜好資料，只有每次使用者填寫的影片星數評比，這也是當時 Netflix 優化推薦系統的唯一數據，然而，在開始進入多媒體影音串流服務後，就開始有了大量的數據可以進行分析，例如使用者看了什麼，使用者怎麼看的（哪種裝置、幾點鐘看的、星期幾看的、一次會看多久），點選 Netflix 的頁面上哪個地方的影片，甚至哪些推薦影片是完全沒被點過的等，這些數據以及這些數據分析出來的結果都被用來讓 Netflix 預測使用者究竟想看什麼影片。

透過 Netflix 網站服務鉅細靡遺的收集使用者行為

當使用者開始登入 Netflix 觀賞影片的時候，Netflix 就會將一個觀看（view）記錄在資料系統內，並且利用各種事件（events）來描述這個觀看行為，也就是使用者從訂閱開始，產生的每一個行為，都會被紀錄成事件，包括使用者的搜尋、評分、觀看地點、裝置資訊、瀏覽 Netflix 網站行為、時間、日期，或者是快轉、暫停，以及觀看地點，裝置資訊，其它第三方資訊，甚至是社群網站資料。

在Netflix 的網站的隱私權聲明，詳述了所收集的資訊：

資訊收集

我們收到和儲存您的資訊，如：

您向我們提供的資訊：我們收集您向我們提供的資訊包括：
您的姓名、電郵地址、住址或郵遞區號、付費方式和電話號碼。我們通過多種方式收集這些資訊，包括您使用我們的服務時輸入的資訊、與我們的客戶服務互動或參與調查或促銷活動時輸入的資訊；以及
在您選擇撰寫評論或評分、愛好設定、帳戶設定、設置「您的帳戶」偏好或以其他方式通過我們的服務或在其他地方向我們提供資訊時，收集到的資訊。
我們自動收集的資訊：我們收集有關您、您使用我們的服務、與我們的互動及您使用我們廣告的資訊，以及有關您使用電腦或其他裝置（如：遊戲系統、智慧型電視、行動裝置和機上盒）存取我們的服務的資訊。這些資訊包括：
您在 Netflix 服務的動態，如：標題選擇、觀看歷史和搜索查詢；
有關您與客戶服務互動的詳情，例如：您聯繫我們的日期、時間和原因、任何聊天對話記錄以及您致電聯繫我們時的電話號碼；
裝置 ID 或唯一識別碼，裝置和軟體的特點（如：類型和配置）、連接資訊、網頁查看、推薦 URL、IP 位址和標準網路日誌資訊統計；
通過使用 Cookie、網路信標與其他技術而收集的資訊，包括廣告資料（如：傳輸至 Cookie 的頁面印象資訊、頁面印象傳輸的網站 URL 以及日期和時間）。如需更多詳情，請參閱 Cookie 與網際網路廣告章節。
從其他來源獲取的資訊：我們可能用從其他來源獲取的資訊（包括來自線上和離線資料提供者的資訊）補充上述資訊。此類補充資訊可能包括人口資料、基於興趣的資料和網際網路瀏覽行為。

收集的資訊使用在何種用途，也註明在「資訊使用」一節：

資訊使用

我們使用所收集的資訊來提供、分析、管理、提升我們的服務和行銷工作，使我們的服務和行銷工作個人化，處理您的註冊、您的訂單和支付，並與您就這些主題和其他主題進行溝通交流。例如，我們把所收集的資訊用於：
判定您的大致地理位置、以當地語言提供內容、向您提供客製化和個人化觀影推薦、推薦您我們覺得您會喜歡的電影與節目、判定您的網際網路服務提供者以及幫助我們迅速有效率地回應您的詢問及要求；
防止、監測和調查潛在的被禁止或非法活動（包括詐欺），以及執行我們的條款（如：決定免費試用資格）；
分析和瞭解我們的觀眾；改進我們的服務（包括我們的使用者介面體驗）、傳輸最佳化、內容選擇和推薦演算法；
與您溝通交流我們的服務（例如：通過電郵、推送通知和簡訊），以便我們可以向您發送有關 Netflix 公司的資訊、Netflix 新功能和內容的詳情、特別優惠、促銷消息和消費者調查，並協助您辦理密碼重設等操作請求。請參閱本隱私權聲明的「您的選擇」章節，瞭解如何設置或更改您的通訊偏好設定。

使用者這次的觀看花了多少時間，資料系統就要持續記錄過程中發生的所有事件，因此就需要一個強大且具擴充性的資料平台架構才能處理這麼龐大的資料，而這也是 Netflix 能成功的最重要關鍵。

採用強大且可擴充的特殊 Hadoop 資料平台架構

根據統計，Netflix 數據平台每天接收的資料約 1.3PB 資料（約 5000億次事件），如果是在尖峰時段，則是每秒約 24GB 資料（800 萬次事件）），因此免不了一定是採用 Hadoop 平台架構處理，並且一定要持續在擴充容量，然而 Netflix 的 Hadoop 平台，和傳統以資料中心為基礎的 Hadoop 平台不同，Netflix 直接在雲端上建立了一個幾乎擁有無限儲存空間且無限運算能力的資料倉儲（data warehouse）。

一般的 Hadoop 平台架構，其檔案都是儲存在 Hadoop 分散式檔案系統（Hadoop Distributed File System, HDFS），Hadoop 分散式檔案系統可以在一般的商用硬體上面運作，並且對大型資料集提供容錯與高通量存取，因此多數公司的傳統作法，都是將資料倉儲建立在雲端 Hadoop 集群上的 Hadoop 分散式檔案系統。然而，Netflix 卻是選擇把資料儲存在亞瑪遜雲端服務（ Amazon Web Service, AWS）S3 上。

▲Netflix 的 Hadoop 平台架構圖（資料來源：Hadoop Platform as a Service in the Cloud）

架構圖中最底層的 S3 是用來儲存所有值得保存的資料集，包括每個小時從 Netflix 服務上傳過來的數十億計的各種事件，以及其它的維度資料（dimension data）。S3 保證具有 99.999999999% 的持續性（dutality），以及 99.99% 的可用性（availability），能夠容許兩個裝置同時損失資料；同時也可以允許存在多版本資料，使用者不小心誤刪就可以將資料回復；S3 也具有可以隨時無限擴充的彈性，不需要替未來的資料預留儲存空間；S3 也可以同時運作多個、高度動態集群。

Netflix 在處理巨量數據上，則是採用 Amazon’s Elastic MapReduce (EMR) distribution，這是一種能夠簡易地快速及低成本的處理大量資料的網路服務，用來針對同樣一批資料，同時啟動多個 Hadoop 集群來處理不同的工作負載（workloads）。在 Netflix 的 Hadoop 架構的工具層裡，使用了 Hive 來處理即時查詢（ad hoc queries）與分析（analytics），用 Pig 處理 ETL 跟演算法，以 Vanilla java 為基礎的 MapReduce 也偶爾用來處理複雜的演算法，Python 則用來製作腳本。

Netflix 在工具層之上則採用了 Genie，這是它們自建的 Hasoop 平台即服務，讓Netflix 可以方便的在 Hadoop 環境中進行工作處理與資源調度。下一篇將會介紹Netflix如何利用這些數據達成精準的推薦系統。

14 則回應

Facebook 粉絲專頁

 Jorsh Young

可是我不跳OPED的習慣過了這麼久也不見netflix有搞懂啊？XD

2018-01-23
Facebook 粉絲專頁

 廖士豪

然後就被 Netfilx 拿來編成 Black Mirror 了......

2018-01-22
Facebook 粉絲專頁

 鄧小昌

最可怕的是淘寶吧....

2018-01-22
Facebook 粉絲專頁

 寒月

連上網就是可怕的開始，會怕就當原始人吧。

2018-01-22
Facebook 粉絲專頁

 Cheng Yi Jian

跟FB來比。小兒科而已
古人說：凡走過，必留下足跡
現在是：只要你上網，資料必定被蒐集
大家都逃不掉的拉
不管你上過什麼網站用過什麼App
只要你開了網路，然後開始使用
有心人士想要了解你
簡直比登天還容易
很多人還真以為
網站聲明會保有你的隱私
我只能，呵呵

2018-01-22
Facebook 粉絲專頁

 潶周

都是這樣子吧

2018-01-22
Facebook 粉絲專頁

 Anna Tam

很多人分不清自己資料被收集用來了解客戶需求與被監視是兩回事。別再相提並論了

2018-01-22
Facebook 粉絲專頁

 Richie Wang

可怕的是FB吧

2018-01-22
atticus

Netflix 是我現在唯二使用的付費OTT，另一個是MOD

2018-01-21
Smallta Chen

但我覺得spotify 推薦得更對胃口XD

2018-01-19
- atticus
  
  我更希望有全部影片的分類選擇
  
  2018-01-21
- atticus
  
  我也不愛 Netflix 的推薦
  
  2018-01-21
abokuo

Netflix 用的儲存服務是 Amazon S3。（寫寫）

2018-01-18
- atticus
  
  S3很貴，而且 S3 是 amazon 的不怕脖子被掐住嗎？
  
  2018-01-21