如何利用Spark Streaming實現UV統計

文章出處：未知責任編輯：三昆科技人氣：發表時間：2017-08-05 08:49

問題描述：首先以一個簡單的示例開始：用Spark Streaming對從TCP連接中接收的文本進行單詞計數。 /** * 功能：用spark streaming實現的針對流式數據進行單詞計數的程序。 * 該程序只是對數據流中的每一批數據進行單獨的計數，而沒有進行增量計數。

回答(1).首先以一個簡單的示例開始：用Spark Streaming對從TCP連接中接收的文本進行單詞計數。 /** * 功能：用spark streaming實現的針對流式數據進行單詞計數的程序。 * 該程序只是對數據流中的每一批數據進行單獨的計數，而沒有進行增量計數。

回答(2).首先以一個簡單的示例開始：用Spark Streaming對從TCP連接中接收的文本進行單詞計數。 /** * 功能：用spark streaming實現的針對流式數據進行單詞計數的程序。 * 該程序只是對數據流中的每一批數據進行單獨的計數，而沒有進行增量計數。 * 環境：spark 1.6.1, scala 2.10.4 */ // 引入相關類庫 import org.apache.spark._ import org.apache.spark.streaming._ object NetworkWordCount { def main(args: Array[String]) { // Spark Streaming程序以StreamingContext為起點，其內部維持了一個SparkContext的實例。 // 這里我們創建一個帶有兩個本地線程的StreamingContext，并設置批處理間隔為1秒。 val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount") val ssc = new StreamingContext(conf, Seconds(1)) // 在一個Spark應用中默認只允許有一個SparkContext，默認地spark-shell已經為我們創建好了 // SparkContext，名為sc。因此在spark-shell中應該以下述方式創建StreamingContext，以 // 避免創建再次創建SparkContext而引起錯誤： // val ssc = new StreamingContext(sc, Seconds(1)) // 創建一個從TCP連接獲取流數據的DStream，其每條記錄是一行文本 val lines = ssc.socketTextStream("localhost", 9999) // 對DStream進行轉換，最終得到計算結果 val res = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _) // 打印該DStream中每個RDD中的前十個元素 res.print() // 執行完上面代碼，Spark Streaming并沒有真正開始處理數據，而只是記錄需在數據上執行的操作。 // 當我們設置好所有需要在數據上執行的操作以后，我們就可以開始真正地處理數據了。如下： ssc.start() // 開始計算 ssc.awaitTermination() // 等待計算終止 } } 為了測試程序，我們得有TCP數據源作為輸入，這可以使用Netcat(一般linux系統中都有，如果是windows系統，則推薦你使用 Ncat ，Ncat是一個改進版的Netcat)。如下使......

回答(3).首先，需要將以下代碼編譯成jar包，然后在flume中使用，代碼轉自這里（如果發現需要依賴的工具類神馬的，請在相同目錄下的scala文件中找一找） package org.apache.spark.streaming.flume.sink import java.net.InetSocketAddress import java....

回答(4).初始化的過程主要可以概括為兩點： 1）調度器的初始化。調度器調度 Spark Streaming 的運行，用戶可以通過配置相關參數進行調優。 2）將輸入流的接收器轉化為 RDD 在集群進行分布式分配，然后啟動接收器集合中的每個接收器。

回答(5).　　初始化的過程主要可以概括為兩點：　　1）調度器的初始化。　　調度器調度 Spark Streaming 的運行，用戶可以通過配置相關參數進行調優。　　2）將輸入流的接收器轉化為 RDD 在集群進行分布式分配，然后啟動接收器集合中的每個接收器。　　針對不同的數據源， Spark Streaming 提供了不同的數據接收器，分布在各個節點上的每個接收器可以認為是一個特定的進程，接收一部分流數據作為輸入。

回答(6).參看這個貼子里面說介紹

回答(7).隨著大數據的發展，人們對大數據的處理要求也越來越高，原有的批處理框架MapReduce適合離線計算，卻無法滿足實時性要求較高的業務，如實時推薦、用戶行為分析等。 Spark Streaming是建立在Spark上的實時計算框架，通過它提供的豐富的API、基于內.

本文章由三昆廠家整理原創，轉載請注明出處：http://m.shihw.com/UVj/3691.html

上一篇：uv板裝修有什么不好 ??|??下一篇：固化后的電子投標文件是什么意思

此文TAG標簽：