close

大數據應用正在成為許多行業的主力軍。醫療保健技術公司 Cerner 與醫生合作,更準確地診斷出可能致命的血液感染。農場管理軟件公司 FarmLogs 依靠實時分析來改善生長條件、植物健康和收穫產量。在線約會網站 eHarmony 分析個人信息,目的是做出正確的匹配。

由於這些應用,大數據技術很熱,很熱,很熱:市場研究公司國際數據公司 (IDC) 預計,到 2018 年,年復合增長率為 26.4%,收入將達到 415 億美元。 作為大數據顯著影響的證據IDC 的數據顯示,這一增長大約是整體信息技術 (IT) 市場的六倍,後者在 2015 年以 3.8% 的速度增長。

儘管存在所有 Hadoopla,但企業發現大數據部署往往佈滿了潛在的陷阱。這些應用程序不遵循典型的部署過程,因此開發人員必須跳出框框思考和行動。初始推出成本可能很高,投資回報 (ROI) 可能不確定,因此啟動新項目可能具有挑戰性。處理海量數據意味著程序員必須防範潛在的性能問題。

但是程序員可以通過設定明確的期望、從小處著手並清理源頭附近的數據來採取措施來增加成功開發的可能性。以下是專家的七項建議。

1.不要像對待其他項目一樣對待大數據

“部署大數據應用程序與使用其他系統不同,”Gartner 研究總監 Nick Heudecker 說。大數據供應商不提供現成的解決方案,而是銷售企業以不同方式聯繫在一起的各種組件(數據庫管理系統、分析工具、數據清理解決方案)。因此,開發人員幾乎找不到加快部署的捷徑(預製應用程序或可用組件)。

此外,每家公司的數據及其關聯的價值都是獨一無二的,因此從項目概念到生產沒有一條簡單的直線。相反,開發人員必須與業務部門密切合作,制定並不斷完善設計要求。最終的結果是很多開發工作都落在了企業的肩上。事實上,根據 Nucleus Research, Inc. 分析師 Anne Moxie 的說法,與大數據相關的 72% 的成本來自人員。當開始一個項目時,開發人員需要準備好坐下來,捲起袖子,深入挖掘一個漫長的,有時是乏味的過程。

2.用鉛筆寫規格,而不是鋼筆

定義清晰的項目目標是另一個領域,其中大數據對 IT 專業人員來說是一個奇怪的鴨子。通常,管理層會在項目開始時設定明確的目標——例如,改進網頁的用戶界面。但是在大數據項目的開始階段,目標往往是模糊的,這通常只是關於探索。公司挖掘大量數據,希望(通常不能保證)發現有價值的業務洞察力,從而簡化流程或增加銷售額。在項目開始時,潛在的收益通常在很大程度上是不確定的,只有隨著工作的展開,它們才會變得更加清晰。

大數據應用開發是一個需要耐心和信心的迭代過程。Gartner 的 Heudecker 說:“一家公司可能會在第 20次嘗試之前走上錯誤的軌道 19 次。” 開發人員需要為這樣一個過程做好準備:最終目標是一個模糊的希望而不是一個明確的目標,並且下一步經常會改變(有時是廢棄)前一個步驟。

3.考慮長期而非短期的投資回報率

通常,在高層管理人員批准一個新項目之前,他們希望了解其潛在的回報。一種常見的成本合理性方法是投資回報率,其中衡量項目的潛在價值與其初始成本。“通常,新項目承諾增加收入或減少支出,”Nucleus Research 的 Moxie 說。

在大多數情況下,項目開始時回報是顯而易見的,但如前所述,大數據並沒有這樣的保證。事實上,公司最初在他們的大數據項目上損失了很多錢:Wikibon.com發現首次項目每花費 1.00 美元就可以交付 0.55 美元。

這樣的結果對高層管理人員來說是不受歡迎的消息。因此,開發人員需要將執行重點從現在轉移到未來。Market Drum Corporation 董事總經理 Samar Forzely 指出:“大數據項目承擔著巨大的風險,但也帶來了巨大的回報。” 在某些情況下(最終)確實會出現顯著的回報;例如,根據 Moxie 的說法,度假勝地通過將其調度流程與國家氣象局數據同步,將其勞動力成本降低了 200% 以上。

4.從小而便宜開始

毫不奇怪,大數據很大。“一個客戶有 50 TB 的信息可供他們使用,”專門從事大數據應用程序開發的 Dave Beulke & Associates 總裁 Dave Beulke 說。隨著物聯網的形成,更多的信息將被收集。毀掉一個新項目的一種方法是追星。大型項目可能耗資數百萬美元。董事會不會輕易批准此類支出,尤其是在回報如此微薄的情況下。

相反,開發人員必須與業務部門合作並說服他們從有限的概念驗證項目開始。“沒有必要立即購買新的 Hadoop 數據庫和支持它所需的基礎設施,”Market Drum 的 Forzley 說。“在許多情況下,開發人員可以利用現有的部門數據池並限制初始大數據投資。” 從小處著手使程序員和業務用戶能夠更加熟悉該技術並建立在他們的經驗之上。

5.讓用戶玩

與典型的 IT 項目相比,大數據涉及的藝術多於科學。開發人員需要確保他們的系統是靈活的,以便員工可以“玩”信息。根據 Gartner 的 Heudecker 的說法,滿足這種需求的一種方法是構建沙箱,數據科學家和業務用戶可以在其中對數據進行實驗——最好是使用他們熟悉的工具、語言和環境。

分面搜索可能是另一個有用的工具。傳統上,數據庫管理系統將信息存放在嚴格的分層系統中,只允許通過一種方式訪問數據。分面系統沿多條路徑對每個信息元素進行分類,稱為分面。採取此步驟使數據能夠以多種方式訪問和排序,而不是以單一的、預先確定的方法。

註釋工具是包含在大數據系統中的一個很好的功能。此功能使員工能夠添加對數據的見解和解釋,然後將其發送給同事以徵求意見。這種互動對於產生需要進一步評估的領域至關重要,並且在理想情況下會導致“啊哈”時刻,管理人員共同努力以獲得對業務運營的新見解。

6.在用戶界面設計上花額外的時間

大數據項目的成敗取決於員工處理信息的能力。一項挑戰是將大量複雜數據轉換為簡單、可操作的業務信息。“開發人員需要確保應用程序算法健全且系統易於使用,”Moxie 說。

在後台,開發人員與數據科學家合作微調複雜的數學公式。前台是一個用戶,他通常技術不熟練,可能在數學上受到挑戰。因此,應用程序必須過濾數據並以易於遵循的方式將其呈現給員工,以便他們可以進一步探索。“很多時候,公司會向用戶提供過多的信息並使他們不知所措,”Beulke 說。

作為回應,用戶界面設計師越來越成為大數據開發團隊的關鍵成員。這些人是了解用戶如何與信息交互的專家,因此有助於消除潛在的混亂並為用戶提供流暢的界面。

7.關注性能

今天,使用大數據應用程序的員工期望即時結果,即使他們輸入篩選數百萬條記錄的複雜查詢也是如此。因此,開發人員必須確保他們的大數據應用程序不會出現性能瓶頸。存儲系統是一個潛在的問題領域。“開發人員需要密切關注系統 I/O;大數據應用程序會產生大量讀取和寫入,”Beulke 指出。

減少潛在延遲的一種方法是清理源頭附近的信息。組織使用來自各種不同數據庫管理系統的信息,這些系統以不同方式對數據進行分類。會計部門可能有 9 個字段的客戶記錄,而服務部門可能有 15 個字段的記錄。隨著信息的整合,開發人員需要確保數據看起來相同,這個過程稱為“數據清理”。在數據源附近進行這些更改意味著向公司基礎設施添加的流量更少。

存儲是影響性能的另一個領域。隨著數據集變得越來越大,快速處理它們的挑戰也隨之增加。開發人員可以對數據進行分區,將舊的或“幾乎陳舊的”數據與新信息分開。另一種選擇是分層存儲解決方案。在這裡,數據的貨幣決定了它的存儲位置。例如,經常使用的數據存放在閃存或快速硬盤系統中。不太常用的數據可以放在第二個更便宜的層中。陳舊數據可以放在速度較慢的大容量介質上,甚至可能放在磁帶上。

也許你也有興趣:

大數據的好處和應用

什麼是大數據及其應用?

arrow
arrow
    全站熱搜

    cenawrestling55 發表在 痞客邦 留言(0) 人氣()