【Data 101 第 1 期】大數據其實不只是「大」?一次搞懂 4V 關鍵概念
大數據 (Big Data) 是什麼?別再只看資料量!立即閱讀本文,3 分鐘掌握 Volume、Velocity 等四大關鍵特徵,輕鬆理解數位化營運必備的數據觀念。
嗨!歡迎來到《JT用數據說故事》Data 101 專欄
在過去幾年工作經驗,因為工作需求需要在公司內部分享一些數據相關的知識給內部同仁,藉此提升組織內部的數據素養,也開啟每個月整理一些簡單的數據知識觀念在內部分享。
在不涉及公司內部的資訊,我整理過去的內容同步發表在個人部落格中,希望給想要踏入資料領域的你增加一些不同的知識觀點。
若喜歡這樣的內容,歡迎在下方訂閱我的部落格!
什麼是大數據?
大數據其實就存在於我們的日常生活中。舉凡網頁瀏覽紀錄、線上的購物消費紀錄、Facebook 上的留言按讚,甚至是 YouTube 的影片觀看次數,這些都是數據的足跡。當這些資料的累積量龐大到傳統的資料庫系統無法在合理時間內進行儲存、運算及處理時,它就跨入了「大數據」的範疇。
在企業內部有從第一方到第三方的數據來源,當這些不同來源、巨型的數據集組合在一起時,我們就稱之為「大數據」或「巨量資料」。
大數據的四大特徵:4V
要判斷資料是否為大數據,我們通常會用 4V 來進行檢視:Volume (大量)、Velocity (快速)、Variety (多樣) 以及 Veracity (真實)。
1. Volume(資料量大)
這是最直觀的特徵。大數據的規模通常不是以 GB 計算,而是達到 TB (Terabytes)、PB (Petabytes) 甚至 EB (Exabytes) 的等級。想像一下全台灣每天產生的交易紀錄或全球的搜尋紀錄,那個量級就是 Volume 的體現。
2. Velocity(資料即時性)
在這個數位時代,使用者每一秒都在產生大量數據。大數據強調的是快速處理資料的效率,必須要在資料生成的當下或極短時間內完成捕捉與分析,才能掌握稍縱即逝的商機。
3. Variety(資料多樣性)
數據不再只是乖乖躺在 Excel 表格裡的數字。大數據包含了結構化與非結構化的資料,透過分析這兩者的關聯性,我們能找出更深層的洞察。
結構化資料 (Structured Data):指的是有固定欄位、格式和順序的資料。例如電商銷售資料庫,裡面有清楚定義的「購買日期」、「購買品項」、「購買金額」等欄位。
非結構化資料 (Unstructured Data):這類資料沒有固定格式,卻佔了資訊的大宗。例如:社群媒體上的貼文、電子郵件內容、網頁資訊、影像、音樂圖片等。
4. Veracity(資料真實性)
數據量大雖然好,但如果都是錯誤的資訊就沒有意義了。Veracity 指的是資料的可信度與品質。在分析過程中,我們必須過濾掉異常的部分,防止這些「髒資料 (Dirty Data)」影響數據品質,進而導致錯誤的商業決策。
▍結語
大數據不僅僅是「很多資料」,它更是一套關於如何快速處理多樣化資訊、並從中提煉出真實價值的技術與思維。掌握這 4V 概念,能幫助我們更好地理解公司目前的數據策略與儀錶板背後的邏輯。
希望這期的內容能幫助大家對數位數據有更清晰的認識,讓我們一起享受探索數據的樂趣吧!



