Big Data

by binhtruong

A Revolution That Will Transform How We Live, Work, and Think

9780544002692_p0_v1_s260x420

(bìa sách: Big Data, nguồn: Internet)

Big Data (tạm dịch là dữ liệu lớn) đang trở thành một xu thế hot trong những năm gần đây tại các diễn đàn công nghệ cũng như các trang tin chuyên ngành kinh tế, kỹ thuật. Đi kèm với nó là rất nhiều sách liên quan cũng được xuất bản, nhưng chọn cuốn nào để đọc lại tùy thuộc vào công việc, lĩnh vực của mỗi người.

Tôi chọn cuốn Big Data – A Revolution That Will Transform How We Live, Work, and Think của Viktor Mayer và Schonberger Kenneth Cukier bởi nội dung của cuốn sách bám sát vào các vấn đề thực tiễn như y tế, kinh tế, giao thông, xã hội, phòng chống tội phạm.v.v… Và các vấn đề này được giải quyết dựa trên việc tổng hợp lượng lớn dữ liệu, phân tích rồi đưa ra dự đoán về xu thế.

Xuyên suốt cuốn sách, 2 tác giả luôn nhắc nhở người đọc về cách thức sử dụng dữ liệu lớn với phương châm tìm hiểu “cái gì” chứ không phải “tại sao“. Nghĩa là khai thác dữ liệu từ những mảnh vụn có phần “vô nghĩa”, tái cấu trúc nó, phân tích với những thuật toán và công cụ xác suất thống kê, rồi từ đó để dữ liệu “tự nói” lên thông tin hữu ích.

Sách mở đầu với việc mô tả hiện trạng áp dụng Big Data ở Mỹ và các nước tiên tiến trên thế giới, với sự góp mặt điển hình của các “ông lớn” như Google, Amazon, Walmart, IBM, v.v… Các hãng lớn từ lâu đã và đang thu thập đủ loại dữ liệu về người dùng internet, khách hàng, thời tiết, thiết bị thông tin y tế… với mục đích mang lại các dự đoán có giá trị cho chính bản thân hãng cũng như các đối tác.

Dưới góc nhìn Big Data, ta sẽ hiểu rõ hơn về giá trị của những thông tin tưởng như “bình thường” của Facebook (số lượng like, comments), của Twitter (còn gọi là dữ liệu tư duy, suy nghĩ của hàng triệu người dùng) hay Instagram. Đối với trường hợp Instagram, bấy lâu nay, khi xem lại một bức ảnh cũ, cá nhân tôi thấy Intargram chỉ ghi chung chung rằng bức ảnh này được đăng tải mấy tuần trước (hoặc mấy ngày trước đó) mà không ghi cụ thể, chính xác ngày nào (hoặc đếm chính xác bao nhiêu ngày trước). Tại sao? bởi với dữ liệu lớn, bạn chỉ cần biết xu thế, biết một con số chung “áng chừng” hoặc “trong khoảng” bao nhiêu ngày mà không nên “đòi hỏi” một sự chính xác tuyệt đối. Vì sao ư? Bởi sự chính xác tuyệt đối là giá trị của dữ liệu nhỏ.

Các chương tiếp theo của cuốn sách tập trung vào việc dữ liệu hóa cũng như xác định giá trị của dữ liệu, xác định chuỗi giá trị mà qua đó các doanh nghiệp, cá nhân, tổ chức tham gia vào các phân đoạn của thị trường Big Data. Có một nghịch lý hiện tại trong thị trường Big Data đó là các doanh nghiệp nắm giữ một lượng lớn dữ liệu (thường họ có được do thu thập, lưu trữ qua nhiều năm dựa trên công tác kinh doanh của họ) lại không / hoặc chưa biết cách khai thác lượng dữ liệu lớn này một cách hiệu quả, hữu ích. Nếu như Google khai thác cơ sở dữ liệu tìm kiếm (search query) của hàng triệu người dùng để từ đó bổ trợ cho các công cụ quảng cáo, dịch thuật, hay Amazon khai thác thói quen duyệt web của khách hàng, Walmart khai thác thông tin mua hàng tại cửa hàng dựa theo thời tiết, chu kỳ mua sắm, mật độ giao thông… thì những ngành nghề như quản lý hành chính, cơ quan dân sự của nhà nước, dân số, hàng không, thời tiết, giao thông, quân đội, y tế… lại chưa thực sự “nhảy” vào khai thác mảng dữ liệu màu mỡ mà họ đang có.

Dữ liệu nếu không khai thác, sẽ chỉ là những mảng lưu trữ rời rạc và vô nghĩa. Thậm chí những đơn vị nắm giữ dữ liệu cũng bỏ mặc chúng và ngủ quên trong sự bận rộn của công việc hàng ngày. Nhưng nếu một ngày, một lượng lớn dữ liệu được trao vào tay những chuyên gia (còn gọi là data scientist), hay những công ty phân tích và khai thác dữ liệu chuyên nghiệp, chúng ta sẽ thấy những giá trị to lớn được tìm thấy từ “mỏ vàng” bị bỏ quên.

Mặc dù các doanh nghiệp start-up được lấy làm ví dụ trong cuốn sách phần lớn đã bị thâu tóm (Decide.com bị mua bởi Ebay, Farecast.com bị mua bởi Microsoft…) nhưng phần nào chúng ta cũng thấy được tầm ảnh hưởng của Big Data lên các doanh nghiệp ngày nay, đặc biệt là các doanh nghiệp hoạt động trên Internet. Trong một tương lai không xa, Big Data  chắc chắn sẽ là một nền công nghiệp nổi trội, cũng như thời của Internet, e-Commerce, Social network những năm trước đây, thậm chí, Big Data chính là “đầu ra” mới của các doanh nghiệp cũng như là một hướng đi mới để các đơn vị cải tiến dịch vụ, sản phẩm của mình được tốt hơn.

Sau cùng, các tác giả cũng để cập đến vấn đề quyền riêng tư, cách thức kiểm soát thông tin để sao cho Big Data không bị lạm dụng cũng như không kiểm soát cuộc sống của con người, xã hội và đặc biệt là công lý. Có chăng, nên nhìn nhận Big Data là một công cụ mới của thời đại mới chứ không nên lạm dụng nó hoàn toàn trong việc dự đoán (thậm chí là phỏng đoán) hay đưa ra quyết định, bởi đó là những việc rất cần “lý trí” của con người.

Lưu ý:

– Sách được dịch bởi NXB Trẻ và có hơi trúc trắc khi đọc, nhất là chương 1, 2. Sách dịch nhầm khá nhiều chỗ đối với từ “start-up” nên trong mấy chương đầu phải tham khảo bản tiếng Anh để hiểu đúng nghĩa hơn.

– Sách cũng dành cho đối tượng làm UX, bởi quan sát và thu thập thông tin về người sử dụng (user observation) là việc làm phổ biến của ngành này. Do đó, có thể nói, Big Data cũng là một phần tương lai của UX.

Advertisements