Khai phá dữ liệu là gì

     

Về cơ bản, khai thác dữ liệu là về xử lý dữ liệu và nhận ra các mẫu mã và các xu hướng trong thông tin đó để chúng ta cũng có thể quyết định hoặc tiến công giá. Những nguyên tắc khai thác dữ liệu đã được sử dụng nhiều năm rồi, nhưng với sự thành lập và hoạt động của big data (dữ liệu lớn), nó lại càng thông dụng hơn.

Bạn đang xem: Khai phá dữ liệu là gì

Big data gây nên một sự bùng nổ về thực hiện nhiều kỹ thuật khai thác dữ liệu hơn, một trong những phần vì size thông tin lớn hơn rất nhiều và vì tin tức có xu hướng đa dạng và phong phú và không ngừng mở rộng hơn về chính thực chất và ngôn từ của nó. Với các tập hợp tài liệu lớn, để cảm nhận số liệu những thống kê tương đối đơn giản và dễ dãi trong khối hệ thống vẫn không đủ. Cùng với 30 hoặc 40 triệu bản ghi thông tin quý khách hàng chi tiết, việc biết rằng 2 triệu người tiêu dùng trong số đó sống trong một vị trí vẫn chưa đủ. Bạn có nhu cầu biết liệu 2 triệu người tiêu dùng đó bao gồm thuộc về một đội tuổi ví dụ không và bạn có muốn biết các khoản thu nhập trung bình của mình để bạn cũng có thể tập trung vào các nhu cầu của khách hàng hàng của bản thân mình tốt hơn.

Những nhu cầu hướng marketing này đã đổi khác cách lôi ra và những thống kê dữ liệu dễ dàng sang việc khai phá dữ liệu tinh vi hơn. Vấn đề kinh doanh hướng tới việc để mắt tới dữ liệu để giúp xây dựng một quy mô để tế bào tả các thông tin cơ mà cuối cuộc đang dẫn đến sự việc tạo ra report kết quả. Hình tiếp sau đây phác thảo quá trình này.

*

Quá trình so với dữ liệu, khám phá dữ liệu với xây dựng quy mô dữ liệu thường lặp lại khi chúng ta tập trung vào và nhận thấy các thông tin không giống nhau để bạn cũng có thể trích ra. Bạn cũng đề xuất hiểu cách tùy chỉnh thiết lập quan hệ, ánh xạ, kết hợp và phân cụm thông tin đó với tài liệu khác để tạo nên kết quả. Thừa trình nhận ra dữ liệu nguồn và những định dạng nguồn, rồi ánh xạ thông tin đó tới hiệu quả đã mang lại của công ty chúng tôi có thể thay đổi sau khi bạn phát hiện ra những yếu tố và những khía cạnh khác nhau của dữ liệu.

Các công cụ khai phá dữ liệu

Khai phá dữ liệu không phải là toàn bộ về những công cụ hay ứng dụng cơ sở tài liệu mà nhiều người đang sử dụng. Bạn cũng có thể thực hiện khai phá dữ liệu bởi các khối hệ thống cơ sở dữ liệu bình thường và các công cụ solo giản, bao hàm việc chế tác và viết phần mềm riêng của người tiêu dùng hoặc sử dụng những gói phần mềm bán quanh đó cửa hàng. Khai phá dữ liệu phức tạp được tận hưởng từ kinh nghiệm tay nghề trong thừa khứ và các thuật toán đã có mang với ứng dụng và những gói phần mềm hiện có, với những công núm nhất định để thu được một quan hệ hoặc uy tín to hơn bằng những kỹ thuật khác nhau.

Gần đây các tập phù hợp dữ liệu rất cao và câu hỏi xử lý tài liệu theo các và đồ sộ lớn bao gồm thể được cho phép khai phá tài liệu để sắp xếp và lập report về các nhóm và những mối đối sánh của dữ liệu phức hợp hơn. Bây giờ đã gồm sẵn rất nhiều công chũm và khối hệ thống hoàn toàn mới, gồm các khối hệ thống lưu trữ cùng xử lý dữ liệu kết hợp.Bạn hoàn toàn có thể khai phá dữ liệu với khá nhiều tập hợp dữ liệu khác nhau, gồm những cơ sở dữ liệu SQL truyền thống, tài liệu văn bản thô, các kho khóa/giá trị và các cơ sở tài liệu tài liệu. Các cơ sở tài liệu có phân cụm, như Hadoop, Cassandra, CouchDB và Couchbase Server, lưu trữ và cung cấp quyền truy vấn vào tài liệu theo biện pháp không phù hợp với cấu trúc bảng truyền thống.

Đặc biệt, định dạng lưu trữ cơ sở dữ liệu tài liệu linh hoạt rộng lại gây nên một giữa trung tâm và sự phức tạp khác về xử trí thông tin. Những cơ sở tài liệu SQL áp để các kết cấu chặt chẽ và cứng nhắc vào lược đồ, tạo cho việc truy vấn bọn chúng và phân tích tài liệu trở nên dễ dàng theo quan liêu điểm hiểu rõ định dạng và cấu tạo thông tin.

Các cơ sở tài liệu tài liệu, gồm một tiêu chuẩn chẳng hạn như cấu trúc thực thi JSON hoặc các tệp có cấu trúc đọc được bằng máy vi tính nào đó, cũng dễ giải pháp xử lý hơn, mặc dù chúng rất có thể làm tạo thêm sự phức tạp do cấu tạo khác nhau và hay cố đổi. Ví dụ, với vấn đề xử lý dữ liệu trọn vẹn thô của Hadoop, rất có thể phức tạp để nhận thấy và trích ra nội dung trước khi bạn ban đầu xử lý và tương quan với nó.

Các kỹ thuật chính

Một số chuyên môn cốt lõi, được áp dụng trong khai phá dữ liệu, biểu thị kiểu vận động khai phá và hoạt động phục hồi dữ liệu. Thật rủi ro là các công ty cùng các phương án khác nhau chưa hẳn lúc nào cũng dùng chung các thuật ngữ. Chính những thuật ngữ này hoàn toàn có thể làm tạo thêm sự mơ hồ và sự phức tạp.

Hãy xem xét một số trong những kỹ thuật thiết yếu và ví dụ về cách sử dụng những công cụ khác biệt để dựng lên việc khai phá dữ liệu.

Sự kết hợp

Sự phối kết hợp (hay mối quan hệ) chắc hẳn rằng là kỹ thuật khai phá dữ liệu được biết đến nhiều hơn, hầu hết quen ở trong và solo giản. Ở đây, bạn tiến hành một sự tương quan dễ dàng giữa nhì hoặc những mục, thường cùng kiểu để nhận biết các mẫu. Ví dụ, khi theo dõi thói quen mua sắm chọn lựa của bạn dân, bạn cũng có thể nhận biết rằng một khách hàng luôn cài kem lúc họ thiết lập dâu tây, nên chúng ta cũng có thể đề xuất rằng lần tới lúc họ sở hữu dâu tây, họ cũng rất có thể muốn cài kem.

Việc xây dựng các công cụ khai thác dữ liệu dựa trên sự kết hợp hay mọt quan hệ rất có thể thực hiện đơn giản và dễ dàng bằng những công chũm khác nhau. Ví dụ, trong InfoSphere Warehouse một trình phía dẫn đưa ra các cấu hình của một luồng tin tức được áp dụng kết hợp bằng cách xem xét tin tức nguồn đầu vào của cửa hàng dữ liệu, tin tức về các đại lý ra ra quyết định và tin tức đầu ra của bạn. Hình 2 cho thấy thêm một lấy một ví dụ của cơ sở dữ liệu ví dụ mẫu.

*

Sự phân loại

Bạn hoàn toàn có thể sử dụng sự phân nhiều loại để thiết kế một ý tưởng về kiểu khách hàng, kiểu mặt hàng hoặc hình dạng đối tượng bằng phương pháp mô tả nhiều thuộc tính để nhận biết một lớp nỗ lực thể. Ví dụ, bạn có thể dễ dàng phân loại các xe ô tô thành những kiểu xe không giống nhau (xe mui kín, 4x4, xe hoàn toàn có thể bỏ mui) bằng cách xác định các thuộc tính khác biệt (số chỗ ngồi, làm nên xe, các bánh xe pháo điều khiển). Cùng với một dòng xe mới, chúng ta có thể đặt nó vào một lớp cầm cố thể bằng cách so sánh những thuộc tính với khái niệm đã biết của chúng tôi. Bạn cũng có thể áp dụng các nguyên tắc tương tự ấy cho các khách hàng, ví dụ bằng cách phân loại quý khách theo độ tuổi và nhóm xóm hội.

Hơn nữa, chúng ta có thể sử dụng việc phân các loại như một nguồn cấp, hay như là là kết quả của những kỹ thuật khác. Ví dụ, bạn có thể sử dụng các cây đưa ra quyết định để khẳng định một bí quyết phân loại. Việc phân cụm sẽ chất nhận được bạn sử dụng các thuộc tính chung theo các cách phân loại không giống nhau để nhận thấy các cụm.

Việc phân nhiều (Clustering)

Bằng bí quyết xem xét một hay những thuộc tính hoặc những lớp, bạn có thể nhóm những phần dữ liệu riêng lẻ cùng nhau để sinh sản thành một quan điểm cấu trúc. Ở mức đối kháng giản, câu hỏi phân cụm đang thực hiện một hoặc các thuộc tính làm cho cơ sở cho bạn để nhận ra một nhóm các hiệu quả tương quan. Câu hỏi phân cụm giúp để nhận ra các thông tin khác nhau vì nó tương quan với các ví dụ khác, nên chúng ta có thể thấy nơi đâu có đa số điểm tương đương và các phạm vi phù hợp.

Xem thêm: Ốp Lưng Iphone 11 Pro Max Chống Sốc, Ốp Lưng Iphone 11 Pro Max

Việc phân cụm có thể làm theo hai cách. Chúng ta có thể giả sử rằng có một cụm tại 1 điểm nhất mực và sau đó sử dụng các tiêu chuẩn nhận dạng của cửa hàng chúng tôi để coi liệu bạn có đúng không. Đồ thị vào Hình 3 là một ví dụ hay. Trong lấy ví dụ như này, một ví dụ mẫu mã về dữ liệu marketing so sánh tuổi của người sử dụng với quy mô chào bán hàng. Thật phải chăng khi thấy rằng những người ở độ tuổi hai mươi (trước khi kết hôn cùng còn nhỏ), ở lứa tuổi năm mươi với sáu mươi (khi không thể con chiếc ở nhà), có nhiều tiền tiêu hơn.

*

Trong ví dụ như này, chúng ta có thể nhận ra nhị cụm, một cụm xung quanh nhóm 2000 Đô la Mỹ/ 20-30 tuổi và một các ở team 7.000-8.000 Đô la Mỹ/ 50-65 tuổi. Trong trường thích hợp này, shop chúng tôi đã trả thuyết hai nhiều và đã chứng tỏ giả thuyết của cửa hàng chúng tôi bằng một vật thị đơn giản và dễ dàng mà cửa hàng chúng tôi có thể chế tạo ra ra bằng cách sử dụng bất kỳ phần mềm trang bị họa tương thích nào để sở hữu được ánh nhìn nhanh chóng. Những quyết định tinh vi hơn cần phải có một gói ứng dụng phân tích đầy đủ, đặc biệt là nếu bạn muốn các quyết định tự động dựa vào thông tin bên cạnh gần nhất.

Việc vẽ đồ gia dụng thị phân cụm theo cách này là 1 ví dụ dễ dàng và đơn giản về loại gọi là nhận biết sự kề bên gần nhất. Chúng ta có thể nhận ra các quý khách hàng riêng lẻ bởi sự gần gụi theo nghĩa đen của mình với nhau trên thiết bị thị. Có rất nhiều khả năng là các người tiêu dùng trong cùng một các cũng cần sử dụng chung những thuộc tính khác và bạn có thể sử dụng sự ý muốn đợi đó để giúp đỡ hướng dẫn, phân các loại và còn nếu như không thì phân tích những người dân khác vào tập hợp dữ liệu của bạn.

Bạn cũng rất có thể áp dụng việc phân các theo cách nhìn ngược lại; dựa vào một số nằm trong tính đầu vào, chúng ta có thể nhận ra các tạo phẩm khác nhau. Ví dụ, một nghiên cứu cách đây không lâu về những số sạc 4-chữ số sẽ tìm ra những cụm giữa các chữ số vào phạm vi 1-12 và 1-31 cho những cặp đầu tiên và lắp thêm hai. Bằng phương pháp vẽ các cặp này, bạn có thể nhận ra và xác minh các cụm liên quan đến ngày tháng (các ngày sinh nhật, các ngày kỷ niệm).

Dự báo

Dự báo là 1 trong những chủ đề rộng với đi từ dự đoán về lỗi của các thành phần hay thiết bị móc đến việc nhận thấy sự ăn lận và thậm chí là cả dự báo về lợi nhuận của khách hàng nữa. Được thực hiện kết hợp với các kỹ thuật khai phá dữ liệu khác, dự báo gồm có việc phân tích các xu hướng, phân loại, so khớp mẫu và mọt quan hệ. Bằng phương pháp phân tích những sự khiếu nại hoặc những cá thể trong thừa khứ, bạn cũng có thể đưa ra một dự đoán về một sự kiện.

Khi sử dụng quyền hạn thẻ tín dụng, chẳng hạn, chúng ta cũng có thể kết hợp phân tích cây quyết định của những giao dịch trơ trẽn trong thừa khứ với bài toán phân các loại và những sự so khớp mẫu lịch sử hào hùng để nhận biết liệu một giao dịch có ăn gian hay không. Rất rất có thể là việc tiến hành một sự so khớp giữa việc mua vé các chuyến cất cánh đến Mỹ và những giao dịch trên Mỹ cho biết thêm giao dịch này hợp lệ.

Các chủng loại tuần tự

Thường được áp dụng trên các dữ liệu lâu năm hạn, những mẫu tuần tự là 1 phương pháp có lợi để nhận ra các xu hướng hay những sự xuất hiện thường xuyên của những sự kiện tương tự. Ví dụ, với tài liệu khách hàng, chúng ta có thể nhận ra rằng các người sử dụng cùng nhau mua một tủ đựng đồ riêng lẻ về các sản phẩm tại các thời điểm khác nhau trong năm. Vào một ứng dụng giỏ hàng, bạn cũng có thể sử dụng thông tin này để auto đề xuất rằng một số mặt hàng nào đó được thêm vào một giỏ hàng dựa trên gia tốc và lịch sử vẻ vang mua hàng trong quá khứ của những khách hàng.

Các cây quyết định

Liên quan đến phần nhiều các kỹ thuật khác (chủ yếu là phân loại và dự báo), cây quyết định có thể được sử dụng hoặc như là một trong những phần trong các tiêu chuẩn lựa lựa chọn hoặc để cung cấp việc áp dụng và lựa chọn dữ liệu cụ thể bên phía trong cấu trúc tổng thể. Vào cây quyết định, bạn bước đầu bằng một câu hỏi đơn giản tất cả hai câu trả lời (hoặc song khi có tương đối nhiều câu vấn đáp hơn). Mỗi câu trả lời lại dẫn đến thêm một thắc mắc nữa sẽ giúp phân một số loại hay phân biệt dữ liệu sao cho có thể phân loại dữ liệu hoặc sao cho có thể thực hiện dự báo trên đại lý mỗi câu trả lời.

*

Các cây quyết định thường được sử dụng cùng với các hệ thống phân loại tương quan đến thông tin có phong cách thuộc tính cùng với các hệ thống dự báo, nơi các dự báo không giống nhau rất có thể dựa trên kinh nghiệm lịch sử vẻ vang trong quá khứ để giúp đỡ hướng dẫn cấu tạo của cây đưa ra quyết định và công dụng đầu ra.

Các tổ hợp

Trong thực tế, thật hãn hữu khi bạn sẽ sử dụng một kỹ thuật trong số những kỹ thuật đơn nhất này. Câu hỏi phân nhiều loại và phân các là phần đông kỹ thuật kiểu như nhau. Nhờ áp dụng việc phân cụm để nhận biết các thông tin sát bên gần nhất, chúng ta cũng có thể tiếp tục tinh chỉnh việc phân loại của mình. Thông thường, công ty chúng tôi sử dụng những cây quyết định sẽ giúp xây dựng và nhận ra các các loại mà shop chúng tôi có thể theo dõi bọn chúng trong một thời hạn dài để nhận thấy các trình từ và các mẫu.

Xử lý (bộ nhớ) dài hạn

Trong toàn bộ các phương pháp cốt lõi, hay có nguyên nhân để đánh dấu thông tin và tò mò từ thông tin. Trong một số kỹ thuật, câu hỏi này trọn vẹn rõ ràng. Ví dụ, cùng với việc tìm hiểu các chủng loại tuần tự và dự báo, bạn xem xét lại dữ liệu từ nhiều nguồn và nhiều cá thể thông tin để thiết kế một mẫu.

Trong một vài kỹ thuật khác, quy trình này có thể rõ ràng hơn. Các cây quyết định ít khi được thi công một lần với không bao giờ được coi nhẹ. Khi phân biệt thông tin mới, các sự khiếu nại và các điểm dữ liệu, hoàn toàn có thể cần desgin thêm những nhánh hoặc thậm chí tổng thể các cây mới, để chiến đấu với những thông tin vấp ngã sung.

Bạn tất cả thể tự động hóa hoá một số trong những bước của quá trình này. Ví dụ, vấn đề xây dựng một quy mô dự báo để nhận ra sự ăn lận thẻ tín dụng là desgin các tỷ lệ để bạn có thể sử dụng cho giao dịch hiện tại với sau đó update mô hình kia với các giao dịch bắt đầu (đã được phê duyệt). Rồi tin tức này được ghi lại sao cho hoàn toàn có thể đưa ra quyết định một cách hối hả trong lần tới.

Xem thêm: Những Quốc Gia Nào Cấm Tổ Chức Lễ Tình Nhân, Những Quốc Gia Cấm Ngày Lễ Tình Nhân

Kết luận

Việc khai thác dữ liệu còn hơn vấn đề chạy một số truy vấn tinh vi trên tài liệu mà chúng ta đã lưu giữ trong cơ sở dữ liệu của mình. Các bạn phải làm việc với tài liệu của mình, format lại nó hoặc cấu trúc lại nó, bất cứ bạn tất cả đang sử dụng SQL, cơ sở dữ liệu dựa trên tài liệu như Hadoop hoặc các tệp phẳng đơn giản và dễ dàng hay không. Việc phân biệt định dạng tin tức mà bạn cần được dựa trên nghệ thuật và bài toán phân tích mà bạn muốn làm. Sau khi chúng ta có thông tin theo định hình mà bạn cần, chúng ta cũng có thể áp dụng các kỹ thuật khác (riêng lẻ hay phối hợp lại cùng với nhau) không phân biệt cấu trúc dữ liệu cơ phiên bản hay tập hợp dữ liệu cần thiết.