亚洲精品中文字幕无乱码_久久亚洲精品无码AV大片_最新国产免费Av网址_国产精品3级片

電子商務(wù)師

電子商務(wù)師考試內(nèi)容:數(shù)據(jù)挖掘

時(shí)間:2024-10-06 09:38:00 電子商務(wù)師 我要投稿
  • 相關(guān)推薦

電子商務(wù)師考試內(nèi)容:數(shù)據(jù)挖掘

  當(dāng)今數(shù)據(jù)庫(kù)的容量已經(jīng)達(dá)到上萬(wàn)億的水平(T)——1000,000,000,000個(gè)字節(jié)。在這些大量數(shù)據(jù)的背后隱藏了很多具有決策意義的信息,那么怎么得到這些“知識(shí)”呢?也就是怎樣通過(guò)一顆顆的樹(shù)木了解到整個(gè)森林的情況。下面yjbys考試網(wǎng)小編為大家分享了電子商務(wù)師考試內(nèi)容:數(shù)據(jù)挖掘。

電子商務(wù)師考試內(nèi)容:數(shù)據(jù)挖掘

  計(jì)算機(jī)科學(xué)對(duì)這個(gè)問(wèn)題給出的最新回答就是:數(shù)據(jù)挖掘。在“數(shù)據(jù)礦山”中找到蘊(yùn)藏的“知識(shí)金塊”,幫助企業(yè)減少不必要投資的同時(shí)提高資金回報(bào),數(shù)據(jù)挖掘給企業(yè)帶來(lái)的潛在的投資回報(bào)幾乎是無(wú)止境的。世界范圍內(nèi)具有創(chuàng)新性的公司都開(kāi)始采用數(shù)據(jù)挖掘技術(shù)來(lái)判斷哪些是他們的最有價(jià)值客戶、重新制定他們的產(chǎn)品推廣策略(把產(chǎn)品推廣給最需要的人),以用最小的花費(fèi)創(chuàng)造最好的銷(xiāo)售。

  (1)數(shù)據(jù)挖掘的定義

  數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。這個(gè)定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。

  人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉.就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過(guò)程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門(mén)非常廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。

  (2)數(shù)據(jù)挖掘研究?jī)?nèi)容和本質(zhì)

  隨著數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(Data Mining and Knowledge Discovery,簡(jiǎn)稱 DMKD)研究逐步走向深入,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的研究已經(jīng)形成了三根強(qiáng)大的技術(shù)支柱:數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)。因此,數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)( Knowledge discovery in database,簡(jiǎn)稱 KDD )大會(huì)程序委員會(huì)曾經(jīng)由這三個(gè)學(xué)科的權(quán)威人物同時(shí)來(lái)任主席。目前 DMKD 的主要研究?jī)?nèi)容包括基礎(chǔ)理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉(cāng)庫(kù)、可視化技術(shù)、定性定量玩換模型、知識(shí)表示方法、發(fā)現(xiàn)知識(shí)的維護(hù)和再利用、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識(shí)最常見(jiàn)的有以下四類(lèi):

 、?gòu)V義知識(shí)(Generalization)

  廣義知識(shí)指類(lèi)別特征的概括性描述知識(shí)。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識(shí),反映同類(lèi)事物共同性質(zhì),是對(duì)數(shù)據(jù)的概括、精煉和抽象。

  廣義知識(shí)的發(fā)現(xiàn)方法和實(shí)現(xiàn)技術(shù)有很多,如數(shù)據(jù)立方體、面向?qū)傩缘臍w約等。數(shù)據(jù)立方體還有其他一些別名,如“多維數(shù)據(jù)庫(kù)”、“實(shí)現(xiàn)視圖”、“OLAP ”等。該方法的基本思想是實(shí)現(xiàn)某些常用的代價(jià)較高的聚集函數(shù)的計(jì)算,諸如計(jì)數(shù)、求和、平均、最大值等,并將這些實(shí)現(xiàn)視圖儲(chǔ)存在多維數(shù)據(jù)庫(kù)中。既然很多聚集函數(shù)需經(jīng)常重復(fù)計(jì)算,那么在多維數(shù)據(jù)僅方體中存放預(yù)先計(jì)算好的結(jié)果將能保證快速響應(yīng),并可靈活地提供不同角度和不同抽象層次上的數(shù)據(jù)視圖。。另一種廣義知識(shí)發(fā)現(xiàn)方法是加拿大Simon Fraser大學(xué)提出的面向?qū)傩缘臍w約方法。這種方法以類(lèi) SQL語(yǔ)言表示數(shù)據(jù)挖掘查詢,收集數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)集,然后在相關(guān)數(shù)據(jù)集上應(yīng)用一系列數(shù)據(jù)推廣技術(shù)進(jìn)行數(shù)據(jù)推廣,包括屬性刪除、概念樹(shù)提升、屬性閾值控制、計(jì)數(shù)及其他聚集函數(shù)傳播等。

 、陉P(guān)聯(lián)知識(shí)(Association)

  它反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí)。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可分為兩步:第一步是迭代識(shí)別所有的頻繁項(xiàng)日集,要求頻繁項(xiàng)目集的支持率不低于用戶設(shè)定的最低值;第二步是從頻繁項(xiàng)目集中構(gòu)造可信度不低于用戶設(shè)定的最低值的規(guī)則。識(shí)別或發(fā)現(xiàn)所有頻繁項(xiàng)目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計(jì)算量最大的部分。

 、鄯诸(lèi)知識(shí)(Classification & Clustering )

  它反映同類(lèi)事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。最為典型的分類(lèi)方法是基于決策樹(shù)的分類(lèi)方法。它是從實(shí)例集中構(gòu)造決策樹(shù),是一種有指導(dǎo)的學(xué)習(xí)方法該方法先根據(jù)訓(xùn)練子集(又稱為窗口)形成決策樹(shù)。如果該樹(shù)不能對(duì)所有對(duì)象給出正確的分類(lèi),那么選擇一些例外加入到窗口中,重復(fù)該過(guò)程一直到形成正確的決策集。最終結(jié)果是一棵樹(shù),其葉結(jié)點(diǎn)是類(lèi)名,中間結(jié)點(diǎn)是帶有分枝的屬性,該分枝對(duì)應(yīng)該屬性的某一可能值。最為典型的決策樹(shù)學(xué)習(xí)系統(tǒng)是ID3,它采用自頂向下不回溯策略,能保證找到一個(gè)簡(jiǎn)單的樹(shù)。算法C4.5和C5.0都是ID3的擴(kuò)展,它們將分類(lèi)領(lǐng)域從類(lèi)別屬性擴(kuò)展到數(shù)值型屬性。

  數(shù)據(jù)分類(lèi)還有統(tǒng)計(jì)、粗糙集(Rough Set)等方法。線性回歸和線性辨別分析是典型的統(tǒng)計(jì)模型、為降低決策樹(shù)生成代價(jià),人們還提出了一種區(qū)間分類(lèi)器。最近也有人研究使用神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)庫(kù)中進(jìn)行分類(lèi)和規(guī)則提取。

 、茴A(yù)測(cè)型知識(shí)(Prediction )

  它根據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)未來(lái)的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。

  目前,時(shí)間序列預(yù)測(cè)方法有經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。 1968 年Box和jenkins提出了一套比較完善的時(shí)間序列建模理論和分析方法,這些經(jīng)典的數(shù)學(xué)方法通過(guò)建立隨機(jī)模型,如自回歸模型、自回歸滑動(dòng)平均模型、求和自回歸滑動(dòng)平均模型和季節(jié)調(diào)整模型等,進(jìn)行時(shí)間序列的預(yù)測(cè)。由于大量的時(shí)間序列是非平穩(wěn)的,其特征參數(shù)和數(shù)據(jù)分布隨著時(shí)間的推移而發(fā)生變化。因此,僅僅通過(guò)對(duì)某段歷史數(shù)據(jù)的訓(xùn)練,建立單一的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,還無(wú)法完成準(zhǔn)確的預(yù)測(cè)任務(wù)。為此,人們提出了基于統(tǒng)計(jì)學(xué)和基于精確性的再訓(xùn)練方法,當(dāng)發(fā)現(xiàn)現(xiàn)存預(yù)測(cè)模型不再適用于當(dāng)前數(shù)據(jù)時(shí),對(duì)模型重新訓(xùn)練,獲得新的權(quán)重參數(shù),建立新的模型。也有許多系統(tǒng)借助并行算法的計(jì)算優(yōu)勢(shì)進(jìn)行時(shí)間序列預(yù)測(cè)。

 、萜钚椭R(shí)(Deviation)

  此外,還可以發(fā)現(xiàn)其他類(lèi)型的知識(shí),如偏差型知識(shí)(Deviation ) ,它是對(duì)差異和極端特例的描述,揭示事物偏離常規(guī)的異,F(xiàn)象,如標(biāo)準(zhǔn)類(lèi)外的特例,數(shù)據(jù)聚類(lèi)外的離群值等。所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。

  (3)數(shù)據(jù)挖掘的功能

  數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的知識(shí),主要有以下五類(lèi)功能。

  ①自動(dòng)預(yù)測(cè)趨勢(shì)和行為

  數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手上分析的問(wèn)題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場(chǎng)預(yù)測(cè)問(wèn)題,數(shù)據(jù)挖掘使用過(guò)去有關(guān)促銷(xiāo)的數(shù)據(jù)來(lái)尋找未來(lái)投資中回報(bào)最大的用戶,其他可預(yù)測(cè)的問(wèn)題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對(duì)指定事件最可能作出反應(yīng)的群體。

 、陉P(guān)聯(lián)分析

  數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。

  ③聚類(lèi)

  數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類(lèi)。聚類(lèi)增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。。聚類(lèi)技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類(lèi)學(xué)。 20 世紀(jì) 80 年代初, Mchalski 提出了概念聚類(lèi)技術(shù),其要點(diǎn)是,在劃分對(duì)象時(shí)不僅考慮對(duì)象之間的距離,還要求劃分出的類(lèi)具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。

 、芨拍蠲枋

  概念描述就是對(duì)某類(lèi)對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類(lèi)對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類(lèi)對(duì)象的共同特征,后者描述不同類(lèi)對(duì)象之間的區(qū)別。生成一個(gè)類(lèi)的特征性描述只涉及該類(lèi)對(duì)象中所有對(duì)象的共性。生成區(qū)別性描述的方法很多,如決策樹(shù)方法、遺傳算法等。

  ⑤偏差檢測(cè)

  數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類(lèi)中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是,尋找觀測(cè)結(jié)果與參照值之間有意義的差別。要保證數(shù)據(jù)挖掘成功的兩個(gè)關(guān)鍵要素是:一是準(zhǔn)確的定義你所要解決的問(wèn)題,定位準(zhǔn)確的問(wèn)題通常會(huì)帶來(lái)最好的回報(bào)。二是使用正確的數(shù)據(jù),選定了你所能得到的數(shù)據(jù),也許還要從外部購(gòu)買(mǎi)數(shù)據(jù),你需要對(duì)這些數(shù)據(jù)做有效的數(shù)據(jù)整合和轉(zhuǎn)換。

  (4)數(shù)據(jù)挖掘未來(lái)研究方向

  當(dāng)前,DMKD研究方興未艾,其研究與開(kāi)發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫(kù)技術(shù)在20世紀(jì)70年代所處的地位,迫切需要類(lèi)似于關(guān)系模式、DBMS系統(tǒng)和 SQL查詢語(yǔ)言等理論和方法的指導(dǎo),才能使DMKD的應(yīng)用得以普遍推廣。預(yù)計(jì)在本世紀(jì),DMKD的研究還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:

 、侔l(fā)現(xiàn)語(yǔ)言的形式化描述,即研究專(zhuān)門(mén)用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,也許會(huì)像 SQL 語(yǔ)言一樣走向形式化和標(biāo)準(zhǔn)化;

  ②尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互;

 、垩芯吭诰W(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(Web Mining),特別是在因特網(wǎng)上建立 DMKD服務(wù)器,并與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)Web Mining;

 、芗訌(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的開(kāi)采(Data Mining for Audio & video ) ,如對(duì)文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開(kāi)采;

 、萁换ナ桨l(fā)現(xiàn);

 、拗R(shí)的維護(hù)更新。

  但是,無(wú)論怎樣,需求牽引、市場(chǎng)驅(qū)動(dòng)是永恒的,DMKD將首先滿足信息時(shí)代用戶的急需,大量基于DMKD的決策支持軟件工具產(chǎn)品將會(huì)面世。只有從數(shù)據(jù)中有效地提取信息,從信息中及時(shí)地發(fā)現(xiàn)知識(shí),才能為人類(lèi)的思維決策和戰(zhàn)略發(fā)展服務(wù)。也只有到那時(shí),數(shù)據(jù)才能夠真正成為與物質(zhì)、能源相媲美的資源,信息時(shí)代才會(huì)真正到來(lái)。

 

【電子商務(wù)師考試內(nèi)容:數(shù)據(jù)挖掘】相關(guān)文章:

電子商務(wù)師考試內(nèi)容10-16

電子商務(wù)師考試內(nèi)容:EDI的標(biāo)準(zhǔn)07-30

電子商務(wù)師考試內(nèi)容:電子商務(wù)全新的商務(wù)模式06-29

電子商務(wù)師考試內(nèi)容:計(jì)算機(jī)網(wǎng)絡(luò)08-22

電子商務(wù)師考試輔導(dǎo):數(shù)據(jù)庫(kù)技術(shù)基本理論10-15

電子商務(wù)師考試《電子商務(wù)師》知識(shí)點(diǎn)09-11

電子商務(wù)師試題08-24

電商改革:電子商務(wù)師到中國(guó)電子商務(wù)師10-21

對(duì)于電子商務(wù)師的了解07-18

電子商務(wù)師的培訓(xùn)心得08-23