- 相關(guān)推薦
數(shù)據(jù)分析師面試技巧
數(shù)據(jù)分析師面試題目
計(jì)算平均有哪些指標(biāo),各有哪些優(yōu)缺點(diǎn)
數(shù)值平均數(shù)有算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)等形式 位置平均數(shù)有眾數(shù)、中位數(shù)、四分位數(shù)等形式 前三種是根據(jù)各單位標(biāo)志值計(jì)算的,故稱為數(shù)值平均值,后三種是根據(jù)標(biāo)志值所處的位置.
相關(guān)分析和回歸分析有什么關(guān)系
回歸分析與相關(guān)分析的聯(lián)系:研究在專業(yè)上有一定聯(lián)系的兩個(gè)變量之間是否存在直線關(guān)系以及如何求得直線回歸方程等問題,需進(jìn)行直線相關(guān)和回歸分析。從研究的目的來(lái)說,若僅僅為了了解兩變量之間呈直線關(guān)系的密切程度和方向,宜選用線性相關(guān)分析;若僅僅為了建立由自變量推算因變量的直線回歸方程,宜選用直線回歸分析。
回歸分析和相關(guān)分析都是研究變量間關(guān)系的統(tǒng)計(jì)學(xué)課題,它們的差別主要是:
1、在回歸分析中,y被稱為因變量,處在被解釋的特殊地位,而在相關(guān)分析中,x與y處于平等的地位,即研究x與y的密切程度和研究y與x的密切程度是一致的;
2、相關(guān)分析中,x與y都是隨機(jī)變量,而在回歸分析中,y是隨機(jī)變量,x可以是隨機(jī)變量,也可以是非隨機(jī)的,通常在回歸模型中,總是假定x是非隨機(jī)的;
3、相關(guān)分析的研究主要是兩個(gè)變量之間的密切程度,而回歸分析不僅可以揭示x對(duì)y的影響大小,還可以由回歸方程進(jìn)行數(shù)量上的預(yù)測(cè)和控制。
3.給出一組數(shù)據(jù)說是服從正態(tài)分布,求方差和均值
4.給出一個(gè)概率分布函數(shù),求極大似然估計(jì)
求極大似然函數(shù)估計(jì)值的一般步驟:
(1) 寫出似然函數(shù);
(2) 對(duì)似然函數(shù)取對(duì)數(shù),并整理;
(3) 求導(dǎo)數(shù) ;
(4) 解似然方程
極大似然估計(jì),只是一種概率論在統(tǒng)計(jì)學(xué)的應(yīng)用,它是參數(shù)估計(jì)的方法之一。說的是已知某個(gè)隨機(jī)樣本滿足某種概率分布,但是其中具體的參數(shù)不清楚,參數(shù)估計(jì)就是通過若干次試驗(yàn),觀察其結(jié)果,利用結(jié)果推出參數(shù)的大概值。極大似然估計(jì)是建立在這樣的思想上:已知某個(gè)參數(shù)能使這個(gè)樣本出現(xiàn)的概率最大,我們當(dāng)然不會(huì)再去選擇其他小概率的樣本,所以干脆就把這個(gè)參數(shù)作為估計(jì)的真實(shí)值。當(dāng)然極大似然估計(jì)只是一種粗略的數(shù)學(xué)期望,要知道它的誤差大小還要做區(qū)間估計(jì)。
例3.7.3 已知總體X服從泊松分布
(λ>0, x=0,1,…)
(x1,x2,…,xn)是從總體X中抽取的一個(gè)樣本的觀測(cè)值,試求參數(shù)λ的極大似然估計(jì). 解.參數(shù)λ的似然函數(shù)為
兩邊取對(duì)數(shù):
上式對(duì)λ求導(dǎo),并令其為0,即從而得,即樣本均值是參數(shù)λ的極大似然估計(jì).
例3.7.4 設(shè)總體X服從正態(tài)分布N(μ, σ2),試求μ及σ2的極大似然估計(jì). 解.μ,σ的似然函數(shù)為似然方程組為解之得,因此及分別是μ及σ2的極大似然估計(jì).決策樹和神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)預(yù)處理過程中用到哪些方法
神經(jīng)網(wǎng)絡(luò)方法:即通過大量神經(jīng)元構(gòu)成的網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)自適應(yīng)非線性動(dòng)態(tài)系統(tǒng),并使其具有分布存儲(chǔ)、聯(lián)想記憶、大規(guī)模并行處理、自學(xué)習(xí)、自組織、自適應(yīng)等功能的方法;在空間數(shù)據(jù)挖掘中可用來(lái)進(jìn)行分類和聚類知識(shí)以及特征的挖掘。
決策樹方法:即根據(jù)不同的特征,以樹型結(jié)構(gòu)表示分類或決策集合,進(jìn)而產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律的方法。采用決策樹方法進(jìn)行空間數(shù)據(jù)挖掘的基本步驟如下:首先利用訓(xùn)練空間實(shí)體集生成測(cè)試函數(shù);其次根據(jù)不同取值建立決策樹的分支,并在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,形成決策樹;然后對(duì)決策樹進(jìn)行剪枝處理,把決策樹轉(zhuǎn)化為據(jù)以對(duì)新實(shí)體進(jìn)行分類的規(guī)則。
數(shù)據(jù)挖掘的應(yīng)用步驟
數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘是通過對(duì)數(shù)據(jù)的收集整理、分析、建模和效果跟蹤完成對(duì)知識(shí)的發(fā)現(xiàn)和應(yīng)用,是一個(gè)不斷反復(fù)的過程,其基本步驟包括以下幾步。
(1)確定分析和預(yù)測(cè)目標(biāo) 在進(jìn)行數(shù)據(jù)挖掘前,首先要明確業(yè)務(wù)目標(biāo),即通過數(shù)據(jù)挖掘解決什么樣的問題,達(dá)到什么目的。
(2)了解數(shù)據(jù) 對(duì)待挖掘的數(shù)據(jù)要進(jìn)行初步了解。如數(shù)據(jù)從哪兒來(lái),所選的數(shù)據(jù)表哪些字段是必要的,如何描述這些數(shù)據(jù)等。對(duì)數(shù)據(jù)的初步了解可以幫助分析數(shù)據(jù)的可用性和實(shí)用性,減少返工造成的資源浪費(fèi)。
(3)數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)準(zhǔn)備是指對(duì)已確定的基本數(shù)據(jù)進(jìn)行必要的轉(zhuǎn)換、清理、填補(bǔ)及合并。數(shù)據(jù)準(zhǔn)備工作比較繁鎖,但非常重要,如果數(shù)據(jù)里的噪聲太多,就會(huì)影響建立模型的準(zhǔn)確度,數(shù)據(jù)越完整、越準(zhǔn)確,在此基礎(chǔ)上發(fā)掘的數(shù)據(jù)規(guī)律就越具有較高的可信度,能更好地實(shí)現(xiàn)數(shù)據(jù)挖掘的目標(biāo),否則從垃圾數(shù)據(jù)里再怎么挖掘,出來(lái)的也只能是垃圾。
(4)數(shù)據(jù)相關(guān)性前期探索 有些數(shù)據(jù)挖掘在定性和數(shù)據(jù)分類使用方面,可以作為更高一級(jí)預(yù)測(cè)的探索工具。比如,先用決策樹或聚類方法幫助找出數(shù)據(jù)的總體趨勢(shì),并預(yù)測(cè)數(shù)據(jù)相關(guān)性,再用神經(jīng)網(wǎng)絡(luò)或規(guī)則引導(dǎo)法有針對(duì)性地建模。這樣做的好處是一來(lái)可以細(xì)化數(shù)據(jù),提高性能;二來(lái)可以在某種程度上幫助消除數(shù)據(jù)噪聲。
(5)模型構(gòu)造 模型構(gòu)造的過程主要包括:選擇適用的挖掘技術(shù)、建立培訓(xùn)數(shù)據(jù)和測(cè)試數(shù)據(jù)、利用培訓(xùn)數(shù)據(jù)采用相應(yīng)的算法建立模型、模型解釋和模型評(píng)估和檢驗(yàn)。
(6)部署和應(yīng)用 如果經(jīng)過測(cè)試和檢驗(yàn),所建立的模型可信,并在預(yù)定的誤差范圍內(nèi),那么便可以按照這種模型計(jì)算出輸出值,并按照輸出值確定決策的依據(jù)。這樣就可以在企業(yè)范圍內(nèi)全面部署這個(gè)預(yù)測(cè)模型。在應(yīng)用過程中,必須不斷用新數(shù)據(jù)進(jìn)行檢驗(yàn),并測(cè)試其成功概率。經(jīng)過反復(fù)檢驗(yàn)成功的模型就稱為企業(yè)的一個(gè)重要知識(shí),為企業(yè)成功決策打下良好的基礎(chǔ)。
【數(shù)據(jù)分析師面試技巧】相關(guān)文章:
高級(jí)數(shù)據(jù)分析師的崗位職責(zé)03-07
面試技巧填表技巧05-18
面試技巧06-01
面試技巧05-01
面試技巧_05-01
面試的技巧05-10
面試的技巧04-24
面試技巧,面試答疑05-01
面試技巧與面試藝術(shù)05-01