美章網 資料文庫 數據挖掘技術的紅酒評分預測設計分析范文

    數據挖掘技術的紅酒評分預測設計分析范文

    本站小編為你精心準備了數據挖掘技術的紅酒評分預測設計分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

    數據挖掘技術的紅酒評分預測設計分析

    摘要:隨著現代社會的快速發展,紅酒行業已慢慢走向全球化與大眾化,更多的紅酒品牌和品種也逐漸被世人所知。然而,紅酒品質也分三六九等,如何判斷一款紅酒是優是劣?利用SPSS,Excel等軟件,使用回歸、決策樹、聚類等經典機器學習算法,對紅酒的價格、評分、產地等因素進行統計與分析。最終得出紅酒的原產國,省份以及品種基本可以決定紅酒的優劣。

    關鍵詞:紅酒;數據挖掘;機器學習

    1前言

    紅酒,是一種有著漫長歷史的飲品。早在公元前1000年,紅酒就在地中海沿岸大部分地區繁衍傳播,并逐漸發展成為高檔飲品。在全世界的基督教信徒的眼中,紅酒被視為耶穌的血液,這一點也促進了紅酒的平民化。紅酒不僅僅給人以高雅和浪漫的感覺,在很多女性心中還有美容駐顏的功效,隨著時間的推移,社會也在快速發展,人們生活水平逐步提升,紅酒市場目前擁有著巨大的發展潛力和良好的發展前景,紅酒也將逐漸走向全球化與大眾化,讓越來越多的人有機會去品嘗。近年來,越來越多的人更加講究紅酒的品質,傳統紅酒的品鑒,要考慮紅酒的香氣、口感、結構、釀造工藝、風土和價格等綜合因素。但這些復雜的品鑒技術需要積年累月的品酒經驗,對于大多數普通人來說,學習這門技術并不容易。因此,人們對于紅酒的品質界定十分地模糊,并不清楚哪些紅酒檔次較高,而哪些紅酒檔次相對較低。為了幫助人們通過更簡單直接的方法去了解紅酒的品質,本文根據Kaggle網站上WineReviews專題提供的129970組數據,使用決策樹,聚類等經典機器學習算法,分析數據規律,建立了根據紅酒產地、品種、制造商等因素預測紅酒品質的模型;并探索了影響紅酒檔次的最主要因素。該模型可以為喜歡紅酒的人們提供參考,從而使他們對于紅酒品質有著更加清晰的認識。

    2數據介紹和預處理

    本文使用的WineReviews數據集的原始出處是WineEnthusiast網站上不同國家用戶對眾多紅酒的評論。本數據集主要包含了129970款紅酒的產地國(Country)、省份(Province)、城市(Region)、評分(Points)、描述(Description)、制造商(Winery)、品種(Variety)、價格(Price)等重要因素。數據集中,評分和價格都是數值型屬性,為了構建決策樹模型,在預處理過程中,要對這兩個屬性進行離散化處理。本文根據分數的高低初步劃分這些紅酒的檔次,大于等于90分的為高等(High),大于等于85分,小于90分的為中等(Medium),小于85分的則為低等(Low)。同時,本文對價格進行排序,將紅酒的價格劃分為三個檔次:大于等于500美元的為貴(Expen-sive),大于等于100美元,小于500美元的為普通(Normal),小于100美元的為便宜(Cheap)。同時在這129970組數據當中,缺失部分數據的紅酒樣本會對計算產生影響,為消除這部分影響,本文刪除了部分數值或資料缺失的樣本,保證紅酒數據的完整性,為后文中的預測模型的準確性提供更加科學的依據。

    3單因素數據分析

    3.1原產國、價格與評分

    首先,本文將對129970款紅酒按照國家(country)分類,分別求出不同國家紅酒的平均價格和平均評分。使用了Excel的“分類匯總”功能,將國家作為“分類字段”,將“價格”和“評分”作為“匯總方式”,使用“平均值”作為匯總項。得到分類匯總的結果后,本文使用“定位”功能,將匯總結果單獨取出,使用EXCEL圖表中的“組合圖”,分別用柱形圖表示“評分”,用折線圖表示“價格”,得到結果如圖1所示。通過比較每個國家紅酒的平均價格與平均評分,我們可以判斷哪些國家的紅酒更加物美價廉。根據圖1我們分析得出,法國、匈牙利、盧森堡、德國、意大利等這些我們熟知的紅酒發展歷史悠久的歐洲國家的紅酒性價比反而比較低。反而,如印度、摩洛哥、阿爾巴尼亞、塞爾維亞、智利、土耳其等國家,其紅酒擁有不俗的品質,但是價格并不高,他們出產的紅酒往往是性價比高的選擇。其次,我們重點觀察了高品質紅酒的原產地。紅酒平均得分最高的五個國家均在歐洲,分別是英國、奧地利、法國、德國和意大利。在亞洲國家中,評分最高的三個國家是土耳其、印度和以色列。韓國、中國、黑山共和國的紅酒的平均評分是最差的。由此可見,原產國對于紅酒的評分與價格或多或少產生了一定的影響,本文會將在多因素分析中進一步解釋與說明。

    3.2省份、價格與評分

    本文使用同3.1相似的辦法,對各個原產國中不同省區(province)的性價比進行了計算,發現每個原產國都會有至少一個較大的紅酒產區。這些較大的紅酒產區出產的紅酒評分都相對較高,同時價格也相對較昂貴。例如,我們熟知的法國波爾多紅酒產區,其紅酒的平均得分在所有的省份中并不算很高,但紅酒的平均價格高達57.3美元(約合372.45元人民幣)。由此可見,出自著名產區的紅酒并不一定都是性價比可行的紅酒。同樣,本文將會在多因素分析中運用決策樹算法進一步研究省份對于價格與評分的影響。

    3.3描述、價格與評分

    如何預測一款紅酒的價格與評分,評價者們對紅酒的描述(description)也成為了一個不可或缺的因素。我們使用pythonNLTKpackage對描述中詞進行解析統計。其中,出現頻率最高的Top10名詞是:wine,flavor,fruit,acid,cherri,aroma,tannin,palat,spice,間接說明了描述的內容主要是以紅酒的氣味、口味為主,“果味”、“香料”、“酸甜度”都是評價一款紅酒很重要的因素。為了簡單分析紅酒描述對于價格和評分的影響,本文主要提取了6個不同方面的關鍵詞:絲滑(Smooth),純正(Pure),余味(Aftertaste),百分百(100%),顏色(Color)和新鮮(Fresh),并計算出含有這些高頻詞匯的紅酒平均價格與平均評分的關系。在性價比方面含有“新鮮”關鍵詞的紅酒性價最低,含有“百分百”關鍵詞的紅酒性價比最高。在評分方面,平均得分最高的是描述中含有“純正”關鍵詞的紅酒,為90.41;但這些紅酒價格不菲,平均價格為51.12美元。同時我們發現,性價比相對較低的紅酒組平均得分也不是很高。由于描述眾多,不便于統計,并且經過初步分析,描述對于紅酒的性價比影響并不是很大,因此在下面的多因素分析中將暫時不作為自變量進行分析。

    3.4品種、價格與評分

    如何更加全面準確地預測紅酒的評分,紅酒的品種也是一個不可或缺的重要因素。本文運用Excel當中的“分類匯總”功能,將紅酒的性價比根據紅酒的種類進行分類匯總并進行比較。其中Nebbiolo的性價比最高,為0.68;最低的是Rosé,為0.20。而Nebbiolo品種的紅酒得分普遍較高,為90.22分,但價格也較為昂貴,平均價格為61.70美元(約合401.05人民幣),總體來看,評分較高的紅酒品種價格都相對較高,評分較低的紅酒品種也相對較便宜,因此紅酒的品種對于紅酒評分的預測基本呈正相關,即越高檔的品種,預測的評分也會越高。3.5綜述在單因素數據分析中,本文主要通過比較平均價格與平均得分的比值,初步對各個影響因素進行初步的分析。本文初步認為,原產國有可能會成為預測紅酒得分、價格模型中一個較為重要的評分標準;描述也會有所影響,但是由于描述眾多,暫不作為預測紅酒評分的標準之一。本文將會在下一章中,運用決策樹等經典機器學習算法,進一步分析各個因素對于紅酒品質的影響,構建評分預測模型。

    4多因素數據分析

    為使該模型更加簡潔,本文通過計數的方式將48個國家分為US,France,Italy,Spain,Chile,Argentina,Portugal,Australia和Others九大類,其中前八類占總數據的90.75%;將446個省區分為California,Wash-ington,Tuscany,NorthernSpain,MendozaProvince,Oregon,Burgundy,Veneto,SouthAustralia,Piedmont,Bordeaux,NewYork,Sicily&Sardinia和Others十四類,其中前十三類占總數據的68.14%;將620個紅酒品種分為Chardonnay,WhiteBlend等和Others共二十類,其中除Others以外的其他類別占總數據的73.16%。這樣的提取基本可以為下面紅酒評分預測系統的測試提供可靠的規律。進行該處理后,本文在每條數據后添加隨機數函數RAND,生成一個所在行的隨機數,根據隨機數的大小對樣本進行重新排序,并選取其中最先出現的20000款紅酒的數據,作為我們的隨機樣本數據,建立決策樹模型進行分類和預測。在該決策樹模型中,本文以得分作為因變量,原產國,省區和品種作為自變量,價格為影響變量。選取這20000款中70%作為訓練樣本,剩余的30%作為測試樣本。訓練樣本的決策樹模型如圖2所示。根據計算結果分析,該決策樹模型的正確率約為87.8%,樹的深度為6,共有43個節點。其中,來自Tuscany,Burgundy,Bordeaux,Piedmont和SouthAus-tralia的Merlot,Syrah和Bordeaux-StyleWhiteBlend品種紅酒的預測得分最高,為93.602;來自Chil-e,Argentina,Spain和Portugal的Zinfandel,Sau-vignonBlanc,WhiteBlend,Rosé,Merlot,Nebbiolo和Shiraz品種的紅酒預測得分最低,為85.100.大多數紅酒的分數都在87分至92分之間。據此,該模型基本可以準確根據紅酒的原產國,省區和紅酒的品種對紅酒的評分進行預測。

    5總結

    本文首先單因素分析了原產國,產地和品種對紅酒的價格與評分進行了簡單的分析,之后以此為基礎,運用決策樹算法,建立了較為簡單的紅酒評分預測系統的模型。從實驗結果來看,該系統的準確率較高,因此基本可以說明紅酒的原產國,省份以及品種大致決定了紅酒的評分。但是,該紅酒評分預測系統也有一定的局限性。首先,隨機選取的樣本當中不排除平均數值較實際數值偏低或偏高的情況,因此不一定能夠準確地反映一款紅酒的整體水平;其次,該紅酒評分預測模型也只是通過分析紅酒的原產國、省份和品種而建立的,忽略了酒廠,描述以及品牌對于預測紅酒評分的影響,因此有可能會錯誤地預測紅酒的評分。雖然有一定的局限性,但是該紅酒評分預測系統提供的數據依然有值得參考的價值,人們可以通過這個系統初步了解一款紅酒的得分,從而了解這款紅酒處于什么樣的檔次。同時隨著服務業的快速發展,該紅酒評分預測系統也將具有根據人們的需求為人們推薦評分較高或性價比較高的紅酒的功能,同時也會根據用戶對于這款紅酒的評論不斷更新紅酒的評分,使該紅酒評分預測系統更加完善。然而,無論該紅酒評分預測系統有多么地完善,真正評分高的紅酒,依然需要專業的品酒師進行品鑒,提供更可靠,更科學的結論。

    參考文獻

    [1]尚朝軒.基于類決策樹分類的特征層融合識別算法[J].控制與決策,2016,31(6):1009-1014.

    作者:王柏 單位:蘇州市第一中學校

    主站蜘蛛池模板: 精品日产一区二区三区手机| 久久AAAA片一区二区| 国产微拍精品一区二区| 亚洲一区二区三区在线| 日韩综合无码一区二区| 性盈盈影院免费视频观看在线一区| 午夜视频久久久久一区 | 亚洲一区精品伊人久久伊人 | 国产激情一区二区三区| 在线欧美精品一区二区三区| 国产在线精品一区免费香蕉 | 久久久久人妻精品一区二区三区| 国产成人免费一区二区三区| 亚洲日韩一区精品射精| 久久久综合亚洲色一区二区三区| 久久精品国产第一区二区| 日本精品少妇一区二区三区| AA区一区二区三无码精片| 日韩亚洲AV无码一区二区不卡| 国产内射999视频一区| 国产一区二区内射最近更新| 中文字幕VA一区二区三区| 激情内射日本一区二区三区| 大屁股熟女一区二区三区| 久久精品综合一区二区三区| 亚洲国产一区视频| 国产精品无码不卡一区二区三区 | 国产AV一区二区三区传媒| 中文字幕人妻无码一区二区三区| 中文字幕一区日韩在线视频| 丰满爆乳一区二区三区| 在线观看午夜亚洲一区| a级午夜毛片免费一区二区| 亚洲一区二区三区AV无码| 熟妇人妻一区二区三区四区| 无码精品视频一区二区三区| 亚洲一区二区影院| 无码丰满熟妇一区二区| 国产一区二区在线观看麻豆| 一区二区不卡久久精品| 亚洲熟妇av一区二区三区 |