美章網 資料文庫 大眾分類法的網絡文學標簽應用研究范文

    大眾分類法的網絡文學標簽應用研究范文

    本站小編為你精心準備了大眾分類法的網絡文學標簽應用研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

    大眾分類法的網絡文學標簽應用研究

    摘要:以用戶自定義標簽為主要形式的大眾分類法網絡文學領域得到了普遍應用,標簽分類對網站原有的標準化分類系統進行了補充和完善。但不同的網絡文學網站在標簽的數量、類型、詞長詞性、重合度方面具有較大差異,網絡文學標簽在規范性上也存在通用程度低、同義詞和近義詞泛濫、歧義泛意指代模糊等問題,需要借助技術手段和運營手段實現對標簽的規范控制。

    關鍵詞:網絡文學;大眾分類法;規范控制

    網絡文學是一種以網絡為載體和媒介實現創作、傳播、閱讀的過程的文學形式,廣義上泛指一切首發于網絡平臺的原創文學作品,狹義則指專門性文學網站上發表的通俗小說。本文涉及的“網絡文學”概念為狹義的網絡文學。由于網絡文學具有變化快、存量大、信息專業化程度低、無序性強的特點,且兼網絡文學的讀者閱讀需求分散、概括及表達能力參差不齊,傳統的自上而下層級式圖書分類方法既無法滿足網絡文學作品分類細化的需求,也不能幫助讀者提高信息檢索效率,反之,由用戶自發定義標簽對內容信息進行描述并實現自動分類的平行非層級分類方法,即大眾分類法,在網絡文學領域得到了普遍應用,“標簽”也成為了讀者在網絡文學網站對作品內容進行檢索時的重要依據。

    1網絡文學網站大眾分類法及標簽應用機制

    1.1大眾分類法相關概念

    2004年美國學者ThomasVanderWal首次提出大眾分類法(Folksonomy)的概念①,表示大眾分類法是廣大用戶根據自己需求和理解為信息自由添加標簽(Tag),從而實現信息分類的方法。標簽的選擇完全取決于用戶的習慣和目的,所添加的標簽不僅服務于添加者本人,還被廣泛共享于整個站點或網絡。相比主題詞和關鍵詞的使用規范,標簽在使用時通常并不要求全面概括或高度提煉信息內涵,而且標簽詞匯在專業性上沒有要求,因此具有突出的自由性、簡易性、開放性的特點。此外,標簽之間不存在層級關系,不強調唯一性,能很好地實現信息的細化分類,從而以較低的管理成本換取了較高的使用價值。然而,也正是由于自由度高、缺乏規范化管理,用戶自定義的標簽詞匯也存在詞量過大、語言混亂等問題。因此,應用大眾分類法的網站通常會利用“反長尾理論”會對用戶添加的標簽進行聚類整理,選擇高頻標簽和標簽分類結果呈現在檢索界面或推薦界面,以供用戶選擇,一定程度上實現對標簽詞量的控制。

    1.2網絡文學網站標簽使用流程

    網絡文學具備存量大、更新快、題材體裁繁雜、受眾需求分散且文化素養偏低等特點,十分適用大眾分類法。目前,國內影響力較大的原創文學網站大部分已采取大眾分類法對內容資源進行細化分類。在創作階段,網站會要求注冊的作者為作品添加適當數量內容描述性標簽,此類標簽可以在熱點標簽中進行選擇,也可以自行編輯定義。一般而言,網站對單篇作品標簽數量規定的上限為3~4個,除此之外,不對標簽詞性、字數做要求。在作品發表及閱讀階段,部分網站允許讀者用戶添加收藏標簽或構建書單標簽。當同一標簽共現次數達到一定標準,系統則會將其提取為熱門高頻標簽,出現在作品檢索頁面或首頁推薦板塊,并成為作者創作時的備選標簽。當共現次數進一步提高,該標簽甚至可能會被網站編輯所關注,經過規范化處理后提煉為基礎分類中的固定選項。

    1.3自定義標簽分類與標準化

    分類的主要區別編輯主導的標準化分類是各大文學網站的基礎分類體系,該分類與用戶主導的標簽分類體系體現在5個方面:1)所有類目的標引詞均經過編輯的規范整合,具有較高的準確性,并在語法上保持統一;2)通常情況下,基礎分類選項具有唯一性,不可多選、復選;3)通常情況下為強制性分類,作品上傳前必須加以選擇,無法跳過該分類環節;4)基礎分類主要依據作品大綱,對作品的主干內容進行分類,一般不涉及小說細節;5)基礎分類在結構上更為清晰,具有層級結構。

    2網絡文學網站高頻標簽比較分析

    本次研究統計了起點中文網、起點女生網、晉江文學城、17k小說網、瀟湘書院、縱橫中文網在內的6家文學網站、共計7個站點(17k小說網分為主站、女頻小說站兩個站點)的標簽。選擇這6家網站作為研究對象的原因是其日均流量、百度指數處于同類網站中的領先地位,并且兼顧男頻女頻兩大小說類型,具有代表性。

    2.1標簽數量比較從標簽數量上看,共收集標簽553個(不排除重復標簽),平均每個站點標簽數為79個,其中瀟湘書院和晉江文學城標簽數量最多,分別為183、119,數量最少的站點為縱橫中文網,只設定有29個備選標簽,各網站之間備選標簽數量之間存在較大差距。

    2.2標簽類型比較對網絡文學網站熱門標簽依據標簽描述對象分類,一般可以分為“角色、情節、風格”3大類。不同網站由于自身讀者群體和整體風格不同,在標簽類型上存在不同傾向。如晉江文學城119個熱門標簽中僅3個與角色有關,其他絕大多數為情節類標簽,而起點中文網74個熱門標簽中則有28個為角色類標簽,占全部熱門標簽的30%以上。2.3標簽詞長與詞性比較7個站點的熱門標簽除極少數英文詞匯外,其余詞長均為2至4個漢字字符,詞性方面則比較混亂,包括了名詞、形容詞和動詞。少數網站對篩選出來的熱門標簽的詞長和詞性進行了統一,如瀟湘書院,全部59個熱門標簽,詞長均為2個字符,詞性方面均為名詞,相對規范。其余網站,則沒有做到完全統一,但具有一定的傾向,如晉江文學城的標簽字符數較多,常見為4個字符,且多為文學性較強的成語或詞組,如“情有獨鐘”“花季雨季”“天之驕子”等,相對應的其他站點的近義標簽則為較為簡單的“專情”“青春”“精英”。

    2.4各網站之間標簽重合度比較從標簽重合度上看,7個站點間重復標簽共有112個,一定程度上體現了網絡文學標簽共通性,然而,其中出現概率在50%以上(即出現3次以上)的標簽僅有16個,此外,核心內涵一致的標簽,在不同站點或同一站點內具體表述形式上存在差異,大量詞匯在詞義上存在層級關系和關聯關系,體現了標簽設置的隨意性和用戶標注習慣的差異性。

    3網絡文學標簽存在的規范性問題

    在大眾分類法倡導由用戶自由構建標簽,這使得個體差異在標簽構造、傳播和使用的過程中體現得尤為明顯,未經過專業訓練的大眾,在設置標簽時對資源描述的準確性有所欠缺,導致標簽規范性問題在所有應用平臺上普遍存在。而在網絡文學領域,由于內容更新快、熱點交替頻繁、題材繁雜、讀者關注點分散,資源描述的難度進一步增加,規范性問題也隨之更為突出,具體表現為以下幾個方面。1)各網站之間標簽通用程度低。雖然同屬網絡文學原創網站,但各網站因其受眾和風格差異,用戶設置及網站提取的標簽,在數量、細化程度、描述側重點、語法結構、詞義詞性、具體表述形式上都存在不同。同一標簽,在不同網站的使用幾率不一;同一概念,在不同網站標簽的字面表述形式也存在或大或小的差異。例如,在男性向小說網站情感類文章較少,只需“感情”標簽即可滿足大部分男頻言情小說的分類需要,而在女性頻道,與“感情”相關標簽則需要細化為“虐戀情深”“都市情緣”“西方羅曼”等不同維度;大部分男頻網站的標簽傾向于簡單明了的概念和詞匯,相比之下女頻網站標簽文學氣息、浪漫氣息更濃,同時也更為復雜。2)大量同義詞、近義詞和關聯詞造成冗余。用戶在最初對網絡文學作品進行標注時采取的規則并不統一,導致出現大量同義詞、近義詞及關聯詞詞義交叉的問題。主要表現有兩類,一類在語義和語法上都近似,只存在微小字面差別,如“洪荒”與“洪荒流”“種田”與“種田文”;一類則是缺少字面聯系,但存在密切的內在關聯,如“吸血鬼”與“血族”“咸魚翻身”與“炮灰逆襲”“鑒寶”與“古玩”。后者比前者更為隱蔽,但造成的冗余現象以及在檢索時對查全率查準率的影響卻不低于前者。3)歧義、泛意化、復合式詞匯干擾分類。除同義詞、近義詞外,歧義、泛意化以及復合式的標簽詞匯,也對標簽分類的使用效率造成了極大的干擾。歧義的出現主要是由于網絡文學中的部分概念具有特殊性。例如,網絡文學網站中“獵人”標簽通常指代某日本動漫作品,一般用以描述以此動漫作品為創作背景的同人小說,但如果主要角色類型為“打獵者”的小說也可能使用“獵人”標簽。泛意化詞匯是指如“風云”“傳奇”等含義寬泛、指代模糊的詞匯。復合式詞匯則是指有由簡單概念組合成的復合概念,部分復合式詞匯在組合后并不能清晰表達單一主題的復合概念,如“青樓宮廷”“騎士與劍”等,對其他用戶而言,并不能明確感知被組合的概念之間的關系。4)網絡流行詞泛濫。網絡文學標簽中存在大量網絡流行詞,雖然符合用戶閱讀習慣,但由于網絡流行語本身存在的時效性短、表述不規范、審美趣味低等問題,也間接影響了用戶設置的標簽質量。與此同時,還促使部分作者利用標簽炒作、賣噱頭,故意設置獵奇標簽吸引用戶關注等問題。近年來熱點的網絡流行詞,如“網紅”,已成為諸如晉江文學城在內的部分網站的熱點標簽。起點中文網上則存在“猥瑣”等負面標簽。5)生僻標簽利用率低造成冗余。標簽分類具有明顯的“長尾”特性,高使用率的標簽僅占極小的部分,大部分標簽利用率普遍較低。這是大眾分類法無可回避的弊端。

    4網絡文學標簽規范化趨勢及手段

    對大眾分類法實現根本意義的規范控制,有賴于語義信息分析處理技術的發展,即通過挖掘標簽的內部語義信息,對同義詞、近義詞、關聯詞進行自動聚類,建立起標簽之間的等級層次關系,同時也能達成標簽規范性自動修正的目的。而在此之前,網絡文學網站依然可以通過適當干預熱門標簽的篩選展示環節,引導用戶改善現有標簽的規范性問題。1)同一集團旗下網站、同類型網站增強標簽通用性。目前,標簽一致性程度最高的網絡文學網站為閱文集團旗下的起點中文網和創世中文網,兩者檢索頁面顯示的熱門標簽幾乎完全一致。此外,同屬閱文集團的起點女生網,雖然是女頻網站,但與起點中文網的標簽熱門重合度也很高。經比較,三者在基礎分類頁面、標簽展示頁面、標簽設置頁面均有一定的相似性,篩選熱門標簽時對同義詞的取舍也具有突出的一致性。2)標簽展示系統增加篩查機制和淘汰機制。雖然無法直接干預用戶自定義標簽,但在熱門標簽展示環節,網站可以對展示出來的標簽進行外在條件上的控制,如對詞長設置上限、將新生的熱門標簽與原有標簽進行比較,排除近義詞,同時對使用頻率較低的標簽下架處理。3)融合基礎分類與標簽分類。網站可以將基礎分類與標簽分類的結果進行對應,長期處于熱門狀態、并相對穩定的標簽可以直接設置為基礎分類的選項,不僅完善了分類項,還能對標簽詞量進行控制。同時對完成基礎分類的作品,在標簽設置環節,對其備選的熱點標簽根據其基礎分類進行調整,引導用戶盡選擇規范標簽。這一手段本質上是將大眾分類法與傳統的知識分類方法進行融合。更為高效的處理方法是將經過規范化的受控詞匯與標簽進行自動關聯影射。

    作者:盧憶 單位:南京大學信息管理學院

    主站蜘蛛池模板: 国产精品538一区二区在线| 国产福利一区二区三区| V一区无码内射国产| 视频一区二区三区人妻系列| 久久精品岛国av一区二区无码| 无码丰满熟妇浪潮一区二区AV| 国产一区麻豆剧传媒果冻精品| 国产剧情一区二区| 欧美av色香蕉一区二区蜜桃小说| 中文无码精品一区二区三区| 无码精品人妻一区二区三区影院| 国产av一区最新精品| 无码精品尤物一区二区三区| 午夜影视日本亚洲欧洲精品一区| 亚洲国产专区一区| 亚洲Aⅴ无码一区二区二三区软件| 日韩免费一区二区三区在线 | 国产精品一区二区毛卡片| 无码精品黑人一区二区三区| 伊人激情AV一区二区三区| 亚洲一区二区三区在线视频| 午夜福利国产一区二区| 丰满岳乱妇一区二区三区| 国产亚洲福利一区二区免费看| 国产伦精品一区二区三区精品| 日本人的色道www免费一区| 日本一区二区三区在线观看视频| 亚洲欧美日韩国产精品一区| 亚洲欧洲专线一区| 国产精品538一区二区在线| 无码8090精品久久一区| 精品国产日韩亚洲一区| 亚洲中文字幕无码一区二区三区| 中文字幕无码一区二区三区本日 | 久久免费国产精品一区二区| 一区二区免费视频| 精品无码人妻一区二区三区18| 成人h动漫精品一区二区无码| 波多野结衣av高清一区二区三区| 国产福利电影一区二区三区久久老子无码午夜伦不 | 精品成人av一区二区三区|