導航:首頁 > 研究方法 > vsm的分析方法符號

vsm的分析方法符號

發布時間:2024-03-27 04:58:40

⑴ 文本相似度計算(一):距離方法

距離方法
1、文本的表示
1.1、VSM表示
1.2、詞向量表示
1.3、遷移方法
2、距離計算方法
2.1、歐氏距離 (L 2 范數)、曼哈頓距離 (L 1 范數)、 明氏距離
2.2、漢明距離
2.3、Jaccard相似系數、 Jaccard距離( 1-Jaccard相似系數)
2.4、餘弦距離
2.5、皮爾森相關系數
2.5、編輯距離

場景舉例:
1)計算 Query 和文檔的相關度、2)問答系統中計算問題和答案的相似度、3)廣告系統中計算 Query 和廣告詞的匹配程度、4)推薦系統中 要給某個用戶推薦某件物品,計算這件物品和這個用戶興趣的相似度
更多地,判斷兩個query表達的意思是否相同也可以看作屬於文本相似度的范疇。
相似度一定是指兩個東西(姑且分別用 P 和 Q 表示)的相似程度,而這兩個東西可以是任何形式的,例如文本、圖片、聲音等等。最終要計算相似度,那必須把這些東西抽象成數學形式,說白了 ,就是怎麼用數字把 這些 東西表示出來, 一 般會表示成向量或者矩陣。那如果表示成了向量, 計算相似度就可以使用大家在數學課上學的知識了。
這里希望可以比較清晰全面地介紹一下文本相似度的計算方法,目前來說,大致分為距離、hash、深度學習三種方法。

這些所謂的距離其實都是一些 固定 的公式而己,關鍵在於如何應用。實際應用中可以使用tf-idf、word2vec、LDA等方法實現相似度的距離計算。

很多相似度的第一步其實都是文本的表示問題,即把文本用數字的形式表示出來,這一步目前主要有 VSM(vector space model) ,和 詞向量表示 兩種方式。

這種方法其實靈活性較大,可以基於分詞,對於中文基於字元或n-grams的表示也有一定效果。
1) tf-idf/bow表示 :在給定文檔集合C和詞典D的條件下,將某篇文檔通過詞袋模型表示成一個個的詞,而後根據 TF-IDF 為每個詞計算出一個實數值;
由於詞典D的大小為M,因此 將這篇文檔轉化成一個M維向量 ,如果詞典中某個詞未出現在文檔中,則這個詞的在向量中對應的元素為0,若某個詞出現在文檔中,則這個詞在向量中 對應的元素值為這個詞的tf-idf值 。這樣,就把文檔表示成向量了,而這就是 向量空間模型(vector space model) 。從這里也可看出:向量空間模型並沒有catch住詞(term)與詞(term)之間的關系,它假設各個term之間是相互獨立的。
而有了文檔向量,就可以計算文檔之間的相似度了。
這種表示方法與詞典大小相關,往往會使文本的表示比較稀疏且高維,可以通過PCA緩解這一問題。
2) 主題模型表示 :實際上VSM可以作為一種文本表示的思想:把對文本內容的處理簡化為向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度。
在這個角度,使用LDA,LSA等主題模型同樣可以完成文本的VSM表示:將文本表示為topic的向量空間。
這種方法維度可自定義(topic數),且不稀疏,但是可能存在文本對之間距離相似度分布空間密集的情況導致效果不佳。

這種方法一般直接將文本分詞後 將詞向量相加除以句子長度就可得到 。也可以使用如 smooth inverse frequency的加權方法 將詞向量加權:每個詞嵌入都由a/(a + p(w))進行加權,其中a的值經常被設置為0.01,而p(w)是詞語在語料中預計出現的頻率。
一般來說word2vec的詞向量方法 強於glove方法 ,而對於word2vec,cbow方法強於skip-gram(具體原因並不復雜,感興趣可以從訓練方法角度思考一下~)

更多地,上述文本表示方法其實會損失或無法捕捉到語義信息,通過bert、elmo等預訓練方法的表示更加靠譜,也可以用於無監督的文本相似度計算。

歐氏距離:

曼哈頓距離:

表示兩個(相同長度)字對應位不同的數量,我們以d(x,y)表示兩個字x,y之間的漢明距離。對兩個字元串進行異或運算,並統計結果為1的個數,那麼這個數就是漢明距離。

(1)雅各相似系數:
兩個集合A和B的交集元素在A,B的並集中所佔的比例,稱為兩個集合的傑卡德相似系數,用符號J(A,B)表示。

傑卡德相似系數是衡量兩個集合的相似度一種指標。
實際使用中,可以用去重與不去重兩種方式計算,更多地,可以轉換為交集的tf-idf值之和除以並集的tf-idf值之和

(2) 傑卡德距離
  與傑卡德相似系數相反的概念是傑卡德距離(Jaccard distance)。
傑卡德距離可用如下公式表示:


傑卡德距離用兩個集合中不同元素占所有元素的比例來衡量兩個集合的區分度。

夾角餘弦取值范圍為[-1,1]。夾角餘弦越大表示兩個向量的夾角越小,夾角餘弦越小表示兩向量的夾角越大。當兩個向量的方向重合時夾角餘弦取最大值1,當兩個向量的方向完全相反夾角餘弦取最小值-1。文本的相似度一般取絕對值。

皮爾森相關系數在推薦系統用的較多,它的公式如下 :

指兩個字元串,由一個變成另一個所需的最少的編輯次數,這個編 就包括替換、插入、刪除操作。

文本相似度的計算一般使用VSM/cbow+cos距離/歐式距離,或jaccard距離

Dice 系數可以計算兩個字元串的相似度:Dice(s1,s2)=2*comm(s1,s2)/(leng(s1)+leng(s2))。

https://blog.csdn.net/weixin_43526820/article/details/89883640?spm=1001.2014.3001.5501

⑵ VSM價值流圖的VSM價值流圖分析法

對一個產品來說,以下兩條主要流動路徑是至關重要的:一是從原材料到達顧客手中的生產流程;二是從概念到正式發布的產品設計流程。價值流就是使一個產品通過這些主要流程所需要的全部活動,包括增值活動、必要但非增值活動和非增值活動(即浪費)三類。研究表明,企業用於增值活動的時間僅占整個流程的極小部分,大部分時間都花在非增值的活動中。價值流圖是一種使用鉛筆和紙的工具,它有助於觀察和理解產品通過價值流過程時的物料流動和信息流動,以及其中的增值和非增值活動,從而發現浪費和確定需要改善的地方,為改善活動定下一個藍圖和方向。同時也便於員工了解企業的狀態,提供參與改善的機會。
應用價值流圖分析企業生產流程,意味著要從全盤看待問題,而不是集中於某個單獨的過程;意味著將改變整體,而不僅僅是優化某個部分。價值流圖分析可以是針對企業又稱為「四堵牆以內」)的活動進行分析和改善,也可以針對「四堵牆以外」,即從供應商出貨起到顧客收貨為止的整個價值流的分析和念茄纖改善。
圖二價值流圖示意圖在價值流分析中,有一套約定俗成的符號供繪制價值流圖之用,使用者只要經常運用,就能輕易掌握。價值流圖分析法的一般先對運作過程的現狀進行分析,即所謂「當前狀態圖」。從顧客一端開始,首先要了解顧客的需求情況及節拍Takt,因為Takt決定了生產各個工序的節拍。生產節拍不能滿足Takt的要求,就有可仔仿能導致過納友量生產或停頓、生產不足或延遲,這些都是浪費。延遲發貨還會導致顧客的不滿意,造成進一步的信譽損失。然後研究運作流程中的每一道工序,從下游追溯到上游,直至供應商。分析每個工序的增值和非增值活動,包括准備、加工、換型、庫存、物料轉移方法、質量狀況、停機次數、班次、人數等等,記錄對應的時間。接著要了解和分析物流信息的傳遞方法和路徑,包括顧客到工廠、工廠到供應商、生產物料計劃到各工序的信息傳遞情況,生產計劃是如何下達的。最後,有了上面的資料,就可以計算出整個運作過程的生產周期(TotalProctCycleTime)以及相應的增值時間。通常,人們會發現改善之前增值時間只佔Tpct的很小比例,遠不足5%。
有了「當前狀態圖」,管理人員一般都能比較容易地判別和確定出浪費所在及其原因,為消滅浪費和持續改善提供目標。「未來狀態圖」是以精益思想為指導,按照企業的實際情況,為未來的運作模式指明方向,設計新的精益流程。所謂「未來狀態」,也僅僅是基於當前的技術和認知水平,在一定時間內可以達到的較為理想的目標。隨著人們技術和認知水平的提高,原來的目標又變得不理想了,人們又進入了一個更高層次的改善循環。如此往復,正是精益思想中「與完美競爭,永無止境」的精髓所在。

閱讀全文

與vsm的分析方法符號相關的資料

熱點內容
退役軍轉干歷史向題解決方法 瀏覽:924
自製麻將桌安裝方法 瀏覽:87
如何對付賭徒的方法 瀏覽:489
如何修改禪定的方法 瀏覽:485
男士散粉加bb霜的正確方法 瀏覽:112
機械密封系統安裝方法 瀏覽:884
如何讓人上當的方法 瀏覽:383
衣櫃材料計算方法 瀏覽:288
洗眼器的正確使用方法 瀏覽:845
左側基底腦腔梗功能性鍛煉方法 瀏覽:872
小孩的正確刷牙方法牙醫 瀏覽:242
兒童認識顏色的訓練方法 瀏覽:903
截屏的幾種方法蘋果手機 瀏覽:544
武漢標桿企業調研有哪些方法 瀏覽:668
生命之旅運用了哪些閱讀方法 瀏覽:132
燕窩保養方法視頻 瀏覽:993
管理學幾大方法論有哪些 瀏覽:98
手機噴砂處理方法 瀏覽:859
治療氣管炎的方法 瀏覽:92
級別大小的計算方法 瀏覽:573