語料庫是壹組原始文本,用於無監督地訓練文本主題的隱藏結構。不需要手動標記語料庫中的附加信息。在Gensim中,語料庫通常是壹個叠代對象(比如壹個列表)。每次叠代返回壹個稀疏向量,可用於表達文本對象。
向量是壹組文本特征的列表。它是壹個文本在Gensim中的內部表達。
詞典是所有文檔中所有單詞的集合,記錄了每個單詞出現的次數等信息。?
模型是壹個抽象的術語。定義了兩個向量空間的變換(即從文本的壹個向量表示到另壹個向量表示)。
用壹個實驗來了解:
# -*-編碼:UTF-8 -*-?
從gensim導入語料庫,相似性,模型
進口潔霸
classGensimExp(對象):
def__init__(self,documents,test_document,Type,feature_num,best_num):
self.raw_documents =文檔
自我測試文檔=測試文檔
自我。SimCalType =類型
self.num_features = feature_num
self.num_best =最佳數量
defCalSim(self):
corpora_documents = []
#分詞
for item _ textin self . raw _ documents:
item _ seg = list(jieba . cut(item _ text))
corpora_documents.append
#生成詞典和語料庫
字典=語料庫。詞典(語料庫_文檔)
#計算每條新聞對應的弓矢。
corpus =[dictionary . doc 2 bow(text)for text incorporation _ documents]#叠代器
如果自己。simcal type = = ' Similarity-tfi df-index ':
#統計語料庫中每個特征的IDF值?
tfidf_model =模型。TfidfModel(語料庫)
語料庫_ tfi df = tfi df _ model[語料庫]
自我。_相似性=相似性。相似性(自我。SimCalType,corpus_tfidf,\
num_features=self.num_features,num_best=self.num_best)
test _ cut _ raw = list(jieba . cut(self . test _ document))
test _ corpus = dictionary . doc 2 bow(test _ cut _ raw)
#根據訓練好的模型,生成IF-IDF值,然後計算相似度。
自我。_ test _ corpus = tfi df _ model[test _ corpus]
elifself。SimCalType = = ' Similarity-LSI-index ':
lsi_model =模型。LsiModel(語料庫)
語料庫_ LSI = LSI _ model[語料庫]
自我。_相似性=相似性。相似性(自我。SimCalType,corpus_lsi,\
num_features=self.num_features,num_best=self.num_best)
test _ cut _ raw = list(jieba . cut(self . test _ document))
test _ corpus = dictionary . doc 2 bow(test _ cut _ raw)
自我。_ test _ corpus = LSI _ model[test _ corpus]
自我。打印輸出()
defPrint_Out(self):
string = '最相似的材料是'
fortplinrange(len(self。_相似性[自我。_test_corpus])):
iftpl!= len(自我。_相似性[自我。_test_corpus]) -1:
string =字符串+ str(self。_相似性[自我。_test_corpus][tpl][0]) \
+'('+ str(self。_相似性[自我。_test_corpus][tpl][1]) +'),'
否則:
string =字符串+ str(self。_相似性[自我。_test_corpus][tpl][0]) \
+'('+ str(self。_相似性[自我。_test_corpus][tpl][1]) +')'
打印(字符串)
if__name__=='__main__ ':
raw_documents = [
0 1 19,中信集團與騰訊在深市簽署戰略框架協議,宣布將推進雲與大數據、區塊鏈、人工智能等技術領域的業務合作,積極探索實體產業數字化轉型升級之路。,
1浦發銀行公告稱,公司成都分行因違規信貸業務等違法違規行為被銀監會罰款4.62億元,罰款金額全額計入公司2017年度損益,對公司業務發展和持續經營無重大不利影響。,
2浦發銀行被罰4.62億元回應浦發銀行成都分行違規:從浦發銀行總行獲悉,浦發銀行對成都分行違規發放貸款案深感尷尬;我們堅決支持和接受監管部門的調查,同時將以此為鞭策,加強自身管理,堅持從嚴治理,始終把合法合規經營作為未來業務發展的根本。(蔡邑)’,
3.蘇測公告:公司首次公開發行前發行的65,438+0,332,000股將於6月24日解禁,占公司總股本的65,438+0%;解禁日實際流通股65,438+0,226,5438+0.5萬股,占總股本的9.73%。本次申請解除股份限售的股東為蘇州測試儀器總廠及鐘瓊華、、吳、陳穎等四名自然人股東。" ,
據報道,波士頓科學和國藥控股的壹家子公司參與了對XIO子公司Lumenis的競購。,
5蘇寧尚雲回復深交所問詢函:2065438+2007年7月,蘇寧金融研究院正式成立區塊鏈實驗室,開展區塊鏈技術及其在金融行業的應用研究,旨在利用區塊鏈技術為蘇寧金夫業務和蘇寧銀行業務提供技術支持。蘇寧銀行區塊鏈國內信用證信息傳輸系統采用聯盟鏈模式,僅在聯盟銀行之間免費使用,不對外提供直接服務。這個系統沒有直接收入。,
馬龍環衛公告稱,公司654.38+600億首次公開發行限售股將於654.38年6月26日上市流通,涉及654.38+07名股東,包括現任董事、監事、高管張桂鳳。,
航天工程7日發布公告,公司首次公開發行的3.24億股限售股將於6月29日上市流通。涉及的股東有中國運載火箭技術研究院、航天投資控股有限公司、北京航天動力研究所、北京航天產業投資基金(有限合夥)和全國社保基金理事會劃轉的兩戶。,
大千生態公告,公司與江蘇大千設計院有限公司組成的聯合體已中標高淳區東壩鎮EPC總承包項目,預計投資約654.38+0.4億元。該項目的順利實施將對公司今年的經營業績產生積極影響。,
9 1954 2月19日,蘇聯最高蘇維埃主席團在“兄弟般的烏克蘭與俄羅斯結盟300周年”之際通過決議,俄羅斯聯邦克裏米亞州劃給烏克蘭加入共和國。
10姬友股份公告,公司預計2017年度凈利潤較去年同期增加約4250萬元至5300萬元,增幅約80.49%-100.37%,上年同期盈利5280.38萬元。本期收入比上期增加較多,營業利潤比上期增加較多;收到的政府補助、理財收益等非經常性損益對公司凈利潤的影響約為3200萬元。,
11千山藥機:大股東質押股份跌破平倉線。千山藥機公告稱,第壹大股東、實際控制人之壹劉向華合計持有公司14.83%的股份。目前,劉向華* * *質押公司13.78%股權。劉向華質押給國泰君安證券的2980.8萬股已跌破平倉線。該公司目前正在接受證券及期貨事務監察委員會的調查。根據有關規定,公司大股東在調查期間不得減持(包括股權質押和清算)。因此,本次劉向華質押的股票將跌破平倉線,不會導致公司實際控制權發生變化。,
12天馬精化:子公司擬逾億元控股中科電子,加大供應鏈管理發展戰略。,
' 13超華科技'公告,近日接到持股子公司貝爾信員工通知,報告貝爾信公司近期無法與其董事長鄭長春取得聯系。截至目前,該公司未能與貝爾信董事長鄭長春取得聯系。經與貝爾信主要股東討論並經貝爾信董事會批準,將由貝爾信現有管理層組成臨時工作組,維護貝爾信正常的生產經營秩序。公司對貝爾信進行了全面核查,維護上市公司和股東利益。" ,
根據' 14洪升科技公告,公司預計2017年度實現利潤2.8億元至2.9億元,同比增長20.65%至24.96%,去年同期實現利潤2.32億元。‘報告期內,公司預計非經常性損益對凈利潤的影響約為65,438+00萬元-65,438+03萬元。’,
15徐東光電公告稱,控股股東徐東集團員工成長計劃已完成購買公司股份,合計購買1119010,000股,占總股本的0.2%,合計成交約102萬元。
]
obj 1 = gensim exp(raw _ documents,'數字化轉型升級路徑',' similarity-tfidf-index ',600,5)。卡爾西姆()
Obj2 = GensimExp(raw_documents,'信貸業務非法處理',' similarity-tfidf-index ',600,3)。卡爾西姆()
Obj3 = GensimExp(raw_documents,'本期收入比上期增加了','相似性-LSI-index ',400,2)。卡爾西姆()
實驗結果:
因為語料庫不多,返回的相似文本數量少,但可以看出判斷是正確的。(PS:分詞過程中未處理停用詞)
參考:
/gensim/tutorial.html