J'ai écrit un petit programme python d'environ 70 lignes pour calculer la similarité des documents.
Le matériel est constitué de 88 documents papier, utilisant le package gensim.
Le processus du programme consiste à prétraiter le document (suppression des symboles inutiles, segmentation des mots, etc.), à calculer la valeur tfidf du document et à établir le modèle tfidf et l'index du modèle de 88 articles. Jusqu'à présent, le programme fonctionne normalement, mais lors de l'utilisation de l'index, une erreur est signalée?:
Quelle est la cause de cela ? Merci~
Ce qui suit fait partie du code source qui s'exécute sans problème?:
#分詞:
texts = [[word for word in document.split()]for document in documents]
#利用所有文檔,創(chuàng)建詞典
dictionary = corpora.Dictionary(texts)
#創(chuàng)建語料
corpus = [dictionary.doc2bow(text) for text in texts]
#利用這些語料,創(chuàng)建tfidf模型
tfidf_model = models.TfidfModel(corpus)
#計(jì)算每個(gè)文檔的tfidf
tfidfs = tfidf_model[corpus]
#創(chuàng)建tfidf的索引
index = similarities.SparseMatrixSimilarity(tfidfs,num_features=88075)
Un problème est survenu lors de l'exécution de ce code?:
#創(chuàng)建目標(biāo)文檔的語料
content = 'A student of music needs as long and as arduous a training to become a performer as a medical student needs to become a doctor'
content = content.lower().split()
test = dictionary.doc2bow(content)
#計(jì)算目標(biāo)文檔的tfidf
test_tfidf = tfidf_model[test]
sims = index[test_tfidf]#**就是這一句出現(xiàn)了問題!**
Quelle est votre version de Python?? Actuellement gensim
的版本?是否和官網(wǎng)測試過的穩(wěn)定版一致?還有,建議使用類Unix系統(tǒng),gensim基于 NumPy
和 Scipy
, il est difficile d'installer les deux sur Win. Même s'ils sont installés, il ne peut y avoir aucun problème
Cette erreur peut également être provoquée par le système d'exploitation Windows. Si vous copiez le code sur Google, vous trouverez de nombreuses solutions, comme celle-ci?:
http://www.wiki-errors.com/do... Téléchargez-le et installez-le. Retournez sur Baidu pour assurer votre sécurité.