두 단어의 벡터가 있습니다.문자열 일치 R : 가능한 최상의 일치 찾기
Corpus<- c('animalada', 'fe', 'fernandez', 'ladrillo')
Lexicon<- c('animal', 'animalada', 'fe', 'fernandez', 'ladr', 'ladrillo')
어휘와 코퍼스간에 가능한 한 일치시켜야합니다. 많은 방법을 시도했습니다. 이것은 그들 중 하나입니다.
library(stringr)
match<- paste(Lexicon,collapse= '|^') # I use the stemming method (snowball), so the words in Lexicon are root of words
test<- str_extrac_all (Corpus,match,simplify= T)
test
[,1]
[1,] "animal"
[2,] "fe"
[3,] "fe"
[4,] "ladr"
하지만, 경기는해야한다 :
[1,] "animalada"
[2,] "fe"
[3,] "fernandez"
[1,] "ladrillo"
대신 경기가 알파벳 순으로 내 어휘에 주문한 첫 번째 단어입니다. 그건 그렇고,이 벡터들은 내가 가지고있는 더 큰 목록의 표본입니다.
어떻게 작동하는지 모르므로 regex()를 시도하지 않았습니다. 아마도 그 해결책은 그렇게 될 것입니다.
이 문제를 해결하는 데 도움을 주시겠습니까? 도와 줘서 고마워.
저는 실제 어휘집으로 답을 테스트하고 있습니다. 나중에 결과를 알려 드리겠습니다. 둘 다 고마워. – pch919