저는 온라인 데모를보고있었습니다 : http://nlp.stanford.edu:8080/ner/process 간단한 테스트 케이스를 다음과 같이 시도하십시오 : 존 챔버는 런던 (영국)과 뭄바이 (인도)에서 공부했습니다. 3 클래스 분류기는 사람을 식별하지만 7 클래스 분류기는 사람을 식별하지 않습니다. 두 모델에 파서를 실행해야하는 것처럼 보입니다. Pe
function/structure words and content/lexical words은 어떻게 구별합니까? 나는 이미 StanfordCoreNLP을 사용하고 있으므로 가능하면 활용하고 싶습니다. 더 구체적으로 말하자면, annotator을 사용해야하며 콘텐츠/어휘를 어떻게 표시합니까? 나는 pos을 시도했지만 기능과 내용어를 구별하지 않았습니다. 추신
스탠포드 NLP (현재 TokensRegex)를 사용하고 있는데 문제가 있습니다. (ab | cd) regex는 작동하지만 (ab | cd) 아마도 하나의 정규 표현식으로 인식되지 않기 때문에 ... 문제는 정규 표현식과 약어 (예 : 영국과 영국) 모두와 일치해야한다는 것입니다. 도와 주시겠습니까? 인사말 : 프랑스!
일부 스페인어 텍스트는 Stanford Part of Speech tagger입니다. 품위표의 일부는 음성 태그의 집합과 같습니다. http://nlp.stanford.edu/software/spanish-faq.shtml#tagset 전반적으로 정확하고 문제가없는 것으로 나타났습니다. 그러나, 나는 방금 작은 스 니펫 텍스트 "Adiós ~ hailey"
The online NER demo은 $와 같은 통화 및 백만 달러와 같은 좋은 일을합니다. 예 : BSES는 인프라 업그레이드 및 보강에 7 억 2 천만 달러를 투자했습니다. 인도에서 사용되는 용어와 거의 동일한 요금 : BSES는 인프라 업그레이드 및 보강에 7,200 루피 (Rs)를 투자했습니다.
스탠포드 CoreNLP에서 텍스트 분석을위한 새 주석 작성 도구를 작성하고 추가해야합니다. 새로운 어노 테이터를 추가하는 해결책이 있습니다. 새로운 어노 테이터를 만드는 방법을 찾을 수 없습니까? 스탠포드 CoreNLP 어노 테이터 목록에서 Newsfeed 소스 이름에 대한 neww 어노 테이터를 만들어야합니다. 도움을 주시면 감사하겠습니다.
내가 내 프로젝트에 NLP 함께 일하고, 나는 토큰과 NER의 스탠포드 NLP를 사용하고 있습니까. 나는 이제 SRL에 관심이 있습니다. 스탠포드 NLP가 그림자 시맨틱 파싱을 지원하는지 묻고 싶습니다. 만약 그렇다면, maven 또는 Jar Files의 용어로 어디서 구할 수 있습니까?
스탠포드 NER 및 스탠포드 POS 태그 지정자 약 23000 개의 문서를 구문 분석하려고합니다. 15기가바이트 RAM, 단지 NER에 대한 약 945 시간 실행 시간, 4 코어 시스템에 대한 `for each in document:
eachSentences = PunktTokenize(each)
#code to generate NER T