2017-01-25 5 views
0

미리 훈련 된 구문 네트워크 모델을 사용하여 (즉, Parse McParseface를 사용하여) 코퍼스에 주석을 추가했습니다. 출력을 이해하는 데 문제가 있습니다. 출력에는 두 가지 메트릭이 다시 표시됩니다. POS 태깅 및 의존성 분석을위한 것입니까? 그렇다면 POS 태깅 성능과 종속성 구문 분석 성능 중 어느 것이 있습니까?코퍼스에 주석을 달 때 synaxnet의 출력을 해석하는 방법

INFO:tensorflow:Total processed documents: 21710 INFO:tensorflow:num correct tokens: 454150 INFO:tensorflow:total tokens: 560993 INFO:tensorflow:Seconds elapsed in evaluation: 1184.63, eval metric: 80.95% INFO:tensorflow:Processed 206 documents INFO:tensorflow:Total processed documents: 21710 INFO:tensorflow:num correct tokens: 291851 INFO:tensorflow:total tokens: 504496 INFO:tensorflow:Seconds elapsed in evaluation: 1193.17, eval metric: 57.85%

답변

1

당신이 https://github.com/tensorflow/models/blob/master/syntaxnet/syntaxnet/demo.sh 를 사용하는 경우 다음 첫 번째 메트릭은 POS 태그 정확성, 두 번째 UAS : 여기

이 출력됩니다. 입력 한 대화 상자 데이터에 금 POS 태그 및 금 의존성이 포함 된 경우에만 의미가 있습니다.

+0

그건 의미가 있습니다. 왜 다른 수의 처리 된 문서와 총 토큰을 표시하는지 궁금합니다. POS 데이터와 종속성 구문 분석을 위해 주석 처리 된 골드 데이터 세트가 있습니다. 여러 파일에서 파서를 실행할 수 없지만 하나의 파일에서 실행됩니다. CoNLL 형식의 모든 주석을 단일 파일로 결합하여 파서에 쉽게 전달할 수있게되었습니다. 총 문서 및 토큰 수에 대한 통계는 동일해야합니다. – user2161903

+0

POS 태그 지정 및 종속성 구문 분석을위한 총 토큰 수의 차이는 구두점과 같은 종속성 구문 분석의 일부 토큰이 평가를 위해 고려되지 않는다는 것입니다. – user2161903