2010-01-27 2 views
1

저는 텍스트 파서의 아키텍처를 설계하고 있습니다. 예문 : Content here, content here.하나의 문장으로 구성되는 단어는 무엇입니까? 이름을 짓는 방법?

전체 문장은 ... 명백한 문장입니다. The, quick 등은 단어입니다. ,.은 문장 부호입니다. 그러나 일반적으로 단어와 구두점은 모두 무엇입니까? 그들은 단지 상징일까요? 나는 하나의 문장이 가장 합리적인 추상적 인 방법으로 구성되는 것을 어떻게 명명 하는지를 모른다. 왜냐하면 하나의 문장이 글자/모음 등으로 구성되기 때문이다. 어떤 도움

감사합니다 :)

답변

3

기술적으로 어휘 분석 ("렉싱")은 일련의 입력 기호를 받아 일련의 토큰이나 어휘를 생성합니다. 즉, 구두점과 공백은 모두 토큰입니다.

(E) BNF 용어에서 어휘 또는 토큰은 "터미널 기호"와 동의어입니다. 구문 분석 규칙 집합을 트리로 생각하면 터미널 심볼은 트리의 나뭇잎입니다.

입력의 원자는 무엇입니까? 그것은 단어인가 문장인가? 단어 (및 공백) 인 경우 문장은 구문 분석 규칙과 유사합니다. 사실 "문장"이라는 용어 자체가 오해의 소지가 있습니다. 전체 입력 시퀀스를 문장으로 참조하는 것은 드문 일이 아닙니다.

비 공백 문자의 시퀀스에 대한 세미 공통 용어는 "텍스트 런"입니다.

+0

입력은 일반적으로 모든 텍스트가됩니다. 그것은 많은 문장들로 구성 될 수 있습니다. 그런 다음 최종 문장을 얻고 더 많은 분석을 수행하기 위해 분석됩니다. 그러나 원자는 ... 다른 상징이 있기 때문에, 그것은 단어가 아닙니다. 나는 디자인의 단순성을 위해 그것들을 호출하는 방법을 알고 싶었다. 당신의 도움을 주셔서 감사합니다. – shazarre

2

분석에 대해 이야기 할 때 자주 사용되는 두 개의 하위 범주 "단어"와 "문장"을 포함하는 일반적인 용어는 "토큰"입니다.

+0

문장도이 방식으로 표시됩니다. 나는 구문 분석 용어를 참조하고 싶지 않지만 실생활 하나를 말하고 싶다. – shazarre

+1

문장은 결코 토큰이 아니며 토큰으로 구성된다. 구문 분석기는 문장의 토큰을 구문 분석 트리로 작성합니다. 실생활 (비 기술적 인 용어로 가정)을 원한다면 사람들은 단어와 구두점을 하나의 예를 나타낼 수있는 하나의 단어로 결합 할 필요가 없다고 느껴질 것입니다. – jball

2

보고있는 입력 텍스트의 lexical analysis 단계에 따라 "어휘"또는 "토큰"이 될 수 있습니다.