2011-02-26 3 views
2

Markdown, BBCode, DocuWiki 등과 같은 일반적인 패러다임의 조합을 사용하여 형식이 지정된 텍스트를 처리 할 수 ​​있도록 양방향 텍스트 구문 분석 프레임 워크를 구현하는 것이 타당한지 검토하고 있습니다. 실질적으로 이것은 각 implentation이 공통 형식으로 변환 할 수 있어야 함을 의미합니다. HTML이 될 수도 있지만 XML이나 YAML과 같은 중간 (좀 더 쉽게 파싱 가능) 형식이 될 수 있습니다.양방향 텍스트 구문 분석 권장 사항

이것은 아마도 문서를 관련 구성 요소로 분해하기 위해 토크 나이저를 사용할 것입니다. 이 방법이 가장 좋은 방법 인 것 같습니까? 중요한 장애물도 고려할 수 있습니까?

마지막으로, 기존 구현 (또는 시도)을 알고있는 사람이 누구입니까?

이것은 PHP에 초점을 맞추고 있지만 다른 해결책도 환영합니다.

답변

1

Nokogiri, Hpricot, BeautifulSoup 등과 같은 HTML 파서의 소스를 살펴보십시오. 구조화 된 텍스트 구문 분석기를 구성 할 때 고려해야 할 사항이 있습니다.

중간 형식으로 변환 할 필요가 없습니다. 토큰 처리 된 개체 트리가 모든 출력 형식을 구축하는 데 필요한 모든 기능을 수행 할 것이기 때문입니다.

특정 구현 문제가있는 경우 게시해야합니다.

+0

감사합니다. 중간 형식의 주된 이유는 원시 HTML 항목도 옵션이 될 수 있기 때문입니다. 이 옵션과 * HTML을 교환하려고하지는 않을 것이므로 어떤 점에서는 모든 것을 똑같은 (제한적) 스트레이트 재킷에 적용하는 것이 신중한 것처럼 보였습니다. – Hamish