터키어로 150,000 개가 넘는 기사가 있습니다. 나는 자연 언어 처리 연구를위한 기사를 사용할 것이다. 기사 처리 후 기사당 단어 및 빈도를 저장하고 싶습니다.많은 기사에 대한 단어 목록 - 문서 용어 행렬
이제 RDBS에 저장하고 있습니다. -> article_id를, 텍스트
단어 -> word_id, 유형, 단어
단어 - 조 -에> word_id에 대한 ID, word_id, article_id를, 주파수 (인덱스, 인덱스
기사 :
나는 3 개 테이블이 article_id를)
나는 기사 articl 당
- 에 대한 모든 단어를 쿼리합니다 모든 기사와있는 전자
- 워드 발생 기사
또한 4GB 램이 장착 된 컴퓨터에서이 작업을 처리해야합니다.
간단히 말해, 문서 용어 행렬을 저장하고 쿼리를 만드는 방법은 무엇입니까? 성능이 필요합니다. "키 - 값 데이터베이스"가 mysql 성능을 이길 수 있습니까? 또는 mysql을 이길 수있는 것은 무엇입니까?
답변 프로그래밍 언어에 의존한다면 저는 파이썬으로 코드를 작성하고 있습니다. 하지만 C/C++, Java는 괜찮습니다.