파이썬에서 n 그램 계산을하려고하는데 내 텍스트 데이터 구성에 MySQL (MySQLdb 모듈)을 사용할 수 있다고 생각했습니다.MySQL에서 직렬 텍스트 파일 읽기 성능에 가깝습니다.
고유 숫자 ID (자동 증가) 및 언어 varchar
필드 (예 : "en", "de", "es"등)로 인덱싱 된 문서를 나타내는 약 10mil 레코드가 꽤 큽니다. ..)
select * from table
은 너무 느리고 메모리가 파괴적입니다. 내가 좋아하는 쿼리 하나 그 작은 레코드의 각 세트를 (각 2000 명 기록 넓은 말)보다 작은 범위로 전체 ID 범위를 분할하고 처리 결국 ... 등등
select * from table where id >= 1 and id <= 1999
select * from table where id >= 2000 and id <= 2999
및
MySQL에서보다 효율적으로 처리하고 큰 코퍼스 텍스트 파일을 순차적으로 읽는 것과 비슷한 성능을 얻을 수있는 방법이 있습니까?
레코드의 순서는 신경 쓰지 않고 큰 테이블에서 특정 언어와 관련된 모든 문서를 처리 할 수 있기를 원합니다.
감사합니다. – Alexandros