다음 문제에 대한 최선의 접근에 대한 귀하의 의견에 진심으로 감사드립니다. 나는 차 분류 된 리스팅 예제를 사용하고있다.Help : 텍스트에서 데이터 튜플 추출하기 ... 정규식 또는 기계 학습?
문제점 : 주어진 텍스트에서 데이터 튜플을 추출하십시오.
다음은 데이터의 일부 특성입니다.
텍스트의 어휘 (단어)는 특정 도메인으로 제한됩니다. 최대 100-200 단어를 가정합니다.
파싱해야하는 텍스트는 아래에 표시된 자동차 광고 데이터와 같은 헤드 라인입니다. 따라서 각 레코드는 하나의 튜플 (행)에 해당합니다.
경우에 따라 일부 특성이 누락되었을 수 있습니다. 그래서 예를 들어, 원시 데이터 행 # 5 아래에 올해가 없습니다.
일부 단어가 함께 표시됩니다 (bigrams). "낮은 마일"처럼. 사용할 수
과거 데이터 = 10,000 개의 레코드
들어오는 새 데이터 볼륨 = 1,000에서 1,500 사이 기록/주
예상 출력 (년, 메이크업, 모델의 형태로해야한다, 특색). 그래서 출력이 같아야합니다
1 -> (2009, 포드, 퓨전, SE)
2 -> (1997, 포드, 황소 자리, 왜건)
3 -> (2000, 미쓰비시, 미라지, DE)
4 -> (2007, 포드, 원정, EL 제한)
5 -> (혼다, 어코드, EX)
....
....
원시 제목 데이터 :
,
1 -> 2009 포드 퓨전 SE - $ 7000
2 -> 1997 포드 토러스 왜건 - $ 800 (산호세 동쪽)
3 -> '00 미쓰비시 미라지 DE - $ 2499 그림 (사라토가)
4 -> 2007 포드 원정 EL 제한 - $ (7800) (X)
5 -> 혼다 어코드 전 낮은 마일 - $ 2800 그림 (더블린/플레/리버모어)
6 -> 2004 HONDA ODASSEY LX 68K 마일 - $ 10800 (댄빌/산 라몬)
7 -> 93 LINCOLN MARK - $ 2000 (동쪽 오클랜드) 사진
8 -> ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI ####### - $ 19700 (san rafael) 사진
9 -> 2004 Audi A4 1.8T FWD - $ 8900 (새크라멘토) 사진
10 -> ####### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 ####### - $ 10575 san rafael) pic
11 -> 1990 Toyota Corolla RUNS GOOD! 가스를 구해라! 5SPEED CLEAN! REG 2011 O.B.0 - $ 1600 (헤이워드/카스트로 밸리) 사진
12 -> HONDA ACCORD EX 2000 - $ 4900 (dublin/pleasanton/livermore) 사진 13 -> 2009 Chevy Silverado LT 크루 캡 - $ 23900 (dublin/pleasanton/livermore) 그림
(14) -> 2010 아큐라 TSX - V6 - TECH - $ 29,900 그림 (더블린/플레/리버모어)
15 -> 2003 닛산 알티마를 - $ (1830) 그림 (SF)
가능한 선택 :
- 기계 학습 닝 텍스트 분류 (등 나이브 베이 즈)
- 정규식 내가 알아 내기 위해 정규식이 일을 위해 너무 복잡하고 텍스트 분류가 과잉 인 경우입니다 노력하고 무엇
?
텍스트 분류기를 사용하는 것이 가장 쉬운 방법이라고 생각하십니까?
친절한 도움을 미리 감사드립니다.
알고리즘을 학습/테스트하기 위해 데이터에 레이블을 지정 했습니까? 이로 인해 기계 학습 관점에서 적용 할 수있는 접근 유형이 제한 될 수 있습니다 (예 : 언어 모델링에는 적절한 크기의 자료가 필요함). – jeff7
예. 교육 목적으로 많은 데이터가 있습니다 ... –