0

나는 긴 문장에서 특정 텍스트를 추출하기위한 심층적 인 학습을 기반으로 한 모델을 구축하려고합니다.딥 학습 및 텍스트 분석/추출

200 단어의 텍스트와 내 고객 이름과 성을 가진 테이블을 가정 해 보겠습니다. 나는 깊이 학습을 사용하여이 200 단어에서 특정 고객 이름/성을 추출하는 모델을 만들려고 노력하고 있습니다.

CNN 및 RNTN 모델, 의미 분석 및 word2vec 모델에 대해 읽었지만 분명히 그 분야의 전문가는 아닙니다.

내 생각은 다음과 같습니다

  • 1 단계 : 입력 = 클라이언트 성, 출력 = 수준의 성 (姓)이
  • 2 단계 1 모델 만들기 : 제 2의 모델을 어디에 입력 = 클라이언트 이름, 출력 = 클래스 이름
  • 단계 3 : 입력 = 클라이언트 이름 + 성 및 성 + 이름, 출력 = 클래스 클라이언트
  • 단계 4 : 출력에서 ​​클라이언트 클래스를 찾으려면 입력의 단어 모음을 보내고 방법을 찾으십시오. 우리는 명사/부사/동사를 찾을 수 있습니다

같은 방법/... 우리가 클라이언트 주소로 새로운 "의미 종류"의 종류를 만들 수 있어야합니다 ....

사람이 수 내 사고 방식에 대한 조언을 해줘? 또는 어떤 부분을 개선/개선해야한다고 말합니까?

고마워요.

+0

찾는 것은 한 문장에서 클라이언트 이름과 성을 탐지 할 수없는 시스템을 만드는 것입니다. 언어 처리 작업은 방대한 분야입니다. 제가 여러분에게 조언하고자하는 것은 데이터의 일부에 라벨을 붙여 웅장한 진리를 만들고 모델을 배우는 것입니다. 수업은 최대 2 ~ 3 개가되어야합니다. 먼저 "RNN, NN"과 같은 모델을 적용하기 전에 데이터를 정리하고 텍스트를 구조화하는 몇 가지 메소드를 구현하십시오. – Feras

+0

답장을 보내 주셔서 감사합니다. 몇 가지 검색을 마친 후, 필자는 BROOU NER로 태그를 지정하여 CRF를 구현하여 내 문제를 해결하기를 고대하고 있습니다. 나는 tensorflow의 Sequence-to-Sequence 모델을 사용할 것입니다. 어떻게 일이 진행되는지 알려 드리겠습니다. 그런데 데이터를 정리하고 열차에 태그를 달 수 있도록 나에게 제안 할 수있는 도구가 있습니까? 회사 이름이 첫 번째 열에 있고 주소가 두 번째 열에있는 CSV 목록이 있습니다. 도와 줘서 고마워. – lovefinearts

답변

0

작성하기가 어려울 모델을 작성한 후에 NER (Named Entity Recognition)을 사용할 수 있습니다. 그러나 고객 이름과 성을 알고있는 경우 문장에서이를 식별하는 훨씬 더 빠른 방법이 있습니다. 테이블 매개 변수가있는 간단한 SQL 쿼리를 사용하여 클라이언트 이름과 성을 찾습니다. 저는 SQL Server 2012에서 이와 같은 것을 사용합니다.이 예제에서는 X 값의 클라이언트를 테이블 값 매개 변수로 전달하여 문장을 분리 할 수있었습니다. 나는 작업하고 있던 프로젝트에 대해 동일한 문제를 가지고 있었고 이것이 해결책이었습니다 ... 항상 대안이 있습니다.이 경우에는 몇 주가 아니라 몇 분 안에 설정할 수 있습니다.

ALTER Procedure [dbo].[Get_Sentences_Token_Table_Value_Parameter] 
@id_file int, 
@sentiment nvarchar(50), 
@client_list [dbo].[client_list] READONLY 
AS 
SELECT  TOP (1000) sentence_id, pos_remaining_token, sentiment AS Sentiment, sentence AS Sentence, id_file, pos_token 
FROM   chat_Facets 
GROUP BY sentence_id, pos_remaining_token, sentiment, sentence, id_file, pos_token 
HAVING  (id_file = @id_file) AND (sentiment = @sentiment) AND chat_Facets.pos_remaining_token IN (SELECT pos_remaining_token FROM @client_list) 
ORDER BY pos_remaining_token, Sentence 
+0

이것은 정확히 어디로 가고 있습니까? NER 타거기를 구현하기 위해 tensorflow에서 seq2seq를 사용합니다. 나는 SQL 솔루션에 대해 알고있다. 우리는 OCR 결과에서 오는 수백 가지 단어의 긴 문장에 대해 수백만 명의 사람들의 데이터베이스에서 이야기하고있다.우리는 강력한 데이터 센터를 가지고 있으므로 시간/컴퓨팅 소비가 문제가되지 않습니다 :) 나는 단지 POT/POC를 사용 가능하게 만들고 앞으로 몇 주 동안 노력하고 있습니다. 그리고 SQL 솔루션의 주된 문제는 모든 것을 해결하는 똑똑한 심층적 학습 모델을 만들 수있을 때 서버를 포화시키는 SQL 서버에 대한 이러한 호출입니다. :) – lovefinearts