2009-09-23 5 views
4

블로그 게시물을 쓸 수있는 웹 사이트를 운영하고 있으므로 서면으로 작성한 내용을 요약하여 예를 들어 <meta name="description".../> 태그를 채우기 위해 사용하고 싶습니다.사용자 생성 콘텐츠를 자동으로 발췌하는 방법은 무엇입니까?

사용자 제작 콘텐츠의 콘텐츠를 자동 요약/설명하는 데 사용할 수있는 방법은 무엇입니까?
이 문제를 해결 한 방법 (선호 무료)이 있습니까?

(내가 본 다른 웹 사이트는 처음 100 개 정도의 단어를 복사 할 수 있지만이 하위 최적의 솔루션으로 저를 친다.)

답변

5

문서에서 '가장 중요한 문장 선택'에 대한 과제로 요약 작업을 생각해보십시오.

The Automatic Creation of Literature Abstracts에 의해 H.P.에 기재된 방법. Luhn (1958)은 실제로 잘 수행 할 수있는 순진한 방법을 설명합니다. 한 번 시도해보십시오.

웹 사이트가 파이썬 코딩 인 경우 NLTK (Natural Language Toolkit)을 사용하는이 알고리즘은 재미있는 작업입니다.

+0

불행히도 PHP (+1) – Jacco

1

I 기계 터크 또는 다른 크라우드 소싱 옵션의 번호를 사용하여 시도 할 수 있습니다.

0

인공 지능에 국한되므로 "쉬운"솔루션이 될 수는 없지만이 문제를 해결하는 제품이 있습니다.

Copernic Summarizer을 확인하십시오.

1
+1

은 "어떻게 텍스트의 요점을 식별하는"종이는 소프트웨어를 사용할 수 있습니다 또한 http://www.icmc.usp.br/~taspardo/GistSumm.htm –

+0

, 미드 프로젝트 (HTTP를 : //www.summarization.com/mead/) 미시간 대 (University of Michigan)의 일부 사람들은 링크가 다운되었지만 소프트웨어를 사용할 수있는 것처럼 보입니다. –

+0

다른 링크는 죽었으므로 "텍스트의 요지 식별 방법"문서는 이제 여기에서 찾을 수 있습니다. http://www.icmc.usp.br/~taspardo/I2TS2002-PardoEtAl.pdf – HappyTimeGopher

4

그것을 예측합니다.

간단히 말해서 첫 번째 단락을 사용하는 사용자 관점에서는 전혀 나쁘지 않습니다. 자동화를 사용하는 것이 경우에 따라 넘어 질 수 있습니다. 그래서 첫 번째 단락 (일부 지점에서자를 수 있음)을 요약으로 표시하고 옵션 필드로 재정의 할 수있는 기능을 제안합니다.

0

명사 문구는 일반적으로 문장의 중요한 요소가 될 경향이있다. 명사구의 밀도가 높은 문장을 선택하면 좋은 요약을 얻을 수 있습니다. POS 태거를 사용하여 명사구를 얻을 수 있습니다.

좋은 요약을 위해 의미있는 문장 인 것이 바람직합니다. 깨진 문장을 읽는 것은 약간 불쾌합니다.

0

를 포함하는 문서, 저자가 강조 표시 할 수 있습니다 저자 게시물은 자동으로 넣을 수있는 설명에 사용할 수있는 키워드는 무엇을 할 때 메타 설명 태그에.

+0

나는이 옵션에 대해 생각 해왔다. 그러나 사용자를 위해 시스템을 가능한 한 쉽게 유지하고 싶다. 따라서이 옵션은 불가능합니다. (유료 기부 및 물건에는 좋지만 청중에게는 그렇지 않습니다.) – Jacco