IBM이 자체 개발을 기다리지 않고 현재 4 개 언어 (영어, 스페인어, 아랍어 및 일본어) 이외의 언어에 대한 서비스를 개발할 수있는 방법이 있다고 생각하십니까?다른 언어에 대한 IBM Watson의 개성 통찰력?
나는 그리스어로 된 트윗에 관심이 있으며 곧 개발할 것이라는 것을 진지하게 생각하고있다. 그리스어에서 영어로 텍스트를 번역 한 다음 서비스를 사용하는 방법에 대해 생각했지만 어색한 작업 일 수 있습니다.
IBM이 자체 개발을 기다리지 않고 현재 4 개 언어 (영어, 스페인어, 아랍어 및 일본어) 이외의 언어에 대한 서비스를 개발할 수있는 방법이 있다고 생각하십니까?다른 언어에 대한 IBM Watson의 개성 통찰력?
나는 그리스어로 된 트윗에 관심이 있으며 곧 개발할 것이라는 것을 진지하게 생각하고있다. 그리스어에서 영어로 텍스트를 번역 한 다음 서비스를 사용하는 방법에 대해 생각했지만 어색한 작업 일 수 있습니다.
요약하면 쉽지 않습니다. PI 팀은 새로운 언어를 추가 할 때 먼저 많은 수의 심리 조사 및 관련 소셜 데이터를 수집합니다. 이것은 특정 언어 모델을 교육하는 데 사용됩니다. 그런 다음 해당 언어로 소량의 소셜 미디어 데이터에 대한 정규화가 수행됩니다 (백분위 수를 얻으려면).
트위터 텍스트를 그리스어에서 영어로 번역 한 다음 영어 버전의 PI를 통해 실행할 수 있습니다. 그러면 동일한 프로세스로 실행하는 다른 사용자와 관련하여 주어진 작성자의 프로필을 알 수 있습니다. 그러나이 프로파일은 다른 언어와 비교할 수 없으며 모델이 현지 텍스트로 특별히 훈련되지 않았기 때문에 사회적 편향을 표시합니다 (예 : 일반적으로 일본어 텍스트가 미국 영어 텍스트보다 많이 예약 됨). 마지막으로 네이티브 스피커가 사용한 단어와 약간 다른 단어를 번역 서비스에서 사용할 수 있으므로 사용 된 번역 서비스에서 비롯되는 편견을 보여줍니다. 따라서 이러한 경고를 알고 있습니다. 여전히 번역하고 싶다면 원시 점수에 집중하십시오 (정규화 된 점수는 사회적 편향을 과장 할 것이기 때문입니다). 이러한 원시 점수를 비교하여 일반적인 성격 아이디어를 얻을 수 있습니다.