0

여기에 속한 질문이 여기에 속하기를 바랍니다. 그래서 제가 지금 다루고있는 문제는 여기에 있습니다 : 제조 공정 (센서 데이터, 프로세스 매개 변수 등)에서 수집 한 데이터가 있고 스크랩 여부에 관계없이 생산 라인을 떠나는 모든 부품에 대한 데이터가 있습니다. 그래서 각 부분마다 공정 데이터와 품질이 있습니다. (0 : 좋은 1 : 나쁜)불명확 한 데이터 세트

목표는 제조 공정을 최적화하는 것입니다. 즉, 스크랩을 최소화하는 최적의 공정 매개 변수를 찾는 것입니다.

지금까지 내가 한 것은 : 다른 분류 알고리즘 (임의의 포리스트, SVM, 신경망)을 시도했지만 아무도 좋은 정확도를 얻을 수 없었습니다. 그 이유는 데이터가 매우 모호하다고 생각합니다. 즉, 동일한 프로세스 매개 변수가있는 부품이있는 경우 일부는 좋지 않을 수 있지만 일부는 스크랩되었을 수 있습니다. 그러나 품질과 공정 매개 변수 사이에는 분명히 관련이 있습니다. 내가 원했던 부분이 좋거나 나쁘다고 생각되는 "확률"을 예측하는 것입니다. 나는 확률 밀도를 추정하고 싶습니까? K- 가까운 이웃들과이 작업을 수행 할 수 있습니까?

답변

0

시도 할 수있는 단계는 각 매개 변수에 대해 으로 추정하는 것입니다. 여기서 x는 매개 변수 값이고 은 양호/불량 표시기 변수입니다.

이 특정 배포를 따르지 않을 경우 해당 유형에 대한 가치 유형을 알지 못해서 제안을하기가 어려울 수 있습니다.

A "모델 무료"접근 방식은 n 개의 관측 의 세트가 지정되면 (자),하는 것입니다, "분리 (Discretize)"매개 변수 x 그래서

은 그럼 당신은

를 통해 PMF를 추정 할 수 있음

그리고 "나쁜"경우에도 마찬가지입니다.

각 매개 변수에 대해 을 사용한 후에 해당 매개 변수의 "양호"및 "불량"사례 간의 상대 엔트로피/KL 발산을 계산할 수 있습니다. 두 클래스 사이에 더 큰 차이가있는 매개 변수가 가장 중요하며 pmfs는 어떤 값이 나쁜 성능을 나타내는지를 보여줍니다.

이것은 당연히 사실 일 수없는 매개 변수 iid를 가정하고 있지만, 독립적이지 않고 그에 따라 이산적인 공동 매개 변수를 고려하여 유사한 프로세스를 수행 할 수 있습니다.