2017-12-22 25 views
-3

배경 : WINDOWS에서 "데이터 막대한"작업을 수행 할 수있는 R의 간단한 분산 환경을 만들고 싶습니다. 예를 들어, "큰"행렬 곱셈을 계산합니다. 다양한 솔루션이있는 것 같아서 잠시 동안 노력했지만 해결할 수는 없습니다.여러 컴퓨터간에 데이터를 어떻게 변환 할 수 있습니까?

이미 시도 : Rserve & 눈, 강설량과 같은 패키지.

몇 가지 방법을 시도했지만 클라이언트간에 데이터를 변환하는 적절한 솔루션을 찾을 수 없으며 모든 데이터 변환이 마스터를 통해 이루어지면 재앙이 될 수 있습니다.

질문 : 클러스터에서 원하는대로 두 컴퓨터간에 매트릭스를 제공하는 기능이 있습니까?

Question

나는 어쩌면 일할 수있는 연결 소켓 아이디어를 얻을,하지만 난 그것을 정상적으로 방법을 시작할 수 있나요? WINDOWS에 SSH가 없기 때문에 수동으로 다른 컴퓨터에서 R 스크립트를 시작해야합니까? 교수님 때문에 일해야 해.

그렇게하는 것이 바람직한 지 알고 싶으십니까? 미리 감사드립니다.

+0

저는 RHadoop과 다른 사람들 때문에 리눅스에서 정말 일하고 싶습니다. 그러나 수학을 전공하고 교수는 WINDOWS를 선호합니다. –

답변

1

SparkR을 사용하는 옵션을 사용할 수 있습니다.

Spark API를 사용하여 데이터를 배포해야하며 특정 패키지가 예상대로 작동하지 않을 수도 있지만 작업을 수행 할 가능성이 있습니다.

spark 독립 실행 형 클러스터는 HTTP 및 다중 작업자를 통해 액세스 할 수있는 마스터로 구성됩니다. 리소스 공유를위한 이상적인 솔루션은 아니지만 원사 솔루션의 Hadoop + 스파크보다 가볍습니다.

마지막으로 노트북, 스파크 통합 및 데이터 세트 관리를 통해 이러한 기능을 제공 할 수 있으므로 Dataiku을 시도 할 수 있습니다. 커뮤니티 에디션은 공동 작업이 아니지만 학교에 무료 라이센스를 제공합니다.

+0

고마워, 조엘. Spark은 문제를 해결하지만 리눅스에서만 작동합니다 .Windows에서 해결하고 싶습니다. 추신 Dataiku의 아이디어는 천재이며 기업들은 편리함 때문에 그것을 좋아해야합니다. 그러나이 상황에서 Spark API를 선호하며 다른 대답이 없으면 작업해야합니다. –

+0

죄송합니다. 귀하의 의견을 못 보았습니다. 만족스러운 대답을하면 어려울 것입니다. MS가 WSL (https://en.wikipedia.org/wiki/Windows_Subsystem_for_Linux)을 사용하여 전략을 재검토했다는 사실을 교수에게 말할 수 있습니까? BTW 또한 Windows 10으로 업그레이드하거나 Windows Server에 spark 용 WSL을 설치할 수 있습니다. –

+0

고마워요. @ Joel B WSL이 좋은 방법이라고 들립니다. –