나는 20,000 권의 마스터 기사집을 가지고 있으며 매일 약 1-200 페이지에 약 40 만 편의 기사를 얻을 것입니다. 이제이 400k 기사 중 각 기사가 내 기사 모음집 사본 또는 수정 버전인지 확인하려고합니다. (표절 60 % 이상인 문안은 나와 잘 맞습니다.) 사용해야 할 알고리즘 및 기술은 무엇입니까? 매우 효율적이고시의 적절한 방법으로 문제를
내가 터미널에 쓸 때 :이 ./sherlock *.txt
이 작동하지만 나는 import subprocess
subprocess.call(['./sherlock','*.txt'])
import subprocess
subprocess.call('./sherlock','*.txt',shell=True)
import subprocess
subp
community wiki on Quora을 읽은 후 GitHub를 실험 해 보는 것이 좋을 것이라고 결정했습니다. "입문 컴퓨터 과학 숙제보다 실험하는 것이 더 좋은 방법일까요?" 그러나이 관행은 웹에 대한 나의 해결책을 열어 주며, 다른 학생들이이를 사용하여 표절 할 수 있다고 우려하고 있습니다. 나는 read other questions on Stac
표절 검사기 (Turnitin 웹 사이트와 같은)가 어떻게 작동하는지 매우 감탄했습니다. 그러나 어떻게 그 일을합니까? 매우 효과적인 방법으로, 나는이 영역을 처음 사용했기 때문에 비슷한 단어를 검색하는 알고리즘이나 유사한 문장을 검색하는 데 사용되는 것과 비슷한 것이 있습니까? 대단히 감사합니다.
연습용으로 PHP에서 작은 표절 탐지 시스템을 구축 중입니다. 글쎄 구글에 대한 조사를 해본 결과, Google API (맞춤 검색 API)를 사용하여 표절 검색 소프트웨어를 구축 할 수 있다고 생각했습니다. Well I found this question very helpful [How would you code an anti plagiarism site
우리는 마지 못해 칠판을 사용하여 테스트를 실시했으며 여러 학생이 여러 HTML 서식으로 답변했습니다. 나는 Word에서 답장을 쓰고 복사/붙여 넣기 답변을 통해 서식을 추가한다고 상상할 수 있습니다. 하지만이 스팬 태그는 <span class="goog_qs-tidbit goog_qs-tidbit-0"> 몇 번 나타납니다. 나는 그것이 구글 검색에서 올지
나는 이것을 학계의 스택에서 묻고 싶지만, 기술적으로 너무 구체적이라고 생각했다. 학생이 웹 사이트를 만들도록 지정하는 과제의 경우 온라인 서비스 (예 : Wix, simvoly 또는 website.com)를 사용하여 이러한 사이트를 만들었습니까? 아니면 필기체와 템플릿을 구별 할 수있는 구체적인 지침이 있습니까? 마크 업에 특정 코멘트를 삽입하는 것에 대
나는 유사성을위한 소스 코드를 비교할 수있는 도구를 찾고 있습니다. 우리는 방대한 양의 거짓 긍정 (false positive)을 갖고있는 매우 사소한 시스템을 가지고 있으며 실제 긍정은 쉽게 그 안에 묻힐 수 있습니다. 내 요구 사항은 다음과 같습니다 오탐 (false positive)의 비교적 적은 양의 좋은 검출 율 단지 하나의 값보다 더 복잡한 출력
2 개의 소스 코드 (언어 C, Java, Lisp ...와 관계없이)가 서로 표절 될 수 있다는 강한 신호가 있음을 어떻게 알 수 있습니까? 배경 : 컴퓨터 언어에 대한 첫 번째 세미나를 제공 할 예정입니다. 우리는 C/C++, Python, Java, ...와 같은 주요 프로그래밍 언어를위한 작은 연습을 준비했습니다. 또한 OCaml, Haskell,