거의 모든 유형의 웹 사이트에서 사용할 수 있고 웹 사이트를 저장할 수있는 유연성을 갖춘 웹 스크래핑 도구를 만드는 것이 가장 좋고 (가장 짧은) 방법은 무엇입니까? 검색을 위해 데이터베이스에. 나는 "google search"와 비슷한 것을 만들고 싶다. 검색을하기 전에 "google search"가 모든 웹 사이트를 그들의 서버에 캐시한다. 이것은 내
2 utf-8 텍스트 파일이 있어야합니다. 파일의 각 행에는 Ü, Ö, ą, ª와 같은 언어 특정 문자를 포함 할 수있는 문자열이 있습니다. 문자열은 무작위 순서 및 길이이며 반복 될 수 있습니다. 첫 번째 파일에는 적어도 3 백만 건의 행이 있습니다 (1mld 행을 넘는 것은 쉽습니다). 두 번째 파일은 작아서 일반적으로 약 400,000 행을 얻습니다
그래서 온라인 게임에서 나를 위해 타일을 배치하는 greasemonkey 스크립트를 작성하려고합니다. 배치 타일을 알아 냈습니다 만 스크립트를 확장하려면 루프를 이동 횟수로 제한해야합니다. <h2>5</h2>Level:<font size="4px" color="red"> 1455</font><br><br>Moves:<font size="4px" color=
나는 주석을 통한 패턴 매칭을위한 자연어 문법 규칙을 작성하기위한 오픈 소스 프레임 워크를 찾고있다. 당신은 정규 표현식과 같다고 생각할 수 있지만 문자 레벨이 아닌 토큰에서 매칭합니다. 이러한 프레임 워크는 일치 기준이 입력 토큰이나 스팬에 첨부 된 다른 속성을 참조 할뿐만 아니라 조치에서 그러한 속성을 수정해야합니다. 이 설명에 맞는 그 중 내가 알고있
나는 그 음식을 다음과 같은 설명을 한 USDA 영양 데이터베이스, 함께 일하고 있어요 : 쉼표가 명확하게 분리 된 개체에 사용됩니다 여기에 패턴이있다 Cheese, fontina
Cheese, cheddar
Cheese, cottage, lowfat, 2% milkfat
Cheese, cottage, lowfat, 1% milkfat
Apples,
Regex experts help help please! (세 가지 요소 유형이 있다는 것을 알고) 나는 다음과 같은 방법으로이 두 문장의 다른 가능한 요소를 추출하기 위해 노력하고 '(JEN) This is a sentence.'
'This is another sentence (412).'
: 나는 다음과 같은 두 가지 예를 ['JEN', 'This
현재 정보를 추출하려고합니다. 예 : 보낸 사람 또는받는 사람은 청구서와 같은 비즈니스 문서에서 문서는 ocr 소프트웨어로 xml 파일로 처리되었으므로 형식 지정 특성이 주석으로 지정됩니다. 나는 보낸 사람과받는 사람과 같은 기능으로 수동으로 유사한 문서 하나를 주석 처리 한 후 새 문서에서 특정 정보를 추출하려고합니다. 그래서 내 질문은 학습 또는 일치하