text-processing

    1

    1답변

    문제가있어 어떤 알고리즘을 적용해야하는지 알 수 없습니다. 두 경우에는 클러스터링을 적용 할 생각이지만 사례 1에 대해서는 전혀 알지 못합니다. 나는 5 백만 개의 신용 카드 활동 문서를 가지고 있습니다. 각 문서는 잘 정의되어 있으며 한 줄에 하나의 거래가 들어 있습니다. 날짜, 금액, 소매 업체 이름 및 소매 업체에 대한 간단한 5 ~ 20 단어 설명.

    0

    1답변

    models[variable][index] 여기서 변수는 문자와 숫자의 거의 모든 조합이 될 수 있으며 [0- 9a-Z] {4,12}. 텍스트에는 그러한 변수가 수백 가지 있습니다. 정확한 문자열의 형태를 알 필요가있다. 문자열을 "기억"하고 나중에 사용하는 방법이 있습니까? 또는이 경우 도움이 될 수있는 다른 방법/소프트웨어? 미리 감사드립니다. 도중

    4

    1답변

    PDF에서 텍스트를 추출하려고합니다. PDF는 힌디어 (유니 코드)로 된 텍스트를 포함합니다. 내가 사용하고있는 추출 유틸리티는 Apache PDFBox (http://pdfbox.apache.org/)입니다. 추출기는 텍스트를 추출하지만 텍스트는 인식 할 수 없습니다. 많은 인코딩과 글꼴을 변경하려고 시도했지만 예상 텍스트가 여전히 인식되지 않습니다. P

    1

    1답변

    이 문제에 대한 해결 방법은 많은 사람들에게 분명 할 것 같지만 계속 묻습니다. target_item()[0]가 source_list에 source_item()[1], return target_item()[0],source_item()[0], target_item()[1]에 일치하는 경우 target_list =['apples 1', 'oranges 1',

    3

    2답변

    내 복잡한 XML에서 문자열로 이미 저장되어 있지만 일부 텍스트/xml 처리를해야합니다. 목표는 일부 의 시작 인덱스가 인 노드를 찾는 것입니다. 다른 노드 (노드/요소 클래스 참조) 중첩에 대한 정보 : 어느 자식을 배치해야 하는지를 나타내는 정수 배열입니다. 예 : 배열 : 2 1 0 그리고 주어진 트리 root |--root-child0

    2

    3답변

    나는 다음과 같은 텍스트 파일이 있습니다 A,B,C A,B,C A,B,C 방법은 텍스트 파일을 처리하고 다음과 같은 출력을 얻기 위해 표준 * nix에서 스크립트 도구 (잘라 내기, 그렙, AWK, 나오지도 등)를 사용하여, 거기를 : A A A B B B C C C

    1

    1답변

    저는 잠시 동안 씨름하고 있습니다. 살펴볼 코드가 많다는 것을 알고 있지만 문제가있는 곳을 알 수 없으므로 좁힐 수는 없습니다. 나는 그것을받을 것이다. 나는이 클래스를 작성하여 bbcodes를 구문 분석했습니다. 그것은 주로 strtok()를 사용하며, 두 태그를 바로 옆에 놓지 않는 한 클래스는 훌륭하게 작동합니다. 예를 들어 [b] [i]test1[/

    31

    1답변

    은 리눅스에서 텍스트가 포함 된이 아닌 파일을 어떻게 찾을 수 있습니까? 기본적으로 나는 다음의 역수를 찾고 있습니다 find . -print | xargs grep -iL "somestring"

    1

    2답변

    주어 데이터 : : a b 1.1 c d 2.3 b a 1.1 가 가능한가 thired 열을 기반으로 그러한 파일을 정렬하여 출력 이도록 번째 열에있는 엔트리가 중복 라인을 제거하는 것 a b 1.1 c d 2.3 또는 c d 2.3 b a 1.1 . 매우 큰 파일 집합에 대해이 작업을 수행하기 위해 python, R 또는 명령 줄 유틸리

    1

    5답변

    각 20 ~ 60 바이트의 고유 한 ASCII 텍스트 문자열이 ~ 35000 개 있습니다. 나는 그것들 안에 유일한 색인을 소개하고 싶다. 단순히 번호를 매기는 것은 여러 가지 이유로 바람직하지 않습니다. MD5와 같은 암호화 등급 기능은 정상적으로 작동하지만 과장이라고 생각합니다. 이것은 궁극적으로 모바일 프로젝트를위한 것이기 때문에 저는 스토리지와 CP